自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 资源 (1)
  • 收藏
  • 关注

原创 4 文本相似判断任务

简单的文本相似模型微调

2024-04-24 17:33:27 247

原创 3 命名实体识别调优化

命名实体识别

2024-04-23 17:39:15 354

原创 2 使用自己的数据训练一个简单的二分类模型

二分类微调

2024-04-22 15:22:29 772

原创 1 transformers:词典,(文本如何处理)

NLP任务最初,就是在于如何处理文本。无论从TFIDF到word2Vec的过程,还是BERT都是想找到文本的向量表达,如何表示更好处理我们的下游任务。那么,这个过程是如何做的呢,本文主要就是介绍这一个过程,还是代码为主,你要知道所有的大模型都干了这个。面对这么多的字,以及字之间的组合这是一个指数级别的增长。再者现在的网络文化无时无刻不再增加新的词汇,“提灯定损”,你懂的!VOF。那么模型具有一定的延时性,不可能包好所有的词,一个典型的没见过的用一个统一的符号代表。

2024-04-22 14:51:49 347

原创 0 transformers入门,HuggingFace!

HuggingFace使用入门,自己想学学看看能坚持多久。

2024-04-22 13:52:48 248

原创 算法章节目录

目录

2024-04-19 17:03:29 411

原创 5 CatBoost模型

catboost模型介绍

2024-04-19 16:53:39 1071

原创 4 lightGBM

这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显:首先,

2024-04-19 14:27:42 985 1

原创 7 Transform结构

面试者经常会问transform这个模型,一个典型的seq2seq结构。

2024-04-18 17:35:07 919

原创 3 xgboost

XGBoost与GBDT比较大的不同就是目标函数的定义,基本思想是一致的,同样是利用加法模型与前向分步算法实现学习的优化过程。

2024-04-17 21:36:08 309

原创 6 tabNet: 堪比xgboost的深度学习模型

之前用过这个模型,现在也就想写一下。看过很多资料,这个文章最舒服大家可以参考下。tabnet的主体思想是用nn来表示决策树,深度学习能够对多种类型数据进行编码,并将其结合起来减轻特征工程的依赖、端到端的表征学习。

2024-04-17 15:27:29 940

原创 1 回归:锂电池温度预测top2 代码部分(一) Tabnet

【代码】1 回归:锂电池温度预测top2 代码部分(一) Tabnet。

2024-04-17 14:33:44 322

原创 2 逻辑斯蒂回归(分类)

逻辑斯蒂回归(Logistic Regression)是一种用于解决分类问题的线性模型。尽管名字中包含“回归”一词,但逻辑斯蒂回归实际上用于处理分类问题,特别是二分类问题。逻辑斯蒂回归通过将线性回归模型的输出通过一个逻辑斯蒂函数(Logistic Function)进行转换,将连续的预测值映射到 0 到 1 之间的概率值。

2024-04-17 14:02:00 778

原创 0 回归-海上风电出力预测

分析一下:特征工程如何做。

2024-04-17 11:09:42 449

原创 分类损失函数与评估指标

分类损失函数以及指标

2024-04-16 19:28:47 983

原创 2023年城市交通系统客流量预测算法赛

该比赛马上就要结束,0424日答辩。获得了前六的名次,本次比赛给我的感觉就是一言难尽呐。

2024-04-16 18:21:04 239

原创 回归损失函数

回归损失函数也可以做为评价指标使用,但是有没有想过数据分布与损失函数之间的关系呢!。我曾经遇到两个问题,类似正太分布与非正太分布损失函数。比如下面: 0的值异常多。可以采用非正太损失函数,使用tweedie loss、possion loss等损失函数替代mse。这些lgb、xgb都可调参数。

2024-04-16 17:39:54 849

原创 1 GBDT:梯度提升决策树

前面简单梳理的基本的决策树算法,那么如何更好的使用这个基础算法模型去优化我们的结果是本节要探索的主要内容。梯度提升决策树(Gradient Boosting Decision Trees)是一种集成学习方法,通常用于解决回归和分类问题。它通过串联多棵决策树来构建一个强大的模型。在训练过程中,每棵树(CART树)都试图纠正前一棵树的错误,以逐步改进模型的性能。

2024-04-16 16:16:40 765

原创 0 决策树基础

决策树基础知识点

2024-03-28 16:09:13 945

原创 万年历节假日数据爬取

外部特征提取

2024-03-05 13:46:33 237

原创 hive上手操作

Hive Sql 大全(hive函数,hive表)-CSDN博客

2024-02-28 17:13:46 306

原创 6 时间序列(不同位置的装置如何建模): GRU+Embedding

很多算法比赛经常会遇到不同的物体产生同含义的时间序列信息,比如不同位置的时间序列信息,风力发电、充电桩用电。经常会遇到该如此场景,对所有数据做统一处理喂给模型,模型很难学到区分信息,因此设计如果对不同位置的装置做嵌入操作,这也是本文书写的主要目的之一,如果对不同位置装置的时序数据做模型呢?

2024-01-22 10:51:26 652

原创 2023“SEED”第四届江苏大数据--新能源赛道 复赛Btop2总结

第一名是真的强!基本都是第一,难以撼动。昨天新能源赛道终于落下了帷幕,真的不是一般的卷。最后的排名都到了0.0几分的差距。跟队友很辛运复赛B榜单目前进入top3的行列,下面简单总结一下赛事过程。初赛按照天级别预测未来一周各个充电站的电量,榜单最高分达到215,我们队伍只是停留在220分左右。交流群里面有人喊话:单模220,如果真的是这样,也很想学习下特征工程的思路以及使用模型。这个比赛让我感觉很诧异的点在于使用历史特征构造根本得不到效果的提升,初赛一值是队友按照他的思路建模。

2023-12-29 17:39:20 528 3

原创 3 文本分类入门finetune:bert-base-chinese

在加载模型后,可以使用它的 `encode` 方法将文本转换为向量表示,或者使用 `forward` 方法对文本进行特定任务的预测。使用 `bert-base-chinese` 模型时,可以将其作为一个特征提取器,将输入的文本转换为固定长度的向量表示,然后将这些向量输入到其他机器学习模型中进行训练或推断。需要注意的是,`bert-base-chinese` 是一个通用的中文语言模型,但它可能在特定的任务上表现不佳。3. 创建模型架构:根据你的任务需求,创建一个适当的模型架构。与之前的训练数据一样使用;

2023-12-07 11:03:27 2042

原创 2 文本分类入门:TextCNN

TextCNN 的主要思想是使用一维卷积层来提取文本中的局部特征,并通过池化操作来减少特征的维度。这些局部特征可以捕获词语之间的关系和重要性,从而帮助模型进行分类。TextCNN 是一种用于文本分类的卷积神经网络模型。它在卷积神经网络的基础上进行了一些修改,以适应文本数据的特点。

2023-12-03 13:49:58 1094

原创 1 NLP分类之:FastText

它结合了传统的词袋模型和神经网络的优点,能够快速训练大规模的文本数据。`nn.Embedding.from_pretrained` 是 PyTorch 中的一个函数,用于从预训练的词向量加载 Embedding 层的权重。需要注意的是,fastText 主要适用于文本分类任务,对于其他类型的自然语言处理任务(如命名实体识别、机器翻译等),可能需要使用其他模型或方法。3. 文本分类:fastText 提供了一个简单而高效的文本分类接口,可以用于训练和预测多类别文本分类任务。备注: CPU训练模型很慢啊!

2023-11-29 18:52:51 671

原创 0 NLP: 数据获取与EDA

二分类任务,正负样本共计6W;

2023-11-28 15:19:17 720

原创 5 时间序列预测入门:LSTM+Transformer

``python```- `d_model`:输入和输出的特征维度(隐藏单元数)。- `nhead`:多头注意力机制中的头数。- `dim_feedforward`:前馈神经网络中间层的维度。- `dropout`:Dropout 层的丢弃率。- `activation`:激活函数的类型,默认为 ReLU。`nn.TransformerEncoderLayer` 的输入和输出形状如下:输入形状:(序列长度, 批量大小, 特征维度) 或 (批量大小, 序列长度, 特征维度)。

2023-11-28 10:54:49 3830 2

原创 4 时间序列预测入门: LSTM+ATTENTION

对于一个给定的查询向量,MHA 会对键向量进行加权求和,权重由查询向量和键向量之间的相似度计算得到,然后将得到的加权和乘以值向量进行输出。MHA 的多头机制可以有效提高模型的表达能力,同时也可以使模型学习到更加多样化和复杂的特征。在多头机制下,输入的序列数据会被分成多个头,每个头进行独立的计算,得到不同的输出。Multi-Head Attention(MHA):MHA是一种多头注意力模型,将注意力机制扩展到多个头,从而增强模型对于不同特征的关注度。embed_dim: 所有的头总的输入维度。

2023-11-26 21:14:29 1579

原创 3 时间序列预测入门:TCN

TCN(全称Temporal Convolutional Network),时序卷积网络,是在2018年提出的一个卷积模型,但是可以用来处理时间序列。一维卷积:在时间步长方向(句子方向)进行滑动,并且输入通道的大小与词向量的大小相同。二维卷积: 先平移然后可下移(宽的方向、高的方向);

2023-11-26 15:02:48 811

原创 2 时间序列预测入门:GRU

把这18个特征作为时步不长(记得是某个比赛的思路)然后特征长度为1 (类比词向量的size)用于控制前一时刻的状态信息被带入到当前状态中的程度,也就是更新门帮助模型决定到底要将多少过去的信息传递到未来,简单来说就是用于更新记忆。(RNN)的一种,可以解决RNN中不能长期记忆和反向传播中的梯度等问题,与LSTM的作用类似,不过比LSTM简单,容易进行训练。GRU 原论文:https://arxiv.org/pdf/1406.1078v3.pdf。决定了如何将新的输入信息与前面的记忆相结合。

2023-11-25 15:47:43 1291

原创 1 时间序列模型入门: LSTM

数据: 2023“SEED”第四届江苏大数据开发与应用大赛--新能源赛道的数据MARS开发者生态社区解题思路: 总共500个充电站状, 关联地理位置,然后提取18个特征;把这18个特征作为时步不长(记得是某个比赛的思路)然后特征长度为1 (类比词向量的size).import sysimport osimport gc# 读取数据# 聚合数据# 合并充电量数据### 合并数据# 后验初始值x0 = data[0] # 令第一个估计值,为当前值p0 = 1.0。

2023-11-25 15:12:36 1197

原创 4如何对BERT 微调-案例

数据下载:环境。

2023-11-15 17:28:21 337

原创 锂离子电池生产参数调控及生产温度预测挑战赛算法挑战大赛-top2方案分享

比赛

2023-10-31 15:23:03 103

原创 3 Pytorch之手写数字识别

【代码】4 Pytorch之手写数字识别。

2023-10-12 16:31:38 87

原创 pytorch学习目录

Anaconda安装_汀沿河的博客-CSDN博客 1Pytorch之反向求导_汀沿河的博客-CSDN博客 2 pytorch之自定义数据加载模块_汀沿河的博客-CSDN博客

2023-10-11 21:45:18 65

原创 2 pytorch之自定义数据加载模块

在数据集合非常大的情况下,鉴于内存限制在模型训练过程中会把训练集划分一批次分别进行训练,因此衍生出改模块torch.utils.data.Dataset。

2023-10-11 17:40:14 73

原创 Anaconda安装

环境windows系统 64位。

2023-10-10 14:48:50 68

原创 1Pytorch之反向求导

那么它将会追踪对于该张量的所有操作(保留计算过程中的梯度信息)。或者可以理解为,这个tensor是一个参数,后续会被计算梯度,更新该参数。之后的每次计算都会修改其grad_fn。对于pytorch中的一个tensor,如果设置它的属性。属性,用来记录做过的操作。

2023-10-10 14:34:56 133

原创 0 Pytorch的入门使用

使用python中的列表或者序列创建tensor。

2023-10-09 15:11:52 50

有关自然语言理解情感分类任务相关的数据集合

有关自然语言理解情感分类任务相关的数据集合

2023-11-29

数据: 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

数据: 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

2023-11-27

linux-jdk-1.7+hadoop-eclipse-plugin2.6.0.zip

通过hadoop2x-eclipse-plugin-master编译器自己编译的hadoop-eclipse-plugin-2.6.0.jar文件

2019-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除