汀沿河-CSDN博客

NLP任务最初，就是在于如何处理文本。无论从TFIDF到word2Vec的过程，还是BERT都是想找到文本的向量表达，如何表示更好处理我们的下游任务。那么，这个过程是如何做的呢，本文主要就是介绍这一个过程，还是代码为主，你要知道所有的大模型都干了这个。面对这么多的字，以及字之间的组合这是一个指数级别的增长。再者现在的网络文化无时无刻不再增加新的词汇，“提灯定损”，你懂的！VOF。那么模型具有一定的延时性，不可能包好所有的词，一个典型的没见过的用一个统一的符号代表。

2024-04-22 14:51:49 347

原创 0 transformers入门，HuggingFace！

HuggingFace使用入门，自己想学学看看能坚持多久。

2024-04-22 13:52:48 248

原创算法章节目录

2024-04-19 17:03:29 411

原创 5 CatBoost模型

catboost模型介绍

2024-04-19 16:53:39 1071

原创 4 lightGBM

这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显：首先，

2024-04-19 14:27:42 985 1

原创 7 Transform结构

面试者经常会问transform这个模型，一个典型的seq2seq结构。

2024-04-18 17:35:07 919

原创 3 xgboost

XGBoost与GBDT比较大的不同就是目标函数的定义，基本思想是一致的，同样是利用加法模型与前向分步算法实现学习的优化过程。

2024-04-17 21:36:08 309

原创 6 tabNet: 堪比xgboost的深度学习模型

之前用过这个模型，现在也就想写一下。看过很多资料，这个文章最舒服大家可以参考下。tabnet的主体思想是用nn来表示决策树，深度学习能够对多种类型数据进行编码，并将其结合起来减轻特征工程的依赖、端到端的表征学习。

2024-04-17 15:27:29 940

原创 1 回归：锂电池温度预测top2 代码部分（一） Tabnet

【代码】1 回归：锂电池温度预测top2 代码部分（一） Tabnet。

2024-04-17 14:33:44 322

原创 2 逻辑斯蒂回归（分类）

逻辑斯蒂回归（Logistic Regression）是一种用于解决分类问题的线性模型。尽管名字中包含“回归”一词，但逻辑斯蒂回归实际上用于处理分类问题，特别是二分类问题。逻辑斯蒂回归通过将线性回归模型的输出通过一个逻辑斯蒂函数（Logistic Function）进行转换，将连续的预测值映射到 0 到 1 之间的概率值。

2024-04-17 14:02:00 778

原创 0 回归-海上风电出力预测

分析一下：特征工程如何做。

2024-04-17 11:09:42 449

原创分类损失函数与评估指标

分类损失函数以及指标

2024-04-16 19:28:47 983

原创 2023年城市交通系统客流量预测算法赛

该比赛马上就要结束，0424日答辩。获得了前六的名次，本次比赛给我的感觉就是一言难尽呐。

2024-04-16 18:21:04 239

原创回归损失函数

回归损失函数也可以做为评价指标使用，但是有没有想过数据分布与损失函数之间的关系呢！。我曾经遇到两个问题，类似正太分布与非正太分布损失函数。比如下面： 0的值异常多。可以采用非正太损失函数，使用tweedie loss、possion loss等损失函数替代mse。这些lgb、xgb都可调参数。

2024-04-16 17:39:54 849

原创 1 GBDT:梯度提升决策树

前面简单梳理的基本的决策树算法，那么如何更好的使用这个基础算法模型去优化我们的结果是本节要探索的主要内容。梯度提升决策树（Gradient Boosting Decision Trees）是一种集成学习方法，通常用于解决回归和分类问题。它通过串联多棵决策树来构建一个强大的模型。在训练过程中，每棵树（CART树）都试图纠正前一棵树的错误，以逐步改进模型的性能。

2024-04-16 16:16:40 765

原创 0 决策树基础

决策树基础知识点

2024-03-28 16:09:13 945

原创万年历节假日数据爬取

外部特征提取

2024-03-05 13:46:33 237

原创 hive上手操作

Hive Sql 大全(hive函数，hive表)-CSDN博客

2024-02-28 17:13:46 306

原创 6 时间序列（不同位置的装置如何建模）： GRU+Embedding

很多算法比赛经常会遇到不同的物体产生同含义的时间序列信息，比如不同位置的时间序列信息，风力发电、充电桩用电。经常会遇到该如此场景，对所有数据做统一处理喂给模型，模型很难学到区分信息，因此设计如果对不同位置的装置做嵌入操作，这也是本文书写的主要目的之一，如果对不同位置装置的时序数据做模型呢？

2024-01-22 10:51:26 652

原创 2023“SEED”第四届江苏大数据--新能源赛道复赛Btop2总结

第一名是真的强！基本都是第一，难以撼动。昨天新能源赛道终于落下了帷幕，真的不是一般的卷。最后的排名都到了0.0几分的差距。跟队友很辛运复赛B榜单目前进入top3的行列，下面简单总结一下赛事过程。初赛按照天级别预测未来一周各个充电站的电量，榜单最高分达到215，我们队伍只是停留在220分左右。交流群里面有人喊话：单模220，如果真的是这样，也很想学习下特征工程的思路以及使用模型。这个比赛让我感觉很诧异的点在于使用历史特征构造根本得不到效果的提升，初赛一值是队友按照他的思路建模。

2023-12-29 17:39:20 528 3

原创 3 文本分类入门finetune：bert-base-chinese

在加载模型后，可以使用它的 `encode` 方法将文本转换为向量表示，或者使用 `forward` 方法对文本进行特定任务的预测。使用 `bert-base-chinese` 模型时，可以将其作为一个特征提取器，将输入的文本转换为固定长度的向量表示，然后将这些向量输入到其他机器学习模型中进行训练或推断。需要注意的是，`bert-base-chinese` 是一个通用的中文语言模型，但它可能在特定的任务上表现不佳。3. 创建模型架构：根据你的任务需求，创建一个适当的模型架构。与之前的训练数据一样使用；

2023-12-07 11:03:27 2042

原创 2 文本分类入门：TextCNN

TextCNN 的主要思想是使用一维卷积层来提取文本中的局部特征，并通过池化操作来减少特征的维度。这些局部特征可以捕获词语之间的关系和重要性，从而帮助模型进行分类。TextCNN 是一种用于文本分类的卷积神经网络模型。它在卷积神经网络的基础上进行了一些修改，以适应文本数据的特点。

2023-12-03 13:49:58 1094

原创 1 NLP分类之：FastText

它结合了传统的词袋模型和神经网络的优点，能够快速训练大规模的文本数据。`nn.Embedding.from_pretrained` 是 PyTorch 中的一个函数，用于从预训练的词向量加载 Embedding 层的权重。需要注意的是，fastText 主要适用于文本分类任务，对于其他类型的自然语言处理任务（如命名实体识别、机器翻译等），可能需要使用其他模型或方法。3. 文本分类：fastText 提供了一个简单而高效的文本分类接口，可以用于训练和预测多类别文本分类任务。备注： CPU训练模型很慢啊！

2023-11-29 18:52:51 671

有关自然语言理解情感分类任务相关的数据集合

数据： 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

linux-jdk-1.7+hadoop-eclipse-plugin2.6.0.zip

空空如也