lys_828-CSDN博客

原创【科研数据处理建模】SPSS实战操作生成36类常用论文研究案例，供学习参考

SPSS实战操作0 注意事项1 频数分析表2 交叉分析表3 分组汇总4 正态性检验5 单样本比率检验6 单样本T检验7 配对样本T检验8 两独立样本T检验9 单因素方差分析10 两因素方差分析（无交互作用）11 两因素方差分析（有交互作用）12 多因素方差分析13 协方差分析14 卡方拟合优度检验15 卡方独立性检验16 分层卡方检验17 配对卡方检验和Kappa一致性分析18 单样本wilcoxon检验19 配对样本wilcoxon检验20 Mann-Whitney 检验21 Kruskal-Wallis

2021-06-09 00:47:38 10553 8

原创【机器学习15】决策树模型详解

决策树算法前言一、决策树算法的概述1.树模型2.树模型基本流程二、熵的作用三、决策树构造实例四、信息增益率和gini系数五、剪枝方法六、分类、回归任务七、树模型的可视化展示八、决策边界展示分析九、决策树预剪枝常用参数十、回归树模型总结前言随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的决策树的详细内容。一、决策树算法的概述1.树模型决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

2020-09-19 20:12:26 34695 25

原创【python】将单元格中的多个数据拆分为多行数据（explode方法使用）

单元格多数据拆分1. 背景与需求2. 问题解决2.1 官方示例2.2 实际操作2.2.1 采坑2.2.2 问题纠错3. 问题解决4. 小结1. 背景与需求在处理数据中，往往需要做多维特征提取（一对多），如下：一个企业会有多个擅长领域，为了作多维度数据特征分析，需要将‘企业画像’中单元格的数据进行拆分成为一行一个特征的数据样式，且其他列数据保持不变，简单的demo（以随机两个公司为例）如下2. 问题解决这里需要使用pandas中的explode方法，注意此方法是在0.25.0版本之后才有，所以确

2020-05-23 17:19:30 13360 9

原创【python】将自定义常用的一些函数封装成可以直接调用的模块方法

将常用一些的函数封装成可以直接调用的模块方法1. 背景2. 具体步骤3. 扩展1. 背景在实际的操作过程中，经常会用到一个功能，如果每次编写代码的时候都进行重新编写或者打开已经编写好的函数进行复制粘贴，这样就显得很麻烦，有没有什么方法可以像导入python模块的那样，直接把要用的函数以模块名+方法的形式调用呢？答案当然是可以的，比如做数据分析时候经常要使用的功能是：实现某一路径下的所有xlsx的合并，文件如下直接给出合并的函数，保留数据格式筛选的接口，将合并后的数据保存在fltered_data文

2020-05-17 17:05:42 17893 11

原创【python】将python代码打包成系统可执行文件（Pyinstaller模块）

python文件打包输出可执行文件1. Pyinstaller模块下载2. Pyinstaller的使用2.1 打开命令行，指引文件路径2.2 直接生成可执行文件3. 常用指令3.1 修改图标3.2 修改名称3.3 修改路径1. Pyinstaller模块下载关于pyinstaller的介绍这里就不再复制粘贴了，可以自行百度，了解它是可以将python源代码打包成可执行文件的模块即可，打开命令...

2020-05-05 13:24:37 33619 24

原创【科学计量】剔除来自unknown的机构与作者文献文献——数据清洗

有时在研究过程中，会遇到不同类型的文献，但是有些文献中的数据会有部分缺失，常见的比如机构，作者和年份等字段，因此为了使用科研工具进行有效的文献计量，数据清洗就显着十分重要

2024-04-11 11:02:18 29

原创【科研笔记】知识星球不可选择内容爬虫

为了解决知识星球中内容不可复制粘贴的问题。进行自动化脚本的开发

2024-04-04 11:02:35 247

原创【科研笔记】Word中同行插入表格和图片（表格和图片放置在同一行）

实现同行多表格和图表的排版设置

2024-03-25 10:03:58 60

原创【科学文献计量】筛选同一作者硕博论文和期刊文献（中文和外文）

在进行某一领域的研究中，由于文献数量较少，因此将中文期刊、中文硕博论文和外文期刊都进行整理。但是这种必然会存在一个问题问题：**硕博论文的一个主题（章节）会对应着中文期刊或者外文期刊**因此有必要筛选同一作者硕博论文和期刊文献，对数据集进行处理

2023-12-06 19:25:00 926

原创【科学文献检索】利用web of science的组配查询功能获取多次文献查询结果的差集、并集、交集

利用web of science的组配查询功能获取多次文献查询结果的差集、并集、交集

2023-12-06 15:17:42 583

原创【科研建模】Industrial Accident Causal Analysis（Gold prize）

基于数据建模发现：从事故级别来看，一般事故级别的轻微风险很多，但潜在事故级别的严重风险也不少。由于有许多 TFIDF 特征与身体的某个部位相关，具有很高的重要性，特别是许多特征与手有关，如手、左手和右手，因此认为手工作业中的错误与事故的发生和严重程度有关。两者的两个事故的水平被认为不严重的水平下降的第一个和最后一个星期，但严重的水平没有多大变化。有了更详细的信息，如工厂的加工数据（如 CNC、电流、电压）、天气信息、员工的个人数据（如年龄、行业经验、工作表现），我们就能更正确地阐明事故原因。

2023-12-05 16:56:30 1311

原创【nlp】4.5 迁移学习实践项目（相关概念、中文分类、填空、句子关系、模型微调）

迁移学习（Transfer Learning）是人工智能领域的一种重要方法，尤其在深度学习中发挥着关键作用。它的基本思想是：将在一个任务上学到的知识应用到另一个相关但不同的任务上。这种方法在处理数据量不足或者计算资源有限的情况下特别有用。本文介绍了中文分类、填空、句子关系和模型微调相关实例

2023-11-28 13:55:16 974

原创【nlp】4.4 Transformer库的使用（管道模式pipline、自动模式auto，具体模型BertModel）

管道（Pipline）方式：高度集成的极简使用方式，只需要几行代码即可实现一个NLP任务。（适合非专业人士）自动模型（AutoMode）方式：可载入并使用BERTology系列模型。（需要学习）具体模型（SpecificModel）方式：在使用时，需要明确指定具体的模型，并按照每个BERTology系列模型中的特定参数进行调用，该方式相对复杂，但具有较高的灵活度。（专业人士）

2023-11-27 13:08:34 1070

原创【nlp】4.2 nlp中标准数据集（GLUE数据集合中的dev.tsv 、test.tsv 、train.tsv）

介绍nlp中的GLUE数据集，以及其中的数据结构样式

2023-11-26 15:27:22 1231

原创【nlp】4.3 nlp中常用的预训练模型（BERT及其变体）

对常用的nlp常用的预训练模型进行介绍

2023-11-26 15:26:30 1099

原创【nlp】4.1 fasttext工具介绍（文本分类、训练词向量、词向量迁移）

作为NLP工程领域常用的工具包, fasttext有两大作用:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:补充知识点：层次softmax要比普通softmax要快训练词向量可以使用层次softmax结构，来提升超多类别下的模型性能为什么层次softmax要比普通softmax要快0 霍夫曼树特点二叉树、带权二叉树1 文章中所有单词都挂在叶子节点上2 每个单词到根节点的路径path唯一（按照霍夫曼树生成方法进行编码)3 出现频率越大

2023-11-26 14:56:40 1507

原创【nlp】3.6 Tansformer模型构建（编码器与解码器模块耦合）

介绍和复现Transformer综合模型，将之前复现的函数进行整合为Encode_Decode，最后借助make_model函数进行调用执行模型

2023-11-24 18:52:38 781

原创【nlp】3.5 Transformer论文复现：3.解码器部分（解码器层）和4.输出部分（线性层、softmax层）

讲解和复现了Transformer架构中的解码层和解码器部分、以及输出部分Liner和Softmax层内容

2023-11-24 17:06:19 1308

原创【nlp】3.4 Transformer论文复现：2. 编码器部分（规范化层、子层连接结构、编码器层）

对Transformer架构中编码器部分的规范化子层、子层连接结构、编码器层级编码器耦合过程进行说明，并进行了代码复现

2023-11-24 15:18:45 1547

原创【nlp】3.3 Transformer论文复现：2. 编码器部分（掩码张量、多头注意力机制、前馈全连接层）

对Transformer架构中的掩码张量、多头注意力机制、前馈全连接层进行内容的讲解已经代码复现

2023-11-24 13:24:15 1636

原创【nlp】3.2 Transformer论文复现：1. 输入部分（文本嵌入层和位置编码器）

对Transformer架构中的输入端中的文本嵌入层和位置编码层进行详细介绍，主要介绍了其作用、代码实现以及实操过程中的注意事项

2023-11-23 10:47:54 628

原创【nlp】3.1 Transformer背景介绍及架构

在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer（也区分base、large、big的规模），其基本上可以看作是工业界的风向标, 市场空间自然不必多说！

2023-11-22 15:40:50 702

原创【nlp】2.8 注意力机制拓展

如果Source是中文句子，Target是英文句子，那么这就是解决机器翻译问题的Encoder-Decoder框架；如果Source是一篇文章，Target是概括性的几句描述语句，那么这是文本摘要的Encoder-Decoder框架；如果Source是一句问句，Target是一句回答，那么这是问答系统或者对话机器人的Encoder-Decoder框架

2023-11-22 13:55:22 666

原创【nlp】2.7 seq2seq英译法实战项目解析

seq2seq模型架构分析:seq2seq模型架构包括三部分，分别是encoder(编码器)、decoder(解码器)、中间语义张量c。其中编码器和解码器的内部实现都使用了GRU模型图中表示的是一个中文到英文的翻译：欢迎来北京 → welcome to BeiJing。编码器首先处理中文输入"欢迎来北京"，通过GRU模型获得每个时间步的输出张量，最后将它们拼接成一个中间语义张量c；接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量, 逐个生成对应的翻译语言。

2023-11-21 21:16:10 579

原创【nlp】2.6 注意力机制Attention

注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.说明: NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型.

2023-11-16 18:52:48 86

原创【nlp】2.5(gpu version)人名分类器实战项目（对比RNN、LSTM、GRU模型）工程管理方式

本文是在【nlp】2.5(cpu version) 人名分类器实战项目（对比RNN、LSTM、GRU模型）的基础上更改gpu设置和增添了代码工程管理方式的应用

2023-11-16 17:23:20 1182 1

原创【nlp】2.5(cpu version) 人名分类器实战项目（对比RNN、LSTM、GRU模型）

关于人名分类问题:以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等.数据格式说明每一行第一个单词为人名，第二个单词为国家名。中间用制表符tab分割。

2023-11-14 22:02:16 1537

原创【nlp】2.4 GRU模型

更新门重置门Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.

2023-11-14 16:38:13 729

原创【nlp】2.3 LSTM模型

LSTM（Long Short-Term Memory）也称长短时记忆结构，它是传统RNN的变体，与经典RNN相比能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象。

2023-11-14 15:02:19 515

原创【nlp】2.2 传统RNN模型

我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.函数调用后输出结果如下。函数调用输出结果如下。

2023-11-14 12:23:49 491

原创【nlp】2.1 认识RNN模型

RNN(Recurrent Neural Network),，中文称作循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出。一般单层神经网络结构：RNN单层网络结构：以时间步对RNN进行展开后的单层网络结构：RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响。

2023-11-14 08:58:34 335

原创【nlp】1.5 文本数据增强（回译法）

回译数据增强目前是文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另外一种语言(一般选择小语种)，之后再翻译回原语言,，即可认为得到与与原语料同标签的新语料，新语料加入到原数据集中即可认为是对原数据集数据增强。补充：使用这个google_trans_new模块进行翻译的接口存在两个问题。处理完毕后，运行结果如下。调用函数输出结果如下。

2023-11-13 20:36:15 583

原创【nlp】1.4 文本特征处理（n-gram特征、文本长度规范：补齐与截断）

给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.除此之外, 我们还可以把"是谁"和"敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中,假设1000就代表"是谁"和"敲动"共同出现且相邻。

2023-11-13 20:14:47 549

原创【nlp】1.3 文本数据分析（标签数量分布、句子长度分布、词频统计与关键词词云）

文本数据分析能够有效帮助我们理解数据语料，快速检查出语料可能存在的问题，并指导之后模型训练过程中一些超参数的选择。标签数量分布句子长度分布词频统计与关键词词云。

2023-11-13 19:38:31 819

原创【nlp】1文本预处理总括目录（附各章节链接）

文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如：将文不转化成模型需要的张量，规范张量的尺寸等，而且科学的文本预处理环节还将有效指导模型超参数的选择，提升模型的评估指标。一般情况，文本语料的数据分析是程序员首先要做的工作。（假设先有语料，不用自己再打标签，明确分类任务，几分类）回译增强：将文本更换语言，然后再变回原语言，比如中文→韩文→英文→中文。在X中，单词长度是20的有多少个， 21有多少。作用：模型超参数的选择、提升模型的评估指标。10分类中，对Y进行分析，看看是否均衡。

2023-11-13 15:39:15 261

原创【nlp】1.2文本张量表示方法(词向量word2seq和词嵌入Word Embedding)

word2vec是一种流行的将词汇表示成向量的无监督训练方法。该过程将构建神经网络模型，将网络参数作为词汇的向星表示它包含CBOW和skipgram两种训练模式CBOW(Continuous bag of words)模式给定一段用于训练的文本语料，再选定某段长度(窗口)作为研究对象，使用上下文词汇预测目标词汇概念：1). 也是一种词向量的表示方法 (把词表示成向量;一句话表示成向量矩阵2). 使用深度学习的方法也就是使用深度学习网络的方法。使用深度学习网络的参数来表示词向量。

2023-11-13 15:31:11 895

原创【nlp】1.1文本处理的基本方法

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

2023-11-10 19:10:08 396

原创【科研绘图】将echarts中的散点地图和热力地图融合到同一个地图上

实现散点地图与热力地图的融合

2023-10-18 10:47:02 255

原创【科学文献计量】ChatGPT的api使用及实现上下文处理

本文介绍了基于ChatGPT API 的使用实例，包括模型的选择、max_token设置、以及实现GPT根据用户输入的上下文进行理解后回答的实例

2023-10-13 11:08:10 253

原创【科学文献计量】使用pybibx对自己的文献数据集进行分析的模板整理

介绍使用pybibx库对个人数据进行文献分析的模板代码

2023-10-12 08:52:51 230

多分类多字段箱型图或者小提琴图绘制测试数据

博文【python科研绘图】多分类多字段箱型图或者小提琴图绘制中的测试数据

2022-12-01

中国地图绘制的json文件

用于补充【python数据分析】绘制疫情可视化地图、气泡图中地图文件数据

2022-04-21

数据分析师专栏中的机器学习的源代码

针对于博客中评论一直有人需求源代码，这里上传源代码供学习参考，对于数据，也在资源里（数据分析师专栏中的机器学习的补充数据）可以找到，加油学习

2022-04-19

博客中数据分析师专栏，机器学习部分的补充数据文件

博客中数据分析师专栏，机器学习部分的补充数据文件有文件缺少可以直接私信博主补充

2022-04-19

大数据实战项代码.zip

大数据实战项目中的代码和web文件中的文件

2021-12-08

opencv人脸识别实战操作.zip

本资源包含了博客：利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别一文中的所需材料和源代码，用于交流学习，不涉及商业用途

2020-12-14

上海行政区、人口和道路的gis数据.zip

用于博客python数据分析实战中餐馆选址中的数据支撑，包含了上海市行政区、人口和城市道路三个gis数据，可以直接加载

2020-11-25

mysql和navicat.zip

本资源用于博客：Mysql 5.x安装过程梳理中的软件部分，文件中包含了mysql5.540版本的数据库文件和navicat15版本的软件安装包，只用作于学习交流参考。

2020-11-16

时间序列分析.zip

资源是博客：时间特征序列分析汇总（以2021-2019年槽罐车事故数据为例）一文中的数据和ipynb文件，用于对于交流和学习

2020-11-10

贝叶斯新闻分类实战项目文本和停用词数据

本资源是对贝叶斯新闻分类实战项目详解博客一文中的数据资料补充，包含了文本数据，停用词，ipynb文件，仅供读者参考

2020-10-22

信用卡欺诈项目数据和文件.zip

本资源用于博客栏目中的机器学习实例详解中逻辑回归案例模板——信用卡欺诈检测，包含数据和完整的流程ipynb文件

2020-10-09

上海餐饮数据.zip

本数据集作为【python数据分析实战】城市餐饮店铺选址问题（1）—— 对不同菜系进行比较，并筛选出可开店铺的餐饮类型中的数据支撑

2020-06-16

全国县级边界shp低分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源，供学习参考时候，属于中国县级地图的json数据格式

2020-05-26

全国市级边界shp高分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源，供学习参考时候，属于中国市级地图的json数据格式

2020-05-26

virus_data.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源，供学习参考时候，数据整理不易

2020-05-26

链家网出租房源详细信息

本资源就是作为链家网出租房信息的爬虫数据，旨在用于博客正则表达式分组及pandas实用操作一文的数据来源。

2020-05-23

江苏省科学技术综合奖.zip

本数据为江苏省科学技术综合奖近十年来的全部的获奖人员及详细信息的名单，包含了doc、xls和pdf数据，主要用来做项目分享

2020-05-16

项目：知乎数据.zip

本资源为知乎数据信息爬取，用于做python数据分析实战项目，数据字段包含_id 关注的收藏夹、关注、关注者、关注的问题、关注的话题、关注的专栏、职业1、职业2、回答、提问、收藏、个人简介、居住地、所在行业、教育经历、职业经历等信息

2020-05-08

数据爬取：六普常住人口数.zip

本资源为全国第六次人口普查各省市常住人口数量，共统计各省市数据量677条，其中包含各省的统计以及其下辖的区县的人口数据。用于统计分析和数据处理

2020-05-08

机器学习数据.zip

本资源作为专栏机器学习专栏的原始数据，包含了简单的数据，未处理的数据和最终处理完成后的房价数据，用于机器学习相关知识的学习

2020-05-07

项目：电商打折套路解析.zip

本资源为淘宝美妆双十一前后的爬虫数据，时期为11月5-11月14号，作为本博客的python数据分析实战的电商套路分析的数据来源

2020-05-07

项目：国产烂片深度揭秘.zip

本数据资源来源于豆瓣电影数据的爬虫所得，共有数据2458条，作为本博客栏目下的python数据实战分析中国产烂片深度解析的数据来源

2020-05-07

中国全部31个省市区的经纬度信息数据（2020年4月29日爬取）

该压缩包中包含全国各省市区的汇总经纬度数据（精度在小数点5位及以上），还有按照各个省份分别统计的市区县对应的经纬度数据。数据爬取时间为2020年4月29日爬取

2020-04-29

机器学习源码.zip

用于博客中机器学习部分的参考，作为资源的补充，进行知识的分享，资料的运行环境是在jupyter notebook下进行的

2020-04-25

鲁迅对于《祝福》中祥林嫂的情感倾向分析.ipynb

本资源是博客【python舆情分析（5）】情感倾向分析之鲁迅《祝福》里对祥林嫂（特定人物）的情感倾向的资料补充，作为学习资料进行参考的

2020-03-26

projects.zip

该资源是作为【机器学习（14）】指定路径下文件的选取、数据缺失值查询及处理、帕累托分析、多文件数据合并与线性回归预测一条龙解析（全过程函数式编程）博客的资源补充

2020-03-19

2_class.rar

这个资源仅用于本博客（【深度学习】利用tensorflow2.0卷积神经网络进行卫星图片分类实例操作详解）的复习分享用，

2020-02-12

auto_office1.zip

用于输出目录所有文件夹这篇文章的示例，读者可以根据文章的内容和代码进行auto_office1.zip压缩文件的使用

2020-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人