一蓑烟雨紫洛-CSDN博客

原创用户留存【摘录】

因为当留存相对平缓时，就能证明产品已找到市场与产品相匹配的用户群体，从而也就证明了产品在市场上所具有的价值。例如，在京东的关键事件是完成订单，在易观方舟的关键事件是创建分析，在微博的关键事件可以是浏览好友的微博首页或是发送有内容的微博。然后，我们来看所有时间拉新的用户在第3天的转化情况，即把所有达到第3天的用户加起来，用第3天的合计情况除以总人数，得到第3天所有用户的留存率。如下表所示，统计后发现3%的用户在1天之内触发两次，20%的用户在7天之内触发两次，在第30天时，已经有81%的用户都触发两次以上。

2024-03-19 10:19:05 889

原创【NLP12-莎士比亚风格文本生成任务】

了解文本生成任务和相关数据集掌握使用GRU模型实现文本生成任务的过程。

2024-03-18 15:06:06 415

原创【NLP11-迁移学习】

一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型。在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料，同时语言模型又是许多典型的NLP任务的基础，如机器翻译、文本生成、阅读理解等。一般情况下，微调脚本应该由不同的任务类型开发者自己编写，但是由于目前研究NLP任务类型（分类、提取、生成）以及对应的微调输出结构都是有限的，有些微调方式已经在很多数据集上被验证有效的，因此微调脚本也可以使用已经完成的规范脚本。

2024-03-18 15:03:48 419

原创【NLP10-fasttext工具】

文本分类是将文档（电子邮件、帖子、文本消息、产品评论等）分配给一个或多个类别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类，因此构建文本分类器需要带标签的数据。

2024-03-18 15:02:00 362

原创【NLP9-Transformer经典案例】

其中包括的语料有：用于情感分析的SST和IMDB，用于问题分类TREC，用于及其翻译的WMT14，IWSLT,以及用于语言模型任务wikiText-2。语言模型本身的训练目标是预测下一个词，因为它的特征提取部分会抽象很多语言序列之间的关系，这些关系可能同样对其它语言类任务有效果。以一个符合语言规律的序列为输入，模型将利用序列间关系等特征，输出在一个在所有词汇上的概率分布，这样的模型称为语言模型。对文本数据进行处理，比如文本语料加载，文本迭代器构建等。torchtext重要功能。4、构建训练和评估函数。

2024-03-18 15:00:31 406

原创【NLP8-Transformer】

每个头开始从词义层面分割输出的张量，也就是每个头都想获得一组Q,K,V进行注意力机制的计算，但是句子中每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量。这就是所谓的多头。将每个头的获得的输入送到注意力机制中，就形成多头注意力机制。在Transformer中前馈全连接层就是具有两层线性层的全连接网络。

2024-03-18 14:57:39 334

原创【NLP7-使用RNN模型构建人名分类器】

每个 txt 文件中含有很多姓氏名，每个姓氏名独占一行，有些语言使用的是 Unicode 码（含有除了26 英文字母以外的其他字符），我们需要将其统一成 ASCII 码。准备训练 RNN 在训练前，我们把求所属语言类别的索引值方法封装成函数category_from_output。该函数输出：语言类别、语言类别索引值。再国际化业务中，用户注册过程中，会根据用户填写名字直接给他分配可能的国家或地区选项，以及该国家或地区的国旗，限制手机号码位数等等。②、对data文件中的数据进行处理，满足训练要求。

2024-03-18 14:14:11 756

原创【NLP6-使用seq2seq模型架构实现英译法任务】

编码器首先处理中文输入"欢迎来北京"，通过GRU模型获得每个时间步的输出张量，最后将它们拼接成一个中间语义张量C，接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量，逐个生成对应的翻译语言。什么是teacher_forcing：它是一种用于序列生成任务的训练技巧，在seq2seq架构中，根据循环神经网络，解码器每次应该使用上一步的结果作为输入的一部分，但是训练过程中，一旦上一步的结果是错误的，就会导致这种错误被累积，无法达到训练效果。2.3、将持久化文件中的数据加载到内存，并实例化类Lang。

2024-03-18 14:12:24 935

原创【NLP5-RNN模型、LSTM模型和GRU模型】

RNN（Recurrent Neural Network)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响根据反向传播算法和链式法则，梯度的计算可以简化为以下公式Dnσz1w1∗σz2w2∗σznwnDnσz1w1。

2024-03-18 13:30:44 1120

原创【NLP04-经典序列模型】

序列数据中每个单元包含的隐形信息。这些隐形信息之间也存在一定关联。

2024-03-18 13:20:24 296

原创【NLP03-新闻主题分类任务】

以一段新闻报道中的文本描述内容为输入，使用模型帮助我们判断它最优可能属于哪一种类型的新闻，这是典型的文本分类问题，这里假定每种类型是互斥的，即文本描述有且只有一种类型。

2024-03-18 13:19:29 517

原创【NLP02-文本处理的基本方法】

讲一段文本使用张量进行表示，其中一般将词汇表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示。是一种流行的将词汇表示成向量的无监督训练方法，该过程将构建神经网络模型，将网络参数作为词汇的向量表示，它包含CBOW和skipgram两种训练模式。CBOM（continuous bag of words)模式：给定一段用于训练的文本语料，再选定某段长度（窗口）作为研究对象，使用上下文词汇预测目标词汇skipgram模式。

2024-03-18 13:16:04 817

原创【NLP1-文本预处理】

文本语料在输送给模型之前一般需要一系列的预处理工作，才能符合模型输入的要求。如：将文本转化成模型需要的张量，规范张量的尺寸等。而且科学的文本预处理环节还将有效知道模型超参数的选择，提升模型的评估指标。

2024-03-18 13:11:25 336

原创 python数据筛选新增一列

2、新增一列为 aa：对实际逾期天数>15 进行打标满足则 1，否则为 0.3、并将数值型特征名称与字符串特征名称分别储存在两个列表中。1、筛选出stage=1的样本。

2024-03-18 12:05:25 366

原创【大数据环境安装】虚拟机安装操作

结束后 , 点击重启, 然后进入系统, 到此, 虚拟机搭建工作结束。正在校验, 可直接选择esc退出, 或者等待一会也是OK的。添加linux的iso镜像文件。开启虚拟机, 进行安装。

2023-09-12 11:17:56 290

原创【大数据环境配置】01-安装VMware虚拟机

1：运行“VMware_workstation_full_12.5.2.exe”（或者其他版本）9：自己在百度搜索一个vmware12密匙，粘贴复制，然后点击输入。5：用户体验设置，建议全部取消勾选，然后点击下一步。4：选择VMware安装位置，然后点击下一步。6：根据个人喜好选择，然后点击下一步。3：同意许可，然后继续点击下一步。8：等待安装完成，然后点击许可证。2：引导页面，直接点击下一步。10：安装完成。7：点击安装。

2023-09-12 09:51:56 135

原创大数据开发---OLTP和OLAP的关系【1】

文章目录1、OLTP和OLAP的定义2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、OLTP和OLAP的定义OLAP系统：联机分析处理系统：Data Warehouse数据仓库（On-Line Analytical Processing)OLTP系统：联机事务处理系统 (On-line transaction processing)2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、高并发读写需求2、海量

2022-05-26 09:48:40 412

原创标签平滑案例

from pyitcast.transformer_utils import LabelSmoothingcrit = LabelSmoothing(size =5 ,padding_idx=0,smoothing=0.5)#size =5 ,目标词汇总数# padding_idx=0,要将那些tensor中的数字替换为0，一般padding_idx=0表示不替换# smoothing=0.5，标签的平滑程度，若标签值为1，则平滑后的值域变成[1-smoothing,1+smooting]#假

2022-04-06 17:04:57 335 2

原创 view函数--python

view()的作用相当于numpy中的reshape，重新定义矩阵的形状。import torchx=torch.randn(4,4)print(x)tensor([[-1.2099, 1.0978, 1.0094, 1.3966],[ 0.2889, -0.5096, 1.8754, 0.7503],[ 1.8894, 1.7621, -1.3559, 0.5547],[ 0.4342, -0.3919, 0.0501, 0.0693]])y=x.view(16)pr

2022-03-30 10:56:18 12091

原创 np.triu的使用方法

np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=-1)array([[ 1, 2, 3],[ 4, 5, 6],[ 0, 8, 9],[ 0, 0, 12]])np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=0)array([[1, 2, 3],[0, 5, 6],[0, 0, 9],[0, 0, 0]])np.triu([[1,2,3],[4,5,6],[7,8,9],[10,

2022-03-28 14:08:19 3779

原创朴素贝叶斯算法---学习笔记整理

什么是朴素贝叶斯分类方法：朴素贝叶斯是基于贝叶斯定理与特征条件独立性假设的分类方法。朴素:特征与特征之间是相互独立朴素贝叶斯算法：朴素 + 贝叶斯应用场景：文本分类、单词作为特征为防止计算后的值为0 引用拉普拉斯平滑系数优点对缺失数据不太敏感，算法也比较简单，常用于文本分类。分类准确度高，速度快缺点由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好案例：20类新闻分类 1）获取数据 2）划分数据集

2022-03-21 17:32:19 1512

原创 lightGBM----学习笔记整理

1、前序1.1、lightGBM演进过程c3.0(信息增益，信息增益率)—> CART(Gini) —> 提升树（AdaBoost) —> GBDT —> XGBoost —> lightGBM1.2、AdaBoost算法AdaBoost是一种提升树的方法，和三个臭皮匠，赛过诸葛亮的道理一样。AdaBoost两个问题1、如何改变训练数据的权重或概率分布提高前一轮被弱分类器错误分类的样本权重，降低前一轮被分对的权重2、如何将弱分类器组合成一个强分类器，

2022-03-21 16:17:21 1542

原创 SVM支持向量机-----学习笔记整理

SVM支持向量机1、定义SVM全称是support vector machine(支持向量机)，即寻找一个超平面使样本分成两类，并且间隔最大SVM能够执行线性或非线性分类、回归、甚至是异常值检测任务。SVM特别适用于中小型复杂数据集的分类2、超平面最大间隔左图虚线表现非常不好。实线边界与实例过于接近，导致在面对新实例时，可能表现不会太好。右图中的实线代表SVM分类器的决策边界，不仅分离了两个类别，且尽可能远离最近的训练实例3、硬间隔和软间隔3.1、硬间隔分类上图1左边的表现缺点：1、

2022-03-21 11:07:48 1944

原创 HMM模型-----学习笔记整理

HMM模型了解什么是马尔可夫链知道什么是HMM模型知道前向后向算法评估管擦序列概率知道维特比算法解码隐藏状态序列了解鲍姆-韦尔奇算法知道HMM模型API的使用1、马尔可夫链1.1、简介马尔可夫链几位状态空间中从一个状态到另一个状态转换的随机过程该过程要求具备"无记忆"的特征下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关在马尔可夫链的每一步，系统根据概率分布，可从一个状态变到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态改变相关的概率叫做转

2022-03-18 16:49:52 4017

原创 EM算法---学习笔记整理

EM算法1、定义EM算法也称期望最大化算法（Expection-Maxinum)算法它是一个算法基础，是很多机器学习领域算法的基础，比如隐士马尔可夫算法（HMM）等EM算法是一种迭代优化策略，计算方式中每一次迭代分为2步1、期望步（E步）2、极大步（M步）所以算法被称为EM算法2、EM算法计算流程首先根据已经给出的观测数据，估计出模型参数的值然后再根据上一步估计出的参数估计缺失数据的值，再根据估计出的缺失数据加上之前已经观测的数据重新再对参数进行估计然后反复迭代直至最后收敛，迭代结束

2022-03-18 15:49:09 579

原创集成学习进阶-----学习笔记整理

集成学习进阶知道xgboost算法原理知道otto案例通过xgboost实现流程知道lightGBM算法原理知道PUBG案例通过lightGBM实现流程知道stacking算法原理知道住房月租金预测通过stacking实现流程1、xgboost算法原理XGBoost（Extreme Gradient Boosting)全名极端梯度提升树，在绝大多数的回归和分类问题上表现得十分顶尖。2、最优模型的构建方法3、应用决策树生成和剪枝分别对应了经验风险最小化和结构风险最小化

2022-03-18 15:42:36 701

原创决策树----学习笔记整理

决策树决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。熵物理学上，熵 Entropy 是“混乱”程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高。信息理论：1、从信息的完整性上进行的描述:当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。2、从信息的有序性上进行的描述:当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

2022-03-18 14:56:52 618

原创 K-近邻算法---学习笔记整理

K-近邻算法1、掌握K-近邻算法实现过程2、知道K-近邻算法的距离公式3、知道K-近邻算法的超参数K值以及取值问题4、知道kd树实现搜索的过程5、应用knn实现分析类6、知道交叉验证实现过程7、知道超参数搜索过程8、应用GridSearchCV实现算法参数的调优1、什么是K-近邻算法(k-NearestNeighbor)：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。1.1、欧式距离1.2、电影类型分析案例算出

2022-03-17 10:59:11 784

原创逻辑回归---学习笔记整理

逻辑回归逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归，但是它与回归之间有一定的联系。由于算法的简单和高效，在实际中应用非常广泛。逻辑回归的原理逻辑回归的输入就是一个线性回归的结果。激活函数sigmoid函数判断标准回归的结果输入到sigmoid函数当中输出结果：[0, 1]区间中的一个概率值，默认为0.5为阈值逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别，并且这个类别默认标记为1(正例)

2022-03-17 10:38:33 205

原创线性回归----学习笔记整理

线性回归应用LinearRegression或SGDRegressor实现回归预测知道回归算法的评估标准及其公式知道过拟合与欠拟合的原因以及解决方法知道岭回归的原理及与线性回归的不同之处应用Ridge实现回归预测应用joblib实现模型的保存于加载1、掌握线性回归的定义利用回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方式。线性回归的分类：线性关系非线性关系2、线性回归APIsklearn.linear_model.LinearRegre

2022-03-17 10:17:36 326

原创机器学习：模型评价指标总结

混淆矩阵混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果，通常用于二分类模型。其每一列代表预测值，每一行代表的是实际的类别。其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里，在这个表格中我们可以清楚看到每个类别正确识别的数量和错误识别的数量。TP ：预测为正样本，实际也是正样本。FP ：预测为正样本，实际是负样本。FN ：预测为负样本，实际是正样本。TN ：预测为负样本，实际也是负样本。准确率准确率是指我们的模型预测正确的结果所占的比例。精确率所有预测为正样本的

2022-02-28 09:36:21 2043

转载 hive sql总结汇总

一、Hive的DDL语法对数据库的操作• 创建数据库:create database if not exists myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 :hive.metastore.warehouse.dir创建数据库并指定hdfs存储位置 :create database myhive2 location '/myhive2';• 修改数据库:alter database myhive2 set dbpropertie

2022-02-25 16:59:46 6191 1

原创应用时间序列分析--基于Eviews软件

第一章时间序列的预处理一、平稳性检验时序图检验和自相关图检验（一）时序图检验根据平稳时间序列均值、方差为常数的性质，平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动，而且波动的范围有界、无明显趋势及周期特征例2.1：检验1964年——1999年中国纱年产量序列的平稳性1.在Eviews软件中打开案例数据图1：打开外来数据图2：打开数据文件夹中案例数据文件夹中数据文件中序列的名称可以在打开的时候输入，或者在打开的数据中输入图3：打开过程中给序列命名图4：打开数据2

2022-02-25 11:55:29 27258 11

原创标签体系，这么做才有实用价值

标签体系，绝对是数据分析年度工作中，最值得摆在开年做的。因为它和所有工作都有关系，经营分析、投放分析、用户画像、推荐策略、商品运营……都得靠标签带动。标签体系做得好，后续分析才有足够多素材，才能积累经验。标签体系做得差，白费功夫不说，后边做深入分析的时候还没有依靠。那么该如何做呢?今天简单分享一下一、标签体系常见错误最常见的错误，就是：标签就是一箩筐，啥玩意都往里装。上传文章的时候，随手贴几个：新闻、热点、产品……商品上架的时候，随手贴几个：功能、包装、价格……活动发布的时候，随手贴几个：名称

2022-01-25 13:43:27 4249

原创 python异常

文章目录1、了解异常2、捕获异常2.1、语法2.2、捕获多个指定异常2.3、捕获异常描述信息2.4、捕获所有异常3、异常的else4、异常finally5、异常的传递6、自定义异常1、了解异常当检测到一个错误时，解释器就无法继续执行了，反而出现了一些错误的提示，这就是所谓的“异常”。try: 可能发送错误代码except 如果捕获到该异常类型执行的代码try: f=open('test.txt','r')except: f=open('test.txt','w'

2021-10-02 07:28:10 114

原创 python学员管理系统

文章目录一. 应用：学员管理理系统1.1 系统简介1.2 步骤分析二、递归：2.1、递归应用场景2.2、递归特点2.3、函数返回值2.4、递归应用：2.5、递归的执行流程2.6、lambda 表达式2.6.1、语法2.6.2、参数形式1、无参数2、一个参数3、默认参数/缺省参数4、可变参数：*args5、可变参数：**kwargs (字典)6、带判断的lambda：两个数字比大小7、列表按字典key值排序2.7、高阶函数2.7.1、案例2.8、内置高级函数一. 应用：学员管理理系统1.1 系统简介需

2021-10-02 07:27:57 2021 1

原创 python循环简介

文章目录1.1、循环的作用1.2、循环的分类2、while 语法2.1、计算1-100累加和2.2、计算1-100偶数累加和3、break 和continue3.1、break3.2 contunue4、理解执行流程5、while循环嵌套应用5.1、打印矩形：5.2、打印三角形星号5.3、九九乘法表6、for循环7、else7.1、while....else7.2 for......else...........1.1、循环的作用让代码更高效的重复执行1.2、循环的分类循环分为 while和for两

2021-10-02 07:27:35 262

原创 python字典

文章目录1、字典的应用场景2、创建字段的语法3、字典的常见操作3.1、新增3.2、删除3.3、修改3.4、查找3.4.1、按照key查找3.4.2、get() 若不存在，返回none3.4.3、keys() 查找所有keys3.4.4、value() 查找所有value3.4.5、items() 查找所有元组4、字典的循环遍历4.1、遍历字典key4.2、遍历字段value4.3、遍历字段的元素--键值对4.4、遍历字段的键值对(拆包)1、字典的应用场景字典里面以键值对的形式出现，字典数据和数据顺序没

2021-10-02 07:27:11 199

原创 python字符串

文章目录1.1、字符串编写1.2字符串输出1.3、字符串输入1.4、字符串下标1.5、切片1.6、查找1.7、替换1.8、分割1.9、连接1.10、修改大小写1.11、删除空白字符1.12、字符串对齐1.13、判断1.1、字符串编写单引号双引号三引号都是一样的表达，只有单引号里面也有单引号时需要加/n1.2字符串输出print('hello world')name ='tom'print('我的名字时%s'%name)print(f'我的名字时{name}')1.3、字符串输入i

2021-10-02 07:27:00 172

原创 python多任务编程

文章目录1、基础知识介绍2、进程的介绍3、多进程完成多任务3.1、步骤：3.1.1、导入进程包3.1.2、通过进程类创建进程对象3.1.3、启动进程执行任务4、进程执行带有参数的任务5、获取进程编号6、进程间不共享全局变量7、主进程和子进程的结束顺序8、线程的介绍9、线程执行带有参数的任务10、主线程和子线程的结束顺序11、线程的执行顺序12、线程间共享全局变量13、线程间共享全局变量14、互斥锁15、死锁16、进程和线程的区别16.1、关系对比16.2、区别对比16.3、优缺点对比1、基础知识介绍多任

2021-10-02 07:26:48 219

空空如也

空空如也