辰星M-CSDN博客

原创中文命名实体识别NER：FLAT

来自ACL2020复旦大学邱锡鹏老师团队的NER领域又一力作：FLAT: Chinese NER Using Flat-Lattice Transformer.本文在Lattice LSTM(ACL 2018)的基础上作出了两方面的改进：作者提出了一种将Lattice图结构无损转换为扁平的Flat结构的方法，并将LSTM替换为了更先进的Transformer Encoder，该方法不仅弥补了Lattice LSTM无法「并行计算」(batchsize=1)的缺陷，而且更好地建模了序列的「长期依赖

2021-06-28 15:00:40 1151 2

原创 Transformer模型：Attention is All you need

参考文献：http://jalammar.github.io/illustrated-transformer/

2021-06-24 10:43:53 375

原创中文命名实体识别NER：Lattice LSTM

参考文献：<>https://www.paperweekly.site/papers/notes/623

2021-06-16 16:06:21 717

原创文本分类：TextCNN

目录一、模型二、损失函数一、模型二、损失函数参考文献：

2021-06-15 14:36:03 312 1

原创命名实体识别NER:LSTM-CRF模型

一、LSTM-CRF模型参考文献：Neural Architectures for Named Entity Recognition

2021-06-10 14:57:30 1672

原创排序算法总结及Python实现

目录一、冒泡排序、选择排序和插入排序:O(n*n)1、冒泡排序2、选择排序3、插入排序二、归并排序和快速排序:O(nlogn)1、归并排序2、快速排序三、桶排序和基数排序:O(n)1、桶排序2、基数排序一、冒泡排序、选择排序和插入排序:O(n*n)1、冒泡排序1、冒泡排序原理冒泡排序对相邻的两个元素进行比较，看是否满足大小关系要求，如果不满足...

2019-07-10 15:58:07 258

原创卷积神经网络CNN参数优化

目录一、训练神经网络模型1、神经网络训练流程2、前向传播算法3、反向传播算法二、卷积神经网络CNN参数优化1、learning_rate学习速率2、batch_size批数据大小3、训练样本要均衡4、丢弃率5、网络架构一、训练神经网络模型1、神经网络训练流程变量初始化：通过满足正态分布的随机数来初始化神经网络中的参数是一个常用的方法。部分...

2019-07-01 18:36:59 9397

原创 spark性能优化-数据倾斜

背景：计算同一品类两两商品的相似度，已有的数据结构：[(cid,int); (pid,int); (features,vector)]，商品数4W，商品对8W，用时8h。分析是由于数据倾斜导致，例如cid1有100个商品，cid2有300个商品，cid3有1000个商品，由于根据分类id，计算商品相似度，cid3的商品对在一个task中，导致所有任务都等待这一个task运行结束。...

2019-06-26 21:47:08 173

原创京东基于商品图片的个性化推荐:Telepath

目录一、推荐算法框架二、京东Telepath模型一、推荐算法框架推荐系统框架如上图所示，主要包含两个重要模块：检索模块（Retrieval）和排序模块（Ranking）。检索模块获取推荐结果候选集，排序模块对待推荐的商品排序，最终按照得分高低推荐给用户。二、京东Telepath模型在电商网站，有两个因素影响用户行为：商品吸引力和商品与用户兴趣的匹配度。京东提出telep...

2019-05-30 15:50:55 1001

原创 [spark]总结spark ML机器学习库（pyspark.ml）

目录一、pyspark.ml.feature特征处理二、pyspark.ml模型三、pyspark.ml.tuning参数遍历一、pyspark.ml.feature特征处理方法描述功能连续特征离散化 Binarizer 将连续值划分为二元离散数值连续特征离散化 Bucketizer 将连续值划分为多元离散数值 ...

2019-05-22 20:00:10 2523

原创 [tensorflow]tf.estimator.Estimator构建tensorflow模型

目录一、Estimator简介二、数据集三、定义特征列四、estimator创建模型五、模型训练、评估和预测六、模型保存和恢复一、Estimator简介Estimator是TensorFlow对完整模型的高级表示。Tensorflow提供一个包含多个API层的编程堆栈：Estimator封装了操作：训练、评估、预测、导出以供使用。二、数据集通过tf....

2019-04-28 17:28:43 2642

原创 [tensorflow]tf.data.Dataset数据输入管道

目录一、tf.data简介二、读取数据1、从内存中读取数据-numpy数组2、从文件中读取数据三、变换Dataset中的元素1、使用Dataset.map()预处理数据2、使用Dataset.batch()批处理数据集元素3、使用Dataset.shuffle()随机重排输入数据4、使用Dataset.repeat()迭代数据集多个周期四、创建Iterato...

2019-04-19 17:10:02 1741

原创卷积神经网络CNN结构及TensorFlow实现

目录一、卷积神经网络CNN的结构1、卷积层CONV2、池化层POOL3、全连接层FC4、CNN常见架构二、使用tensorflow Estimator构建CNN MNIST分类器1、CNN模型函数2、训练和评估CNN分类器一、卷积神经网络CNN的结构卷积神经网络通常包含卷积层、池化层和全连接层，下面是利用CNN对图片分类的结构图示例：1、卷积...

2019-03-26 17:40:03 2203

原创 [tensorflow]图片新类别再训练-花分类-代码整理

目录一、新类别模型的再训练1、图片加载，并将数据集划分为训练集、测试集、验证集，比例分别为80%，10%，10%（默认）2、加载hub某个模型，拉取模型信息，创建图3、计算所有图片的bottlenecks(特征向量)，并缓存4、新类别模型训练5、新类别预测模型保存二、模型预测1、预测模型加载2、加载预测图片（图片进行解码和剪裁）3、多张图片类别预测原网址...

2019-03-12 17:37:44 1552

原创 [kaggle]Titanic生还概率预测，accuracy-0.79425

目录一、数据摸底1.1 数据加载1.2 数据统计描述和可视化1、数据类型查看2、特征缺失值查看3、变量统计描述4、特征变量与目标变量的相关性二、数据预处理2.1 名字字符串提取title2.2 缺失值填充2.3 类别变量转化为数值型2.4 连续变量转化为离散型2.5 组合特征变量三、模型构建1、rf模型一、数据摸底1.1 数据加载...

2019-02-26 16:20:45 344

原创支持向量机SVM

目录1、线性可分支持向量机1.1、间隔最大化1.2、对偶函数1.3、分隔超平面、决策函数、支持向量2、线性支持向量机2.1、软间隔最大化2.2、对偶函数2.3、分离超平面、决策函数、支持向量3、非线性支持向量机3.1、决策函数3.2、核函数4、支持向量机SVM与逻辑回归LR比较1、线性可分支持向量机学习一个分类器：分类决策函数即...

2019-01-15 19:29:25 439

原创 [矩阵分解]基于隐式反馈的矩阵分解ALS（spark实现）

目录一、ALS模型1、模型定义2、参数求解3、推荐计算二、pyspark实现ALS模型三、矩阵分解模型与协同过滤模型比较一、ALS模型1、模型定义用户u对商品i的偏好：其中，在隐式反馈中无法获取用户对商品明确的评分，在视频推荐场景中rui表示为视频观看的时长比例，在商品推荐场景中rui表示为对商品点击次数等。用户的隐...

2018-12-29 17:02:42 5529 2

原创 python实现链表基本操作

目录一、链表类定义二、查找链表的中间结点三、检测链表是否有环四、删除链表倒数第n个结点五、两个有序链表合并六、链表反转七、判断链表是否是回文字符串一、链表类定义结点定义：class Node: def __init__(self,data,next_node=None): self.data = data ...

2018-12-25 21:47:47 588

原创树模型与线性模型的融合模型(Python实现)

目录一、树模型与线性模型的融合模型二、Python sklearn实现GBDT+LR融合模型一、树模型与线性模型的融合模型树模型GBDT原理：https://blog.csdn.net/woniu201411/article/details/83114226线性模型LR原理：https://blog.csdn.net/woniu201411/article/details/81...

2018-12-06 16:22:11 2364

原创 [spark]在集群上运行spark

目录1、spark运行时架构2、两种操作：转化操作和行动操作3、在集群上运行应用程序4、使用spark-submit部署应用1、spark运行时架构运行时架构描述：spark-submit启动驱动器驱动器和集群管理器通信，为执行器申请资源集群管理器启动执行器不同结点的职责：结点类型职责驱动器...

2018-11-23 09:04:22 640

原创 [近邻推荐]基于邻域的算法-协同过滤算法

目录1、相似度的度量2、基于用户的协同过滤算法2.1 算法原理2.2 用户相似度计算的改进2.3 使用的场景3、基于物品的协同过滤算法3.1 算法原理3.2 物品相似度计算的改进3.3 使用的场景4、userCF和itemCF比较1、相似度的度量欧氏距离，度量的是空间中两个点的绝对差异，适用于分析用户能力模型之间的差异：余弦相似度，度量的是两...

2018-11-21 20:46:42 936

原创 [图]python实现图的遍历、最小生成树、最短路径

目录1、图遍历2、最小生成树-Prime算法3、最短路径-Dijkstra算法图的两种常用的表示方式是邻接矩阵和邻接表。以下以邻接矩阵为例，图的初始化定义：class Graph(): def __init__(self,nodeNum,sides,direction=False): self.nodeNum = nodeNum #顶点 ...

2018-11-13 21:40:50 5700 1

原创 XGBoost模型理解（python实现）与GBDT/RF模型对比

目录一、XGBoost模型理解1、损失函数定义2、正则项3、树结构4、XGBoost算法总结：二、XGBoost、GBDT、RF三种集成模型比较三、XGBoost模型Python实现一、XGBoost模型理解监督学习的目标函数定义：1、损失函数定义损失函数通常有残差平方和（回归问题），log损失函数（分类问题），以下以残差平方和为例...

2018-10-30 18:19:01 1835

原创 spark共享变量：累加器与广播变量

累加器累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器一个常见用途是，在调试时对作业执行过程中的事件进行计数。执行行动操作后，累加器的值才会更新；累加器的值只有在驱动程序才能访问，从工作节点上任务的角度看，累加器只是一个只写变量。在这种模式下，累加器的实现可以更加高效，不需要对每次更新操作进行复杂的通信。广播变量...

2018-10-26 09:34:52 184

原创梯度提升树GBDT模型原理及spark ML实现

目录一、GBDT模型原理1.1 GB(Gradient Boost)算法1.2 GBDT模型二、spark ML机器学习库中GBDT使用案例三、GBDT与Boost算法比较四、 GBDT与RF比较一、GBDT模型原理1.1 GB(Gradient Boost)算法GB算法直观理解，将损失函数的负梯度在当前模型的值，当做下个模型训练的目标函数(第3,...

2018-10-17 17:42:18 3930

原创 [机器学习算法]决策树CART和随机森林模型

目录一、决策树CART1.1分类决策树1.2回归决策树1.3决策树优点与缺点1.4 决策树剪枝算法二、随机森林RF2.1随机森林的生成2.2 随机森林的特点一、决策树CART CART分类回归树是一种典型的二叉决策树，可以处理分类或者回归问题。如果待预测结果是离散型数据，则CART生成分类决策树；如果待预测结果是连续型数据，则CART生成回归...

2018-09-05 19:24:19 4808

原创 [spark性能调优]spark submit资源参数调优及amazon集群示例

目录一、spark作业基本运行原理二、资源参数调优Spark内存管理：三、amazon集群资源参数示例一、spark作业基本运行原理资源申请与分配：我们使用spark-submit提交一个spark作业后，这个作业会启动一个对应的Driver进程。根据使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动（client mo...

2018-08-23 18:42:41 2202 1

原创 [机器学习算法]逻辑回归模型、优缺点及spark ml机器学习库实现LR

目录一、逻辑回归模型-log损失函数1.1 模型定义1.2 损失函数1.3 梯度下降求解参数二、利用最大似然估计求解逻辑回归模型参数三、逻辑回归模型优缺点分析四、spark ml机器学习库实现逻辑回归模型五、离散特征作为模型输入一、逻辑回归模型-log损失函数1.1 模型定义 1.2 损失函数 ...

2018-08-01 18:52:54 2648

原创 [spark]计算商品相似度

一、商品相似度定义基于物品的协同过滤算法是业界应用最多的算法，它的思想是给用户推荐那些和他们喜欢的物品相似的物品，主要分为两个步骤：一，计算物品之间的相似度；二，根据物品相似度和用户的历史行为给用户生成推荐列表。物品i和物品j的相似度可定义为：其中，分母是喜欢物品i的用户数，分子是同时喜欢物品i和物品j的用户数。在电商网站中，用户前后的消费行为有很强的关联性，如上图所示，两个用户...

2018-07-12 19:19:37 8695

原创 [数据挖掘案例]逻辑回归LR模型实现电商商品个性化推荐

目录一、问题描述二、数据摸底三、数据清洗和特征筛选3.1 数据抽取和清洗3.2 特征筛选：决策树3.3 特征分布转换3.4 特征共线性检查四、模型搭建4.1 数据集4.2 模型训练4.3 模型验证五、模型上线效果跟踪一、问题描述在电商平台中，有海量的商品，如何为用户挖掘出感兴趣的商品，真正实现千人千面具有重要的意义。商品得分...

2018-07-04 18:00:16 5146 4

原创 [特征工程]数据预处理的方法和技巧

目录一、数据的抽取要正确反映业务需求二、处理缺失值和异常值2.1 缺失值处理2.2 异常值处理三、数据转换3.1 改善变量分布的转换3.2 数据标准化四、筛选有效的输入变量五、变量共线性问题工业界有一个大家公认的看法，“数据和特征决定了数据挖掘项目的上限，而算法只是尽可能地逼近这个上限”。在实战中，特征工程几乎需要一半以上的时间，是很重要的一个部...

2018-06-28 14:52:47 2932

原创 [模型优化]模型欠拟合及过拟合判断、优化方法

目录一、模型欠拟合及过拟合简介二、模型欠拟合及过拟合判断三、模型欠拟合与过拟合的优化方法1、模型欠拟合2、模型过拟合一、模型欠拟合及过拟合简介模型应用时发现效果不理想，有多种优化方法，包含：添加新特征增加模型复杂度减小正则项权重获取更多训练样本减少特征数目增加正则项权重具体采用哪种方法，才能够有效地提高模型精度，我...

2018-06-14 18:45:56 15557

woniu201411的博客