????sc-CSDN博客

原创机器学习性能评估指标---

机器学习的算法主要有分类和回归两种算法，这两种算法有着自己各自的性能评估指标。回归算法主要性能评估指标有：平均绝对误差（MAE）、平均平方误差（MSE）分类算法主要评估指标有：精确率、召回率、ROC曲线、AUC分类算法的性能评价指标1、精确率召回率精确率是针对预测结果而言，预测结果中预测为正的中有多少是真正是正的；召回率是针对原来样本而言，样...

2018-04-17 09:24:31 2288

原创 EM算法学习总结

最大似然估计：对“模型已知，参数未知”的情况对参数估计，可以使用最大似然估计的方法进行。假如已知男生和女生的身高的分布都是服从正态发分布，分别获得100个女生和100个男生的身高数据，利用最大似然估计的方法，可以估计得到这两个正态分布的均值和方差。最大似然估计得一般步骤如下： 1、根据模型，构建似然函数； 2、求似然函数的对数似然函数； 3、对估计的参数进...

2018-04-15 14:47:49 761 2

转载 FM算法学习资料

学习FM算法资料整理： Factorization Machines 学习笔记

2018-03-18 22:16:03 363

原创 LR与SVM的异同

相同点： 1、LR与SVM都属于判别模型，与判别模型相对的是生成模型，生成模型代表算法是：HMM 2、LR名字里虽然带有回归，但是实际上和SVM一样，都是分类算法； 3、不同点 1、LR的目标是使得所有的点分类正确。所以LR会受到数据集中所有点的影响，当数据不均衡时，LR的性能会受到影响；而SVM分类性能只会收到支持向量的影响，只要支持向量不变，类别不平衡影响不大； 2、逻辑回归通过...

2018-03-12 23:06:42 345

原创阅读xgboost的原论文《XGBoost：A Scalable Tree Boosting System》

一、xgboost的目标函数在目标函数可以看出，xgboost的目标函数有两部分组成，第一部分是传统的GBDT的目标函数一样，用于测量当前生成的模型对训练数据的吻合度，不同的是在第二部分：xgboost显式地将模型的复杂度作为了目标函数的一部分。二、xgboost中的梯度提升树GBDT中的梯度提升树只利用的泰勒展开的一阶导数，而在xgboost中利用的泰勒展开的二阶展开：泰...

2018-03-11 12:12:56 6249

原创 LR模型的原理和公式推导

介绍Logistic回归算法，名字虽带有回归，但其实是一个分类模型。输出Y=1的对数几率是由输入x的线性函数表示的模型，直接对分类的可能性进行建模，并不是直接对分类的结果（0或者1）进行建模：假设一个样本属于正样本的概率为p,则： LR模型是在线性回归的基础上，把特征进行线性组合，再把组合的结果通过一层sigmoid函数映射成结果是1或是0的概率。逻辑斯蒂回归模型的特点：...

2018-03-06 17:10:15 25318 2

FFM算法引进了域（field）的概念，如时间是一个域，三个时间“2018/3/3”,”2018/2/1”,”2018/2/3”就同属于时间这一个域，而“学生”，“工程师”，“老师”等就属于职业这一个域，同一个特征在不同的域中有着不同的隐向量表示，反映着不同域之间的内在差异，同一个域有着相同的隐向量表示，FM算法可以看成是FFM算法的一个特例，即将所有的特征都划分到一个相同的域中。 FFM算法对...

2018-03-03 16:23:45 1214

原创 FM算法

FM算法是旨在解决稀疏数据下特征组合问题线性模型只考虑了单一特征对预测结果的影响，没有考虑组合特征对预测结果的影响。定义目标函数如下：上式中，组合特征参数一共有n（n-1）/2g个，重要的是任意两个参数独立，但在特征非常稀疏的情况下，组合特征（xi，xj）出现同时不为0的情况较少的情况下，直接用梯度下降法对参数wij进行学习会使得大量的wij学习结果为0.训练样本不足，很容易导致参数w...

2018-03-02 20:10:05 2111 1

原创理解GBDT

一、Gradient Boosting(GB) Boosting是一种通过迭代的方法将基分类器组合起来得到强分类器的方法，基分类器原则上可以选择不同的分类器，GBDT是选用树模型作为基分类器。GBDT每一次迭代是拟合上一次残差，但对任意的目标函数，计算大量的样本在学习完一棵树以后的预测值和真实值之间的差值会使计算量非常大，虽然可以直接最小化当前的残差值，但对于复杂的目标函数，可以用梯度来...

2018-03-02 09:08:45 137

原创数据结构中的排序算法

一、排序算法的性能比较： —–参考自《大话数据结构》二、排序算法的具体实现：2.1 冒泡排序冒泡排序的基本思想是：两两比较相邻记录的关键字，如果反序则交换。//注释：n是数组的长度，[0,i-1]之间已经排好序，第一个for循环是对当前的第i位排序，//第二个for循环对[i,n-1]之间的相邻的数进行排序，相邻的逐一进行比较，使得小的逐渐向上交换void ...

2018-02-11 21:55:23 641

原创阅读word2vec中的关键代码

阅读word2vec中的关键代码：代码中的公式主要参考以下文章： word2vec 中的数学原理详解if (cbow) { //train the cbow architecture // in -> hidden cw = 0; for (a = b; a < window * 2 + 1 - b; a++) if (a != wi...

2018-02-11 19:18:18 196

原创 word2Vec学习笔记

Word2Vec学习笔记一、n-gram语言模型1.1 n-gram语言模型介绍自然语言是一个连续的概率模型，当前位置出现哪个词和这个词前面出现了哪些词是紧密关联的，如在前面出现了“我爱自然语言”后面就有很大概率出现“处理”这个词。但是若将词与它前面的所有词进行关联，又会使计算量过大，为简化计算，将当前词出现的概率仅仅和该词前面出现的n个词进行关联，这就产生了n-gram语言模

2018-02-03 11:10:03 1080

原创 window下安装xgboost

怎么在Window下安装xgboost这篇文章主要介绍在一个空白的环境下安装xgboost，从最开始的安装python开始。安装python安装依赖的库安装python 在官网上下载python，官网地址为(https://www.python.org/downloads/release/python-361/)，下载完成后直接点击安装，安装过程中，记得把添加到路...

2017-07-12 14:34:58 263

转载 GBDT好的学习资料

http://blog.csdn.net/yangxudong/article/details/53872141http://www.tuicool.com/articles/eQVFf2u

2017-03-22 22:20:18 265

原创利用python读取带有中文的字符串，和将带有中文的字符串写到txt文件中

从txt文件中读入filePath为文件路径，encoding='utf-8'表示读进来来后以utf-8进行编码f = open(filePath,encoding='utf-8')写到txt文件中：用的是python3.5版本：如果只是使用系统默认的open（）方法，只能写入ascii码，要读入中文，可以使用codecs模块： import codecsr

2017-03-10 21:39:24 6537

u013015493的博客