麓山coder-CSDN博客

原创文档余弦相似度

（1）使用TF-IDF算法，找出两篇文章的关键词；　（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；　（3）生成两篇文章各自的词频向量；　（4）计算两个向量的余弦相似度，值越大就表示越相似。

2017-04-08 17:14:14 868

原创 TF-IDF

TF-IDF对于一篇文章，怎样抽取其中的关键字。首先容易想到的是计算每个词的词频（term frequence），然后然后按照词频进行排序，选取词频最高的几个词。然而这样的结果必然是 ‘的’，‘是’ .. .这之类的词的频率比较高。我们可以过滤掉这些常见的词。词频=词频文章长度词频 = \frac{词频}{文章长度} 假如一篇关于机器学习的文章，出现频率最高的词为 ‘机器学习’、‘算法’，

2017-04-08 17:11:35 391

原创 BFGS算法

BFGS算法牛顿迭代算法函数f(x) 的二阶泰勒展式 f(x)=f(x(k))+gTk(x−x(k))+12(x−x(k))THk(x−x(k))gk=f′(x(k))Hk=[∂2f∂xi∂xj]n∗nf(x) = f(x^{(k)}) + g_k^T(x-x^{(k)}) + \frac12 (x-x^{(k)})^TH_k (x - x^{(k)})\\g_k=f'(x^{(k)}) \

2017-03-29 10:30:06 2506

原创高斯混合聚类

高斯混合聚类高斯混合模型p(Y|θ)=∑k=1Kakϕ(Y|θk)p(Y|\theta)= \sum_{k=1}^K a_k \phi(Y|\theta_k)其中 ϕ(Y|θk)=12π‾‾‾√δkexp(−(y−uk)22δ2k)∑k=1Kak=1\phi(Y|\theta_k) = \frac{1}{\sqrt{2\pi}\delta_k} \exp(- \frac {(y-u_k)^

2017-03-22 17:01:06 1197

EM算法首先举一个含有隐变量的例子有三枚硬币A,B,C,首先抛A硬币，如果A正面朝上则抛B，如果A 反面朝上则抛C，我们只记录B,C硬币的结果。这个过程重复N次得到观测到的结果Y={y1,y2,…,yN}Y=\{y_1,y_2,…,y_N\},现在要求计算出A，B，C正面朝上的概率分别是多少。我们设每次抛硬币过程中，A硬币的结果为Z。因为Z是无法观测到的，我们称它为隐变量。记θ\theta ={P(

2017-03-22 16:41:00 391

原创异常检测

异常检测假设样本由N维高斯分布产生，由高斯分布可知，大多数的样本概率密度比较高，少量的样本的概率密度比较小，所以我们可以先用正常的样本训练出高斯分布，然后用这个模型来计算新的样本，如果其概率密度小于某一值，就可以认为该样本是异常的。如果样本有N个属性，那么可以训练出N维高斯分布，但由于计算量太大了，我们可以假设样本每个维度都符合高斯分布，那我没就可以训练出N个一维的高斯分布了。模型参数： μ1,μ2

2017-03-22 15:46:40 532

原创正则化

正则化正则化一般的形式如下 ∑i=1ML(yi,f(xi;θ))+λJ(f)\sum_{i=1}^M L(y_i, f(x_i;\theta)) + \lambda J(f) 正则化项一般是模型复杂度的单调递增函数。当模型越复杂的时正则化项越大，而当模型越复杂的时候就越容易产生过拟合。因此我们不仅要最小化损失函数，同时还要减小模型的复杂度。防止过拟合，提高泛化能力。上式中 λ\lambda

2017-03-22 15:22:35 392

原创 GBDT(Gradient Boosting Decision Tree)

GBDT(Gradient Boosting Decision Tree)1.提升树提升树模型的基分类器为决策树，每次训练的结果影响下一次训练的决策树。我们这里只谈回归问题，训练的结果为M个决策树相加。对于二分类问题只需把AdaBoost算法的基分类器换为决策树。用前向分步模型表示 fm(x)=fm−1(x)+T(x;θm)f_m(x) = f_{m-1}(x) + T(x;\theta_m)

2017-03-21 16:25:32 327

原创局部加权线性回归（LWLR）

局部加权线性回归（LWLR）对于线性回归算法，容易出现欠拟合，而多项式回归又容易出现过拟合。因此出现了局部加权回归模型y(i)=θT⋅x(i)y^{(i)}=\theta^T \cdot x^{(i)}和线性回归的模型相同，但是对于每一个预测点，θ\theta都需要重新计算，并不是固定不变的。损失函数L(θ)=12M∑i=1mwi(yi−θTxi)2L(\theta)= \frac 1 {2M

2017-03-17 11:00:06 4173

原创 KMeans

给定样本集D=x1,x2,⋯,xmD={x_1,x_2,\cdots, x_m}, “k均值”算法针对聚类所得簇划分C=C1,⋯,CkC={C_1,\cdots, C_k}最小化平方误差 E=∑i=1K∑x∈ci||x−ui||2E= \sum_{i=1}^K\sum_{x\in c_i}||x-u_i||^2 其中ui=1|ci|∑x∈cIxu_i = \frac{1}{|c_i|}\su

2017-02-22 20:30:31 274

原创 Bagging算法与随机森林

一、自助采样法给定包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采样到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。显然有一部分样本会在D‘中出现多次，而另一部分样本不出现。样本在m次采样中始终不被采到的概率是: limm→∞(1−1m)

2017-02-22 11:00:59 3428

原创 AdaBoost算法

一、算法思想对于分类问题而言，给定一个训练数据集，求比较粗糙的分类规则要比求精确的分类规则容易得多。集成学习就是从弱学习算法出发，反复学习，得到一系列弱分类器，若后组合这些弱分类器，构成一个强分类器。大多数的集成学习方法都是改变训练数据集的概率分布，针对不同的训练数据分布调用弱学习算法学习一系列分类器。对于集成学习方法有两个问题需要回答：1. 在每一轮如何改变训练数据的权值或概率分布；2. 若何将弱

2017-02-21 16:17:38 507

原创 CART算法

一、最小二乘回归树算法输入：训练师数据集D=(x1，y1)，(x2，y2)，⋯，(xn，yn)D={(x_1，y_1)，(x_2，y_2)，\cdots，(x_n，y_n)} ， y为连续变量输出：回归树f(x)在训练数据集所在输入空间中，递归的将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树选在最优切分变量(特征）j与切分点s，求解 minj,s[minc1∑xi∈R1(

2017-02-20 16:59:43 538

原创决策树模型

一、决策树学习决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类过程。开始，构建根结点，将所有训练数据集都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；如果还有子集不能被正确分类，那么就对这些

2017-02-20 16:58:07 818

原创逻辑回归

一、逻辑斯蒂分布设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数 F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2(1)(2)\begin{eqnarray}F(x) = P(X \leq x) = \frac{1}{1+ e^{-(x-\mu)/\gamma}} \tag{1} \\f(x)= F'

2017-02-18 17:20:36 263

原创支持向量机

一.硬间隔支持向量机假设给定一个特征空间上的训练数据集 T={(x1,y1),(x2,y2)⋯,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2)\cdots,(x_n,y_n)\} 其中，xi∈Rn,yi∈{+1,−1},i=1,2,⋯,Nx_i \in R^n , y_i \in \{ +1,-1 \} , i=1,2, \cdots, N。xix_i为第i个特征向量，yiy

2017-02-18 14:41:46 337

原创朴素贝叶斯（naive bayes)

朴素贝叶斯（naive bayes) 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入／输出的联合概率分布；然后基于此模型，对给定的输入x,利用贝叶斯定理求出概率最大的输出概率y。1一.训练设输入空间x⊆Rnx\subseteq R^n 为n维向量的集合，输出空间为类标记集合y={c1,c2,...,cK}y=\{c_1,c_2,

2017-01-11 17:49:46 659

原创自编码器

自编码器对于深层的前馈神经网络，如果使用误差逆传播算法进行训练，将会出现三大问题： 1. 神经网络参数数量巨大，极易导致过拟合。 2. 网络底层的权值难以变化，出现梯度弥散现象。 3. 深度神经网络的损失函数为非凸函数，如果随机初始化参数会使优化过程陷入局部极直。自编码器可以用三层前馈神经网络实现。采用无监督学习方式，可以使用大量的无标记样本进行学习。如上图所示，三层前馈神经网络的输入等于

2016-12-04 19:50:37 983

原创 mysql之windows 解压版安装

mysql之windows 解压版安装一、下载mysql 在[mysql官网](http://dev.mysql.com/downloads/mysql/ )上下载windows版的mysql。二、配置环境变量将mysql 安装包解压，放置任意目录。在系统环境变量中添加mysql的bin目录路径。三、修改配置文件打开mysql目录下的my-default.ini文件修改如下内容四、初始化使用

2016-11-18 21:16:50 337

原创 BP神经网络之理论推导

BP神经网络理论推导一、神经网络简介神经元细胞在19世纪，人们发现了人脑神经细胞传导兴奋的规律，计算机科学家们由此受到启发，提出来人工神经网络，希望用这个模型来模拟人脑。神经元细胞有几个重要组成：轴突，树突，细胞体。轴突能将神经元的兴奋传递给其连接的神经元，而树突能够接收其他神经元传递过来的兴奋。神经元细胞根据接收到的兴奋决定是否将兴奋传递给下一个神经元细胞。神经元模型将神经元细胞抽象为数学

2016-11-16 19:15:39 613

麓山coder