aiqi6666-CSDN博客

原创数据挖掘之EM算法总结

EM算法用来求解具有隐变量的模型参数估计问题，‘隐变量’问题网上最常见的例子就是掷两枚硬币和抽样男女学生身高问题，可以自己看看。EM算法的过程及其推导如下3： EM的应用:高斯混合模型（GMM）弄清楚隐变量：写出完全数据的对数似然函数，然后求对数似然函数的期望得到Q函数，求使Q函数极大对应的参数EM的应用:Kmeans聚类：首先回顾下kmeans的过程。。...

2018-08-15 10:58:33 595

转载机器学习之随机森林

1.定义随机森林是集成学习中bagging方法的一种，bagging的思想是每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。2.生成每颗树生成的规则如下： 1）如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集...

2018-08-12 09:41:07 252

一.集成学习集成学习的一类方法是boosting，工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整...

2018-08-10 11:19:50 297

原创 mysql视图

定义：视图是一个虚拟表，其内容由查询定义。同真实的表一样，视图包含一系列带有名称的列和行数据。但是视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表，并在引用视图时动态生成。使用视图的好处：视图能简化用户操作视图机制使用户可以将注意力集中在所关心的数据上。如果这些数据不是直接来自基本表，则可以通过定义视图，使数据库看起来结构简单、清晰，并且可以简...

2018-08-03 11:07:09 133

原创 msql索引

一、什么是索引？为什么要建立索引？索引用于快速找出在某个列中有一特定值的行，不使用索引，MySQL必须从第一条记录开始读完整个表，直到找出相关的行，表越大，查询数据所花费的时间就越多，如果表中查询的列有一个索引，MySQL能够快速到达一个位置去搜索数据文件，而不必查看所有数据，那么将会节省很大一部分时间。例如：有一张person表，其中有2W条记录，记录着2W个人的信息。有一个Phone的...

2018-08-03 10:08:52 337

原创牛顿法和拟牛顿法

牛顿法的两个主要应用方向： 1.求方程的近似解原理是利用泰勒公式，在x0处展开，且展开到一阶，即f(x) = f(x0)+(x－x0)f’(x0)求解方程f(x)=0，即f(x0)+(x-x0)f’(x0)=0，求解x = x1=x0－f(x0)/f’(x0)，因为这是利用泰勒公式的一阶展开，f(x) = f(x0)+(x－x0)f’(x0)处并不是完全相等，而是近似相等，这里求得的x1...

2018-08-01 18:22:45 349

转载数据库学习——范式

范式，即normal form，是我们在设计数据库结构过程中所遵循的知道方法和规则，通常所用到的只是前三个范式，即：第一范式（1NF），第二范式（2NF），第三范式（3NF）1NF：强调的是列的原子性，即列不能够再分成其他几列。考虑这样一个表：【联系人】（姓名，性别，电话）如果在实际场景中，一个联系人有家庭电话和公司电话，那么这种表结构设计就没有达到 1NF。要符合 1NF 我们只需...

2018-07-03 09:37:43 223

原创个人对GBDT的理解

废话不多说，首先DT即决策树，GBDT使用的树是回归树，生成方法见CART回归树。 GBDT是提升(boosting)方法的一种,但他不是Adaboost，我们常使用Adaboost进行分类，建议不要将GBDT和Adaboost联系起来看。看下提升树模型的原理，它是个加法模型：其推导过程如下，使用前向分布算法： r就是残差，重点来了，GBDT的核心就在于，每一棵树学的是之前所有...

2018-06-26 14:21:31 200

原创机器学习之KNN总结

一.KNN模型介绍k临近算法：给定一个训练数据集，对于新输入的实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。在这个模型中，当训练数据集，距离度量，k值以及分类决策规则（如多数表决）确定后，对于任何一个新输入的实例，它所属的类唯一确定。二.kd树的构造该算法的主要问题是如何快速找到k个最邻近点，可以采用树形结构，即kd树：...

2018-06-23 20:44:27 216

原创 MYSQL存储过程

本文实例来自于易百教程一.存储过程的定义：存储过程是存储在数据库目录中的一段声明性SQL语句，优点有：通常存储过程有助于提高应用程序的性能存储过程有助于减少应用程序和数据库服务器之间的流量存储的程序对任何应用程序都是可重用的和透明的存储的程序是安全的二.存储过程入门：第一个存储过程说明：DELIMITER 定好结束符为”//”, 然后最后又定义为”;”，//...

2018-06-23 18:46:09 12998 2

原创机器学习之决策树总结

一.熵的相关知识1.熵，也称信息熵是表示随机变量不确定性的度量，不确定性越大，熵越大，定义如下：来理解一下，如果X的取值为固定某个值，这时不确定性最小，H(X)=-1*log1=0；如果X服从均匀分布，这时不确定性最大，H(X)=log n, 所以H(X)的范围为 0&amp;lt;=H(X)&amp;lt;=log n 2.条件熵的定义： 3.信息增益：表示得知特征X的信...

2018-06-19 21:10:58 198

原创朴素贝叶斯分类

一.概率相关知识：1.先验概率：根据以往经验和分析得到的概率；后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小。 2.举个例子：首先我想问一个问题,桌子上如果有一块肉喝一瓶醋,你如果吃了一块肉,然后你觉得是酸的,那你觉得肉里加了醋的概率有多大?你说:80%可能性加了醋.OK,你已经进行了一次后验概率的猜测.没错,就这么简单. ...

2018-06-19 16:04:39 255 1

原创分类任务算法的性能度量

一.准确率 - accuracy这个好理解，就是分类正确的样本数占样本总数的比例，但在二分类且正反例不平衡的情况下，这个基本没有参考价值，举个栗子：在测试集里，有100个sample，99个反例，只有1个正例。如果我的模型不分青红皂白对任意一个sample都预测是反例，那么我的模型的accuracy是正确的个数／总个数 = 99/100 = 99%，你拿着这个accuracy高达99%的...

2018-06-15 17:02:54 1615

原创支持向量机(SVM)总结

一.线性可分支持向量机1.定义：给定线性可分的训练集，求解出能够正确划分训练集并且几何间隔最大的分离超平面wx+b=0,对应的决策函数为f(x)=sign(wx+b) 2.函数间隔： 3.几何间隔：二.目标函数的推出三.推导过程求解：四.软间隔与正则化：为了防止过拟合，对每个样本点引入一个松弛变量...

2018-06-13 22:50:32 245

原创机器学习逻辑回归总结

一.逻辑回归的定义逻辑回归是一种广义的线性模型，用于二分类问题，其预测函数构h(x)造如下： Sigmoid函数，函数形式为：二.构造损失函数：这里使用的是对数损失函数，它是基于最大似然估计推导的...

2018-06-12 15:29:50 338

原创机器学习聚类知识总结

1. 聚类任务的标准定义：![这里写图片描述](https://img-blog.csdn.net/20180611172739342?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2FpcWk2NjY2/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)2. 聚类结果的性能...

2018-06-11 18:45:33 266

aiqi6666的博客