送你上西天-CSDN博客

转载 Scikit-learn

参考博客：https://www.cnblogs.com/lianyingteng/p/7811126.htmlhttps://blog.csdn.net/u014248127/article/details/78885180传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机...

2018-08-07 13:49:04 482

原创 kaggle—houseprice

kaggle项目实战——房价预测数据集：input:链接：https://pan.baidu.com/s/1lc5vTN04jFQ3-600kOKFvQ 密码：2aqfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import Ridge...

2018-07-23 17:09:21 1695

原创学习率优化（一）

上节介绍了反向传播时权值更新方法，更新隐含层：；更新输出层：。看似已经完美的解决了问题，但是怎么取值呢？我们把问题转化到求二次函数极值问题，例如，如果用梯度下降法求函数极值，每一次的取值为，一步步趋近极小值。如果采用固定学习率：，初始值取，学习率使用0.01：分析：经过200次迭代，；经过1000次迭代，；效果还可以，但这个学习率只使用于，如果改变函数还可以这个效果吗？还...

2018-07-17 22:24:09 1741

1.1.1. Boostingboosting是一个迭代的过程，用于自适应地改变训练样本的分布，使得基分类器聚焦在那些很难分的样本上。boosting会给每个训练样本赋予一个权值，而且可以再每轮提升过程结束时自动地调整权值。开始时，所有的样本都赋予相同的权值1/N，从而使得它们被选作训练的可能性都一样。根据训练样本的抽样分布来抽取样本，得到新的样本集。然后，由该训练集归纳一个分类器，并用它对原数据...

2018-07-16 08:47:48 1543

原创集成学习——Boosting之提升树（Boosting tree）、梯度提升树（GBDT）、XGBoost

提升树是以回归树为基本分类器的提升方法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是分类树，对回归问题决策树为回归树。首先定义决策树用公式表示。提升树算法：1．首先确定初始提升树；2．第二个提升树第三个提升树……推出：3．回忆一下CART回归树，它是采用平方误差损失函数最小来决定最佳分类点，，CART的优化模型为，就是这个最佳分类点...

2018-07-16 08:47:35 5126 1

原创集成学习——Bagging

1.1.1. BaggingBagging也叫自举汇聚法（bootstrap-aggregating），是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。1.1.1.1. 随机森林其基本思想就是构造很多棵...

2018-07-15 20:51:40 811

原创无监督学习——关联分析

1.1. 关联分析1.1.1. Apriori算法（先验算法）关联分析（Association Analysis）：在大规模数据集中寻找有趣的关系。频繁项集（Frequent Item Sets）：经常出现在一块的物品的集合。关联规则（Association Rules）：暗示两个物品之间可能存在很强的关系。支持度（Support）：数据集中包含该项集的记录所占的比例，是针对项集来说的。例子：豆奶...

2018-07-15 20:43:33 4121

原创监督学习——决策树

1.1. 决策树度量方法：信息增益（ID3）信息增益率（C4.5）基尼指数（CART）对一个给定样本分类所需要的信息熵： S：是s个数据样本的集合m：类别标签具有m个：定义m个不同类：是类中样本数：任意样本属于的概率，信息期望：信息增益：例如： 1.1.1. 迭代Dichotomiser3（ID3）（1）给定样本分类的信息熵类别标签S被分为两类：买或不买。S1(买)=640；S2(不买)=3...

2018-07-15 17:50:39 1362

原创监督学习——贝叶斯

1.1.1. 朴素贝叶斯贝叶斯公式：换个表达形式就会明朗很多，如下：我们最终求的p(类别|特征)即可！就相当于完成了我们的任务。例如：如果一对男女朋友，男生想女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？这是一个典型的分类问题，转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率，谁的...

2018-07-15 17:38:04 1681

原创监督学习——回归

回归是有达尔文表弟提出的，这个梗想了解的可以自己查，他说‘回归’反映了系统的随机运动总是趋向于其整体运动规律的趋势。以下将介绍：（1）线性回归（2）二分类：Logistic回归（3）多分类：Softmax回归（4）广义线性模型1.1.1.1. 线性回归线性回归就是用一个超平面去拟合样本点的标签：对于一维的情况，就是用一条直线去拟合样本点，为方便把偏置b记到权重向量中，。1.求解回归任务，常用的损失...

2018-07-15 17:33:15 1545

原创监督学习——支持向量机SVM

支持向量机属于监督学习，是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，支持向量机包括核心技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略是间隔最大化，可形式化为一个求解凸二次规划的问题。支持向量机学习方法包含构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量...

2018-07-15 17:06:13 7513

原创玻尔兹曼机BM

玻尔兹曼机（BM）神经元网络的运行：利用模拟退火算法，因为使用了玻尔兹曼分布作为激活函数，所以称为玻尔兹曼机，其原理其实是模拟退火算法。玻尔兹曼分布在统计力学中的表达形式为：E是状态能量（从一种状态变化到另一种状态），KT（分布常数）是玻尔兹曼常数与力学温度的乘积。系统两种状态间的玻尔兹曼分布的比率被称为玻尔兹曼因子，并且此特征仅依赖于状态能量差。模拟退火算法是最优化处理理论和方法的一个方面，并...

2018-07-15 12:51:41 5111

原创反向传播BP

之前介绍的梯度下降法是最简单的神经网络--感知器网络。它是利用外界输入样本的刺激，通过不断迭代，修正权重向量，以使网络输出与期望输出减少差距，直至稳定。但感知器无法处理线性不可分的情况。1986年提出利用误差的反向传播原理设计了BP神经网络。BP网络改变了传统的网络结构，引入了新的分层和逻辑，基本解决了非线性的分类问题。BP网络基本结构：（1）输入层i。输入向量：输...

2018-07-15 12:45:50 944

原创长短时记忆网络LSTM

因为循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。我们将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。但不幸的一面是，LSTM的结构很复杂，因此，我们再介绍一种LSTM的变体：...

2018-07-15 12:31:42 9610

原创循环神经网络RNN

全连接神经网络和卷积神经网络，他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。这时，就需要用到深度学...

2018-07-15 12:13:20 1982

原创卷积神经网络CNN

卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功，而且在自然语言处理等其它领域也有很好的应用。卷积神经网络的示意图1：一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。三维的层结构：从图1我们可以发现卷积神经网络的层结构和全连接神经网络的层结构有很大不同。全连接神经网络每层的神经元是按照一维排列的，也就是排成一条线的样子；而卷积神经网络每层的神经元是按照三维排列的，也就是排...

2018-07-14 10:42:09 1271

人之初，性贪婪