1 Mr_health

尚未进行身份认证

暂无相关描述

等级
博文 86
排名 5w+

PCA原理

向量的表示及基变换既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。内积与投影下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。下面我们分析内积的几何意义。假设A和B是两个n维向量,我们知道n维向量可以等价...

2019-07-16 13:41:14

LDA原理

参考:LDA原理基本原理LDA的全称是LinearDiscriminantAnalysis,即线性判别分析,是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢?我们要将数据在低维...

2019-07-15 13:48:55

机器学习优化算法

参考:机器学习常见的优化算法比较最全的机器学习中的优化算法介绍目录1.梯度下降算法1.1随机梯度下降(SGD)1.2批量梯度下降(mini-batchSGD)2.AdaGrad算法3.RMSProp算法4.AdaDelta算法5.Adam算法6.牛顿法1.梯度下降算法想象你在一个山峰上,在不考虑其他因素的情...

2019-07-13 22:08:26

随机森林原理

目录1.介绍2.特征选择2.1袋外错误率(ooberror)2.2特征重要性2.3特征选择3.优缺点3.1优点3.2缺点1.介绍随机森林(RandomForest,RF)是典型的bagging算法,顾名思义,森林就是由多个决策树构成的算法,其基学习器为CART决策树(换句话说,其实我们只是将使用CART决策树作为弱学习器的Bagging...

2019-07-13 15:49:42

经验风险、期望风险与结构风险之间的关系

转载于:机器学习-->期望风险、经验风险与结构风险之间的关系在机器学习中,通常会遇到期望风险、经验风险和结构风险这三个概念,要区分这三个概念,首先要引入一个损失函数的概念。损失函数是期望风险、经验风险和结构风险的基础。损失函数损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。常见的损失函数见我的另一个博客常见的损失函数经验风险那么如果想知...

2019-07-13 11:52:50

先验概率,条件概率与后验概率

先验概率,条件概率与后验概率先验概率是基于背景常识或者历史数据的统计得出的预判概率,一般只包含一个变量,例如,。条件概率是表示一个事件发生后另一个事件发生的概率,例如代表事件发生后事件发生的概率。后验概率是由果求因,也就是在知道结果的情况下求原因的概率,例如Y事件是X引起的,那么就是后验概率,也可以说它是事件发生后的反向条件概率。先验概率是由以往的数据分析得到的,而在得到信息后再重...

2019-07-13 10:48:53

L1和L2正则化

目录1.从梯度下降的角度理解1.1L1正则化-梯度下降理解1.2L2正则化-梯度下降理解2.从先验概率的角度理解1.1L2正则化-先验概率理解2.2L1正则化-先验概率理解3.L1和L2的稀疏性分析4.L1和L2正则化的联系与区别1.从梯度下降的角度理解1.1L1正则化-梯度下降理解在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值...

2019-07-11 21:09:30

GBDT

转载于:GBDT算法原理以及实例理解(建议!!)GBDT基本原理及回归分类算法描述(里面增加了GBDT在分类和回归算法中的描述,很有用)带你搞懂GBDT算法原理目录简介1.DecisionTree:CART回归树2.GradientBoosting:拟合负梯度3.GBDT算法原理...

2019-07-11 16:41:46

机器学习中的参数模型和非参数模型理解

转载于机器学习中参数模型和非参数模型理解参数模型和非参数模型定义非参数模型(non-parametricmodel)和参数模型(parametricmodel)作为数理统计学中的概念,现在也常用于机器学习领域中。在统计学中:参数模型通常假设总体服从某个分布,这个分布可以由一些参数确定,如正态分布由均值和标准差确定,在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任...

2019-07-08 14:56:28

【深度学习】批归一化(Batch Normalization)

参考:深度学习归一化BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。我们为什么需要BN?神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能...

2019-07-08 10:04:49

决策树

目录1、简介2、分类决策树构建2.1.特征选择信息熵信息增益增益率基尼指数2.2.决策树生成ID3C4.52.3.剪枝3、回归决策树的构建一个简单的例子1、简介决策树分为分类决策树和回归决策树,前者可用于处理离散型数据,后者可用于处理连续型数据。分类决策树的代表方法为:ID3算法:以信息增益为准则来生成树 C4.5算法:...

2019-06-30 21:17:44

提升树(boosting tree)

转载于:GBDT原理详解统计学习方法--提升树模型(BoostingTree)与梯度提升树(GBDT)提升树算法以决策树为基函数的提升方法为提升树,对分类问题决策树是二叉分类树,回归问题就是二叉回归树。(可以看出,决策树本来就可以用预分类或者是回归)提升树模型为加法模型,采用前向分步算法训练。所谓加法模型就是强分类器可以由多个弱分类器线性相加,...

2019-06-30 17:02:22

k-mean聚类获取anchor的先验大小

使用的聚类原始数据是只有标注框的检测数据集,YOLOv2、v3都会生成一个包含标注框位置和类别的TXT文件,其中每行都包含,即groundtruthboxes相对于原图的坐标,是框的中心点,是框的宽和高,N是所有标注框的个数;首先给定k个聚类中心点,这里的是anchorboxes的宽和高尺寸,由于anchorboxes位置不固定,所以没有(x,y)的坐标,只有宽和高;计算每个标注框和每个聚类中心点的距离d=1-IOU(标注框,聚类中心),计算时每个标注框的中心点都与聚类中心重合,这样才能计算

2019-06-29 22:23:58

极大似然估计

来源:极大似然估计理解与应用极大似然估计写的太好了极大似然估计目录0.引言1.什么是极大似然估计2.极大似然原理及数学表示3.极大似然估计法(MaximumLikelihoodEstimation,MLE)4.极大似然估计法求估计值的步骤5.例题0.引言整个机器学习问题的求解其实就是在确...

2019-06-28 13:14:23

机器学习(七):决策树(面经)

来源:数据挖掘面试题之决策树必知必会通俗易懂--决策树算法、随机森林算法讲解(算法+案例)决策树面试问题1:什么是决策树?答:决策树是一种分类和回归的基本模型,可从三个角度来理解它,即:一棵树 if-then规则的集合,该集合是决策树上的所有从根节点到叶节点的路径的集合 定义在特征空间与类空间上的条件概率分布,决策树实际上是将...

2019-06-27 16:51:31

数据结构(一):树遍历顺序的求解

2019-06-27 14:51:46

集成学习(二):adaboost算法

参考AdaBoost原理详解Adaboost算法介绍(针对算法面试)手把手教你实现一个AdaBoost机器学习笔记:AdaBoost公式推导目录1.AdaBoost原理1.1训练当前迭代最优弱分类器1.2计算最优弱分类器的权重1.3根据错误率更新样本权重2.公式推导2.1α和的推导2.2权重更新公式相关面试题1.AdaBoost原理...

2019-06-27 13:53:02

集成学习(一):bagging和boosting算法及对比

转载于:bagging和boosting算法(集成学习算法)Bagging算法和Boosting区别和联系机器学习笔记-集成学习之Bagging,Boosting,随机森林三者特性对比前言集成学习定义:集成学习通过构建并结合多个学习器来完成学习任务。分类:只包含同种类型的个体学习器,这样的集成是“同质”的,例如都...

2019-06-20 21:23:19

机器学习(四):特征选择方法

转载至https://www.cnblogs.com/bonelee/p/8632866.html1、特征转载工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,特征工程就是最大限度地从原始数据中提取特征以供算法和模型使用,通过归纳和总结,特征工程大体包含以下方面:征处理是特征工程的核心部分,scikit-learn提供了较为完整的特征处理方法,包括数据预处理、...

2019-06-20 19:45:05

机器学习(一):数据归一化与标准化

转载:https://www.jianshu.com/p/3761bad01053一.为什么要数据归一化和标准化对于大多数的机器学习算法和优化算法来说,将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言,例如有两个不同的特征,第一个特征的取值范围为1-10,第二个特征的取值范围为1-10000。在梯度下降算法中,代价函数为最小平方误差函数,所以在使用梯度下降算法的时候,算...

2019-06-20 10:39:49
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。