自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 (二)Logistic Regression[逻辑回归]&正则项

逻辑回归解决的是分类问题,它的本质是给了X,y,来求解θ,和线性回归很像。逻辑回归也是Xθ进行预测,预测的值可以理解为概率,在0~1之间,比如可以将>0.5的值归为1,总之,逻辑回归和线性回归都是为了得到θ(θ是个香饽饽~),得到了之后,一个用来分类,一个用来预测。下面详解。逻辑回归比如打算把一群sample分成2类,分别用0,1代表负样本和正样本,即y⊂{0, 1},

2017-11-01 18:06:16 1352

转载 主成分分析(PCA)原理详解

原创 2015年03月04日 19:40:45标签:机器学习/数据挖掘/主成分分析/PCA/26329

2017-10-27 14:04:25 296

转载 使用sklearn进行集成学习——实践

目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参?  2.1 调参的目标:偏差和方差的协调  2.2 参数对整体模型性能的影响  2.3 一个朴实的方案:贪心的坐标下降法    2.3.1 Random Forest调参案例:Digit Recognizer      2.3.1.1 调整过程影响类参数  

2017-10-26 16:52:36 562

转载 使用sklearn进行集成学习——理论

目录1 前言2 集成学习是什么?3 偏差和方差  3.1 模型的偏差和方差是什么?  3.2 bagging的偏差和方差  3.3 boosting的偏差和方差  3.4 模型的独立性  3.5 小结4 Gradient Boosting  4.1 拟合残差  4.2 拟合反向梯度    4.2.1 契机:引入损失函数    4.2.2

2017-10-26 16:20:35 223

转载 使用Python进行描述性统计

目录1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析  2.1 基本概念  2.2 中心位置(均值、中位数、众数)  2.3 发散程度(极差,方差、标准差、变异系数)  2.4 偏差程度(z-分数)  2.5 相关程度(协方差,相关系数)  2.6 回顾3 使用Matplotlib进行图分析  3.1 基本概念  3.2 频数分析

2017-10-26 14:44:32 795

转载 使用sklearn优雅地进行数据挖掘

目录1 使用sklearn进行数据挖掘  1.1 数据挖掘的步骤  1.2 数据初貌  1.3 关键技术2 并行处理  2.1 整体并行处理  2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析

2017-10-26 14:31:06 340

转载 数据挖掘sklearn中的的特征工程处理

目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法

2017-10-26 11:00:00 356

转载 子空间投影

分类: 线性代数首先我们可以通过上图了解投影在二维空间R2中是怎么回事,现有向量a和b,将b向量投影到a向量,p为b在a上的投影,即p是a上离b最近的点,e=b-p这好比b与p之间的误差,这个误差与a相互垂直,根据垂直关系我们可以列出方程,投影p是a的倍数,所以p=xa,这个x是一个标量,a垂直于e,也就是说 ,将式子作一些变形得到 ,则,投影 ,从投影p的式子可以看出,若

2017-10-26 10:47:39 386 1

转载 七种降维方法

感谢王穆荣的投稿,转载请注明出处:数盟社区近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量。 该数据集维度达到 15000 维。 大多数数据挖掘算

2017-10-25 18:32:48 999

转载 机器学习中的正则化

作者:陶轻松链接:https://www.zhihu.com/question/20924039/answer/131421690来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。r(d)可以理解为有d的参数进行约束,或者 D 向量有d个维度。咱们将楼主的给的凸优化结构细化一点,别搞得那么抽象,不好解释; , 其中,咱们可

2017-10-25 18:30:22 132

转载 xgboost入门与实战(实战调参篇)

xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNI

2017-10-25 18:27:58 269

转载 提升树GBDT详解

参考资料及博客: 李航《统计学习方法》 Gradient Boosting wikiGBDT理解二三事GBDT(MART) 迭代决策树入门教程 | 简介前言 For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识,本文是提升树与梯度提升方法的学习笔记,同时阅读了网络上的一些关于GBDT的博文,加强理解。为了能好好理解Xgboo

2017-10-25 18:19:34 324 1

转载 xgboost入门(原理)

xgboost入门与实战(原理篇)前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI,

2017-10-25 18:18:25 448

转载 统计学习方法——CART, Bagging, Random Forest, Boosting

本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法,参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。CART(Classification And Regressio

2017-10-25 18:00:18 173

转载 【特征工程】特征选择与特征学习

特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特

2017-10-25 17:57:34 943

转载 机器学习中的二元分类问题

一、二元分类问题     接着上一节我们举得例子,我们说机器学习的流程是什么呢?首先我们要有一个学习的演算法,我们叫做A,这个演算法会看资料,然后会看我们的假设函数集合,从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。  那么假设函数集合是什么样子呢?    我们把每一个使用者当做一个向量X(年龄,工作年限,年薪),每一维都当做一个特征

2017-10-25 17:45:20 5369

转载 核函数在机器学习上的

作者:王赟 Maigo链接:https://www.zhihu.com/question/24627666/answer/28440943来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。下面这张图位于第一、二象限内。我们关注红色的门,以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据,紫色字母上的点看成是“

2017-10-25 15:18:00 782

转载 参数回归,无参数回归和半参数回归

参数回归是我们最长用的模型。与参数回归相对的非参数回归,这种模型对变量分布等假定并不是很严等,因此可以说扩展了参数回归的应用范围。但是非参数回归的局限性在于,在存在较多的解释变量时,很容易出现所谓的“维度灾难”,像方差的急剧增大等现象。    这类模型包括实例回归,局部加权回归(LOESS)和样条回归。非参数方法一般适用于低维空间(较少的解释变量)。该局部加权回归曲线是利用点附近的点信息,使用

2017-10-25 14:18:49 15456 1

转载 随机森林进行特征重要性度量的详细说明

http://mingyang5.chinanorth.cloudapp.chinacloudapi.cn:8888特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。1 特征重要性​度量计算某个特征X的重要性时,具体步骤如下:1)对每一颗决策树,选择相应的袋外数据(out of bag,O

2017-10-24 16:08:03 27075 4

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-10-24 15:02:08 124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除