m0_37770941-CSDN博客

转载（二）Logistic Regression[逻辑回归]&正则项

逻辑回归解决的是分类问题，它的本质是给了X,y，来求解θ，和线性回归很像。逻辑回归也是Xθ进行预测，预测的值可以理解为概率，在0~1之间，比如可以将>0.5的值归为1，总之，逻辑回归和线性回归都是为了得到θ(θ是个香饽饽~)，得到了之后，一个用来分类，一个用来预测。下面详解。逻辑回归比如打算把一群sample分成2类，分别用0,1代表负样本和正样本，即y⊂{0, 1}，

2017-11-01 18:06:16 1352

转载主成分分析（PCA）原理详解

原创 2015年03月04日 19:40:45标签：机器学习/数据挖掘/主成分分析/PCA/26329

2017-10-27 14:04:25 296

转载使用sklearn进行集成学习——实践

目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参？　　2.1 调参的目标：偏差和方差的协调　　2.2 参数对整体模型性能的影响　　2.3 一个朴实的方案：贪心的坐标下降法　　　　2.3.1 Random Forest调参案例：Digit Recognizer　　　　　　2.3.1.1 调整过程影响类参数　　

2017-10-26 16:52:36 562

转载使用sklearn进行集成学习——理论

目录1 前言2 集成学习是什么？3 偏差和方差　　3.1 模型的偏差和方差是什么？　　3.2 bagging的偏差和方差　　3.3 boosting的偏差和方差　　3.4 模型的独立性　　3.5 小结4 Gradient Boosting　　4.1 拟合残差　　4.2 拟合反向梯度　　　　4.2.1 契机：引入损失函数　　　　4.2.2

2017-10-26 16:20:35 223

转载使用Python进行描述性统计

目录1 描述性统计是什么？2 使用NumPy和SciPy进行数值分析　　2.1 基本概念　　2.2 中心位置（均值、中位数、众数）　　2.3 发散程度（极差，方差、标准差、变异系数）　　2.4 偏差程度（z-分数）　　2.5 相关程度（协方差，相关系数）　　2.6 回顾3 使用Matplotlib进行图分析　　3.1 基本概念　　3.2 频数分析

2017-10-26 14:44:32 795

转载使用sklearn优雅地进行数据挖掘

目录1 使用sklearn进行数据挖掘　　1.1 数据挖掘的步骤　　1.2 数据初貌　　1.3 关键技术2 并行处理　　2.1 整体并行处理　　2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析

2017-10-26 14:31:06 340

转载数据挖掘sklearn中的的特征工程处理

目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法

2017-10-26 11:00:00 356

转载子空间投影

分类：线性代数首先我们可以通过上图了解投影在二维空间R2中是怎么回事，现有向量a和b，将b向量投影到a向量，p为b在a上的投影，即p是a上离b最近的点，e=b-p这好比b与p之间的误差，这个误差与a相互垂直，根据垂直关系我们可以列出方程，投影p是a的倍数，所以p=xa，这个x是一个标量，a垂直于e，也就是说，将式子作一些变形得到，则，投影，从投影p的式子可以看出，若

2017-10-26 10:47:39 386 1

转载七种降维方法

感谢王穆荣的投稿，转载请注明出处：数盟社区近来由于数据记录和属性规模的急剧增长，大数据处理平台和并行数据分析算法也随之出现。于此同时，这也推动了数据降维处理的应用。实际上，数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量。该数据集维度达到 15000 维。大多数数据挖掘算

2017-10-25 18:32:48 999

转载机器学习中的正则化

作者：陶轻松链接：https://www.zhihu.com/question/20924039/answer/131421690来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。r(d)可以理解为有d的参数进行约束，或者 D 向量有d个维度。咱们将楼主的给的凸优化结构细化一点，别搞得那么抽象，不好解释； , 其中，咱们可

2017-10-25 18:30:22 132

转载 xgboost入门与实战（实战调参篇）

xgboost入门与实战（实战调参篇）前言前面几篇博文都在学习原理知识，是时候上数据上模型跑一跑了。本文用的数据来自kaggle，相信搞机器学习的同学们都知道它，kaggle上有几个老题目一直开放，适合给新手练级，上面还有很多老司机的方案共享以及讨论，非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNI

2017-10-25 18:27:58 269

转载提升树GBDT详解

参考资料及博客：李航《统计学习方法》 Gradient Boosting wikiGBDT理解二三事GBDT（MART）迭代决策树入门教程 | 简介前言 For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识，本文是提升树与梯度提升方法的学习笔记，同时阅读了网络上的一些关于GBDT的博文，加强理解。为了能好好理解Xgboo

2017-10-25 18:19:34 324 1

转载 xgboost入门（原理）

xgboost入门与实战（原理篇）前言：xgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI,

2017-10-25 18:18:25 448

转载统计学习方法——CART, Bagging, Random Forest, Boosting

本文从统计学角度讲解了CART（Classification And Regression Tree）, Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法，参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。CART（Classification And Regressio

2017-10-25 18:00:18 173

转载【特征工程】特征选择与特征学习

特征选择与特征学习在机器学习的具体实践任务中，选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集，具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中，数据通常是复杂冗余，富有变化的，有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识，不利于推广。于是我们需要通过机器来学习和抽取特征，促进特

2017-10-25 17:57:34 943

转载机器学习中的二元分类问题

一、二元分类问题接着上一节我们举得例子，我们说机器学习的流程是什么呢？首先我们要有一个学习的演算法，我们叫做Ａ，这个演算法会看资料，然后会看我们的假设函数集合，从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。　那么假设函数集合是什么样子呢？我们把每一个使用者当做一个向量X（年龄，工作年限，年薪），每一维都当做一个特征

2017-10-25 17:45:20 5369

转载核函数在机器学习上的

作者：王赟 Maigo链接：https://www.zhihu.com/question/24627666/answer/28440943来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。下面这张图位于第一、二象限内。我们关注红色的门，以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据，紫色字母上的点看成是“

2017-10-25 15:18:00 782

转载参数回归，无参数回归和半参数回归

参数回归是我们最长用的模型。与参数回归相对的非参数回归，这种模型对变量分布等假定并不是很严等，因此可以说扩展了参数回归的应用范围。但是非参数回归的局限性在于，在存在较多的解释变量时，很容易出现所谓的“维度灾难”，像方差的急剧增大等现象。这类模型包括实例回归，局部加权回归（LOESS）和样条回归。非参数方法一般适用于低维空间（较少的解释变量）。该局部加权回归曲线是利用点附近的点信息，使用

2017-10-25 14:18:49 15456 1

转载随机森林进行特征重要性度量的详细说明

http://mingyang5.chinanorth.cloudapp.chinacloudapi.cn:8888特征选择方法中，有一种方法是利用随机森林，进行特征的重要性度量，选择重要性较高的特征。下面对如何计算重要性进行说明。1 特征重要性度量计算某个特征X的重要性时，具体步骤如下：1）对每一颗决策树，选择相应的袋外数据（out of bag，O

2017-10-24 16:08:03 27075 4

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-10-24 15:02:08 124

m0_37770941的博客