2 Tobesix

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 16w+

机器学习笔记21-XGBoost

XGBoost:算法核心思想不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。 当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数 最后只需要将每棵树对应的分数加起来就是该样本的预测值决策树模型训练数据集,其中决策树模型:把树分成结构部分q和叶子权重部分w后,q(x)为一个映射函数,把输入映射到叶子的索引号上面去,而w给定了每个索引

2020-05-16 14:27:14

机器学习笔记20-SVM

SVM 基本概念将实例的特征向量(以二维为例)映射为空间中的一些点,就是如下图的实心点和空心点,它们属于不同的两类。那么 SVM 的目的就是想要画出一条线,以“最好地”区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。画线的标准是什么?/ 什么才叫这条线的效果好?SVM 将会寻找可以区分两个类别并且能使边际(margin)最大的超平面(hyper plane)边际(margin)是什么?边际就是某一条线距离它两侧最近的点的距离之和。比如下图中两条虚线构成的带状区

2020-05-13 21:49:04

机器学习笔记19-EM算法

GMM(高斯混合模型)问题引入:(图中的方差实为标准差)随机挑选10000位志愿者,测量他们的身高;若样本中存在男性和女性,身高分别服从和,试估计。假设随机变量X是由K个高斯分布混合而成,取各个高斯分布的概率为,第i个高斯分布的均值为,标准差为。若观测到随机变量X的一系列样本x1,x2,x2......xn,试估计参数此时,对数似然函数为:(是不能直接求导的)下面分为两步:开始的时候主观设定的参数值,然后进行优化最后得到的是局部最优值,与开始时候主观设定的参数值有关。

2020-05-13 20:04:21

机器学习笔记18-相似度/距离计算方法总结

1.曼哈顿距离和欧式距离图中红线代表曼哈顿距离,绿色代表欧式距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。2.杰卡德相似系数(Jaccard)两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。​杰卡德相似系数是衡量两个集合的相似度一种指标。如CV领域中的IOU。3.余弦相似度及扩展相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。.

2020-05-13 11:06:34

机器学习笔记17-LDA算法

1. LDA算法简介LDA(线性判别式分析 Linear Discriminant Analysis)属于机器学习中的监督学习算法,常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于:LDA是一种监督学习的降维技术,也就是说它的每个样本是有类别输出的,而之前所学习的PCA算法是不考虑样本类别输出的无监督降维技术。LDA算法的目标是使降维后的数据类内方差最小,类间方差最大(即使数据在低维度上进行投影,投影后希望每一种类

2020-05-13 09:26:11

机器学习笔记16-GBDT算法

梯度提升树算法前面一节我们提到了AdaBoost算法,AdaBoost算法可以解决分类问题,通过计算模型每次更新后的误差率,对数据和模型的权重alpha进行更新。但对于回归问题,我们就需要使用提升树、梯度提升树算法。梯度提升树与提升树的区别在于,提升树采用残差,而梯度提升树采取拟合当前模型损失函数的负梯度(在损失函数为均方误差的时候,相当于就是残差,其它误差函数不一定就是残差),来生成一个新的...

2020-04-30 16:25:29

机器学习笔记15-AdaBoost算法

AdaBoost算法提升方法是基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。通俗点说,就是"三个臭皮匠顶个诸葛亮"。对于分类问题而言,给定一个训练数据,求一个比较粗糙的分类器(即弱分类器)要比求一个精确的分类器(即强分类器)容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个...

2020-04-29 14:47:53

机器学习笔记14-随机森林算法

随机森林随机森林的工作原理如下:从数据集中随机选择k个特征,共m个特征(其中k<=m),然后根据这k个特征建立决策树 重复上述步骤n次,建立起来n棵决策树(或者每次选取数据集中的不同随机样本,称为自助法样本) 对每个决策树都传递变量来预测结果,最后得到n个预测结果 计算每个预测结果的得票数,得票数高的预测结果作为随机森林算法的最终预测结果针对回归问题,随机森林中的决策树会预测...

2020-04-23 17:06:43

《从零进阶!数据分析的统计基础》-6.相关与回归分析

目录:第六章相关与回归分析6.1 变量间的关系6.1.1 函数关系及特点6.1.2 相关关系及特点6.2 相关分析6.2.1 相关分析及步骤6.2.2 散点图的绘制6.2.3 相关系数6.2.4 相关系数的显著性检验6.2.5 使用SPSS实现相关分析6.3 一元线性回归分析6.3.1 一元回归模型及相关假定6.3.2 一元线性回归方程及求法...

2020-04-19 17:29:32

《深入浅出数据分析》-13.整理数据

十三、整理数据Head First猎头公司是你的最新主顾,该公司从一家停业的竞争对手哪里搞到一份求职人员名单,需要我们帮忙处理数据,他们需要的是一份电话号码清单,这样他们的销售团队就能给不认识的候选人打电话。①通过Excel的分隔符就可以将数据分为多个列②用SUBSTITUTE(单元格,“要替换字符”,“新字符”)-->去除FirstName中的^③或者使用正则表...

2020-04-19 15:55:41

《深入浅出数据分析》-12.关系数据库

十二、关系数据库《数据邦新闻》是时下盛行的一份新闻类杂志,他们想把每期杂志的文章数目与销量关联起来,然后找出在每一期刊物上刊登文章的最优数量。他们希望每一期的杂志都能尽量经济有效,要是每期杂志刊登一百篇文章比刊登五十篇文章带来的销量并无提高,那他们就不刊登那么多;另一方面,要是刊登五十篇文章比刊登十篇文章能带来更大销量,那他们就会刊登五十篇文章。通过销量表-->期刊表--&g...

2020-04-19 15:11:31

《从零进阶!数据分析的统计基础》-5.方差分析

第五章 方差分析5.1 方差分析5.1.1 方差分析的概述5.1.2 方差分析的几个概念5.1.3 单因素方差分析中的基本假定5.2 单因素方差分析5.2.1 单因素方差分析的原理5.2.2 单因素方差分析的数据结构5.2.3 单因素方差分析的统计量5.2.4 单因素方差分析的基本步骤5.3 使用SPSS实验单...

2020-04-16 22:37:59

《深入浅出数据分析》-11.误差(合理误差)

十一、误差下面是几位不同客户的预测结果:内插法:数据范围以内的情况,但偏离回归线外插法:数据范围以外的情况,因为缺少数据无法进行预测,可以提前增加注释“预测范围介于x%至y%之间有效”以下几种情况都会对模型的有效性造成影响但在预测范围内,预测结果也会出现机会误差(实际结果与模型预测结果之间的偏差)我们用均方根误差定量表示残差分布均方根误差:summa...

2020-04-16 20:52:10

《深入浅出数据分析》-10.回归(预测)

十、回归前面的第九章,我们通过直方图得到了一个结论,主动申请加薪比不主动申请能得到更高的加薪比例,显然,你发现了如何得到更高加薪的秘密,这是大家的福音,所以你也应该利用这个技能来帮别人争取加薪,但要求加多少钱合理呢?从已有的数据中,我们统计了客户的要求加薪幅度与实际加薪幅度在R中运行一下几行指令:加载数据:employees<-read.csv("http://w...

2020-04-16 17:38:39

《深入浅出数据分析》-9.直方图

九、直方图员工年度考评即将来临,如何才能让老板主动给我们加薪呢?由于你潜心研究星巴仕数据,因此得到了人力资源部过去三年的加薪记录。我们使用R来进行直方图制作,分析流程:直方图:显示出数据点在数值范围内的分布情况下载数据:source("http://www.headfirstlabs.com/books/hfda/hfda.R")画直方图:hist(employee...

2020-04-14 22:55:41

《从零进阶!数据分析的统计基础》-4.假设检验

4.1假设检验概述4.1.1假设检验的概念4.1.2假设检验的基本思想4.1.3假设检验在数据分析中的作用4.2假设检验的分析方法4.2.1假设检验的基本步骤4.2.2假设检验与区间估计的联系4.2.3假设检验中的两类错误4.2.4利用P值进行决策4.2.5应用假设检验需要注意的问题4.3常见的检验统计量4.3.1 z检验统计量4.3.2 t检验统计...

2020-04-14 14:55:01

《深入浅出数据分析》-8.启发法

八、启发法邋遢集是由数据堡市市政府资助的一个非盈利团体,他们进行公共宣传,劝说人们不要乱扔垃圾。他们刚刚把最近的工作结果汇报给了市政府,结果出乎意料。如果你们不拿出各方法减少散乱垃圾量,市政府就会在一个月内消减资金。邋遢集的效果是显著的,但它需要我们使用计量的方法完成任务。我们该从哪里获得散乱垃圾的减少数量呢?下面是邋遢集进行的问卷调查结果,但会议对此报告的感受不深,需要具...

2020-04-13 20:59:03

《深入浅出数据分析》-7.主观概率

七、主观概率背水公司是一家商号,依靠在发展中市场谋求模糊投资赚钱。他们选择的投资别人很难理解,甚至很难发现。但背水公司的分析师在很多地缘政治趋势方面分歧严重,着给打算根据他们的分析进行投资的投资人带来了极大的问题;导致分歧的问题五花八门。上面出现的概率用词有:可能、极不可能、可能性更大、有可能、可能不、不可能、可能会、肯定、大有机会。下面提到一个概念:主观概率,用一个数字形式的概率...

2020-04-13 19:38:04

《深入浅出数据分析》-6.贝叶斯统计

六、贝叶斯统计医生给了你一份蜥蜴流感诊断书,好消息是蜥蜴流感并不致命,在家治疗几个星期即可痊愈;坏消息是蜥蜴流感极其麻烦,你需要在家隔离六周以上。上图中情形二计算错误,应该等于8人。上图中最后一行的阴性应该改为阳性。最后证明当被诊断为阳性时,患病的概率仅为9%这时候,又进行了一次高级的诊断试验,概率值出现了变化,并且你的测试结果变成了阴性下图...

2020-04-11 22:33:00

《深入浅出数据分析》-5.假设检验

五、假设检验欢迎你来到"电肤"公司,这是一家收集"皮肤"制造商,你的任务是弄清楚手机巨头PodPhone下个月是否要出一款新手机,诸多商机悬而未决。要是不备妥手机皮肤迎接产品发布,竞争对手将抢先下手占领市场;要是电肤生产了手机皮肤而PodPhone却不发布产品,投在手机皮肤上的钱就会打水漂。PodPhone总是出人意料地发布产品,因此电肤必须搞清楚发布时间。如果电肤能在PodPhone...

2020-04-11 20:48:35

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。