Tobesix-CSDN博客

原创机器学习笔记21-XGBoost

XGBoost：算法核心思想不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数最后只需要将每棵树对应的分数加起来就是该样本的预测值决策树模型训练数据集，其中决策树模型：把树分成结构部分q和叶子权重部分w后，q(x)为一个映射函数，把输入映射到叶子的索引号上面去，而w给定了每个索引

2020-05-16 14:27:14 684

原创机器学习笔记20-SVM

SVM 基本概念将实例的特征向量（以二维为例）映射为空间中的一些点，就是如下图的实心点和空心点，它们属于不同的两类。那么 SVM 的目的就是想要画出一条线，以“最好地”区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。画线的标准是什么？/ 什么才叫这条线的效果好？SVM 将会寻找可以区分两个类别并且能使边际（margin）最大的超平面（hyper plane）边际（margin）是什么？边际就是某一条线距离它两侧最近的点的距离之和。比如下图中两条虚线构成的带状区

2020-05-13 21:49:04 524 2

原创机器学习笔记19-EM算法

GMM（高斯混合模型）问题引入：（图中的方差实为标准差）随机挑选10000位志愿者，测量他们的身高；若样本中存在男性和女性，身高分别服从和，试估计。假设随机变量X是由K个高斯分布混合而成，取各个高斯分布的概率为，第i个高斯分布的均值为，标准差为。若观测到随机变量X的一系列样本x1,x2,x2......xn，试估计参数此时，对数似然函数为：（是不能直接求导的）下面分为两步：开始的时候主观设定的参数值，然后进行优化最后得到的是局部最优值，与开始时候主观设定的参数值有关。

2020-05-13 20:04:21 324

原创机器学习笔记18-相似度/距离计算方法总结

1.曼哈顿距离和欧式距离图中红线代表曼哈顿距离，绿色代表欧式距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。2.杰卡德相似系数（Jaccard）两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的相似度一种指标。如CV领域中的IOU。3.余弦相似度及扩展相似度度量（Similarity），即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。.

2020-05-13 11:06:34 927

转载机器学习笔记17-LDA算法

1. LDA算法简介LDA（线性判别式分析 Linear Discriminant Analysis）属于机器学习中的监督学习算法，常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于：LDA是一种监督学习的降维技术，也就是说它的每个样本是有类别输出的，而之前所学习的PCA算法是不考虑样本类别输出的无监督降维技术。LDA算法的目标是使降维后的数据类内方差最小，类间方差最大（即使数据在低维度上进行投影，投影后希望每一种类

2020-05-13 09:26:11 9568

原创机器学习笔记16-GBDT算法

梯度提升树算法前面一节我们提到了AdaBoost算法，AdaBoost算法可以解决分类问题，通过计算模型每次更新后的误差率，对数据和模型的权重alpha进行更新。但对于回归问题，我们就需要使用提升树、梯度提升树算法。梯度提升树与提升树的区别在于，提升树采用残差，而梯度提升树采取拟合当前模型损失函数的负梯度(在损失函数为均方误差的时候，相当于就是残差，其它误差函数不一定就是残差)，来生成一个新的...

2020-04-30 16:25:29 139

原创机器学习笔记15-AdaBoost算法

AdaBoost算法提升方法是基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。通俗点说，就是"三个臭皮匠顶个诸葛亮"。对于分类问题而言，给定一个训练数据，求一个比较粗糙的分类器（即弱分类器）要比求一个精确的分类器（即强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个...

2020-04-29 14:47:53 320

原创机器学习笔记14-随机森林算法

随机森林随机森林的工作原理如下：从数据集中随机选择k个特征，共m个特征（其中k<=m），然后根据这k个特征建立决策树重复上述步骤n次，建立起来n棵决策树（或者每次选取数据集中的不同随机样本，称为自助法样本）对每个决策树都传递变量来预测结果，最后得到n个预测结果计算每个预测结果的得票数，得票数高的预测结果作为随机森林算法的最终预测结果针对回归问题，随机森林中的决策树会预测...

2020-04-23 17:06:43 970

原创《从零进阶！数据分析的统计基础》-6.相关与回归分析

目录：第六章相关与回归分析6.1 变量间的关系6.1.1 函数关系及特点6.1.2 相关关系及特点6.2 相关分析6.2.1 相关分析及步骤6.2.2 散点图的绘制6.2.3 相关系数6.2.4 相关系数的显著性检验6.2.5 使用SPSS实现相关分析6.3 一元线性回归分析6.3.1 一元回归模型及相关假定6.3.2 一元线性回归方程及求法...

2020-04-19 17:29:32 562 1

原创《深入浅出数据分析》-13.整理数据

十三、整理数据Head First猎头公司是你的最新主顾，该公司从一家停业的竞争对手哪里搞到一份求职人员名单，需要我们帮忙处理数据，他们需要的是一份电话号码清单，这样他们的销售团队就能给不认识的候选人打电话。①通过Excel的分隔符就可以将数据分为多个列②用SUBSTITUTE(单元格,“要替换字符”,“新字符”)-->去除FirstName中的^③或者使用正则表...

2020-04-19 15:55:41 485

原创《深入浅出数据分析》-12.关系数据库

十二、关系数据库《数据邦新闻》是时下盛行的一份新闻类杂志，他们想把每期杂志的文章数目与销量关联起来，然后找出在每一期刊物上刊登文章的最优数量。他们希望每一期的杂志都能尽量经济有效，要是每期杂志刊登一百篇文章比刊登五十篇文章带来的销量并无提高，那他们就不刊登那么多；另一方面，要是刊登五十篇文章比刊登十篇文章能带来更大销量，那他们就会刊登五十篇文章。通过销量表-->期刊表--&g...

2020-04-19 15:11:31 205

原创《从零进阶！数据分析的统计基础》-5.方差分析

第五章方差分析5.1 方差分析5.1.1 方差分析的概述5.1.2 方差分析的几个概念5.1.3 单因素方差分析中的基本假定5.2 单因素方差分析5.2.1 单因素方差分析的原理5.2.2 单因素方差分析的数据结构5.2.3 单因素方差分析的统计量5.2.4 单因素方差分析的基本步骤5.3 使用SPSS实验单...

2020-04-16 22:37:59 395

原创《深入浅出数据分析》-11.误差(合理误差)

十一、误差下面是几位不同客户的预测结果：内插法：数据范围以内的情况，但偏离回归线外插法：数据范围以外的情况，因为缺少数据无法进行预测，可以提前增加注释“预测范围介于x%至y%之间有效”以下几种情况都会对模型的有效性造成影响但在预测范围内，预测结果也会出现机会误差（实际结果与模型预测结果之间的偏差）我们用均方根误差定量表示残差分布均方根误差：summa...

2020-04-16 20:52:10 847

原创《深入浅出数据分析》-10.回归(预测)

十、回归前面的第九章，我们通过直方图得到了一个结论，主动申请加薪比不主动申请能得到更高的加薪比例，显然，你发现了如何得到更高加薪的秘密，这是大家的福音，所以你也应该利用这个技能来帮别人争取加薪，但要求加多少钱合理呢？从已有的数据中，我们统计了客户的要求加薪幅度与实际加薪幅度在R中运行一下几行指令：加载数据：employees<-read.csv("http://w...

2020-04-16 17:38:39 378

原创《深入浅出数据分析》-9.直方图

九、直方图员工年度考评即将来临，如何才能让老板主动给我们加薪呢？由于你潜心研究星巴仕数据，因此得到了人力资源部过去三年的加薪记录。我们使用R来进行直方图制作，分析流程：直方图：显示出数据点在数值范围内的分布情况下载数据：source("http://www.headfirstlabs.com/books/hfda/hfda.R")画直方图：hist(employee...

2020-04-14 22:55:41 676 2

原创《从零进阶！数据分析的统计基础》-4.假设检验

4.1假设检验概述4.1.1假设检验的概念4.1.2假设检验的基本思想4.1.3假设检验在数据分析中的作用4.2假设检验的分析方法4.2.1假设检验的基本步骤4.2.2假设检验与区间估计的联系4.2.3假设检验中的两类错误4.2.4利用P值进行决策4.2.5应用假设检验需要注意的问题4.3常见的检验统计量4.3.1 z检验统计量4.3.2 t检验统计...

2020-04-14 14:55:01 407

原创《深入浅出数据分析》-8.启发法

八、启发法邋遢集是由数据堡市市政府资助的一个非盈利团体，他们进行公共宣传，劝说人们不要乱扔垃圾。他们刚刚把最近的工作结果汇报给了市政府，结果出乎意料。如果你们不拿出各方法减少散乱垃圾量，市政府就会在一个月内消减资金。邋遢集的效果是显著的，但它需要我们使用计量的方法完成任务。我们该从哪里获得散乱垃圾的减少数量呢？下面是邋遢集进行的问卷调查结果，但会议对此报告的感受不深，需要具...

2020-04-13 20:59:03 340 4

原创《深入浅出数据分析》-7.主观概率

七、主观概率背水公司是一家商号，依靠在发展中市场谋求模糊投资赚钱。他们选择的投资别人很难理解，甚至很难发现。但背水公司的分析师在很多地缘政治趋势方面分歧严重，着给打算根据他们的分析进行投资的投资人带来了极大的问题；导致分歧的问题五花八门。上面出现的概率用词有：可能、极不可能、可能性更大、有可能、可能不、不可能、可能会、肯定、大有机会。下面提到一个概念：主观概率，用一个数字形式的概率...

2020-04-13 19:38:04 332

原创《深入浅出数据分析》-6.贝叶斯统计

六、贝叶斯统计医生给了你一份蜥蜴流感诊断书，好消息是蜥蜴流感并不致命，在家治疗几个星期即可痊愈；坏消息是蜥蜴流感极其麻烦，你需要在家隔离六周以上。上图中情形二计算错误，应该等于8人。上图中最后一行的阴性应该改为阳性。最后证明当被诊断为阳性时，患病的概率仅为9%这时候，又进行了一次高级的诊断试验，概率值出现了变化，并且你的测试结果变成了阴性下图...

2020-04-11 22:33:00 447

原创《深入浅出数据分析》-5.假设检验

五、假设检验欢迎你来到"电肤"公司，这是一家收集"皮肤"制造商，你的任务是弄清楚手机巨头PodPhone下个月是否要出一款新手机，诸多商机悬而未决。要是不备妥手机皮肤迎接产品发布，竞争对手将抢先下手占领市场；要是电肤生产了手机皮肤而PodPhone却不发布产品，投在手机皮肤上的钱就会打水漂。PodPhone总是出人意料地发布产品，因此电肤必须搞清楚发布时间。如果电肤能在PodPhone...

2020-04-11 20:48:35 418

原创《从零进阶！数据分析的统计基础》-3.抽样估计

第三章抽样估计3.1抽样估计基础3.1.1随机事件1.随机现象自然界中有两类不同性质的现象。一类现象为必然现象，一类现象为随机现象。2.样本空间样本空间是随机现象的一切可能结果组成的集合。例如抛一枚硬币的样本空间为：3.随机事件样本空间中某些元素组成的集合，即由随机现象的某些基本结果组成的集合叫随机事件。随机事件是样本空间的子集。3.1.2随机事件的概率...

2020-04-11 15:37:33 586

原创《深入浅出数据分析》-4.数据图形化

四、数据图形化新军队是一家在线服装零售商，刚刚进行过一次测试网页外观的实验，在一个月的时间里，每一位浏览网站的人都随机浏览到下列三种主页设计之一。新军队的数据很多，需要我们通过这些海量的数据来画图并展示。数据图像化的根本在于正确比较！客户想知道的是哪一种或者哪一些风格页能够给网站带来最高营业额、最多浏览时间以及最高回访率。下面是相关数据：相比于前一位数据分析师所做的数据报表...

2020-04-10 15:28:32 605

原创《深入浅出数据分析》-3.最优化(寻找最大值)

三、最优化（寻找最大值）你受雇于浴盆宝公式，这家公式执全国橡皮鸭和橡皮鱼玩具生产之牛耳，浴盆玩具是一项正正经经的业务，利润丰厚。他们想尽量提高利润，需要你帮忙找出理想的产品组合：这两种产品我们各应该生产多少？我们对需要的数据进行了整合：商家对我们的问题进行了回复：上面有一个地方要解释一下，商家一个月最多生产量是400只橡皮鸭和300条橡皮鱼，橡皮鸭的数量不会超过400只...

2020-04-09 22:36:35 945 1

原创《从零进阶！数据分析的统计基础》-2.描述性统计分析

目录：第二章描述性统计分析2.1直方图2.2数据的计量尺度定类尺度定序尺度定距尺度定比尺度2.3数据的集中趋势2.3.1定量数据：平均数2.3.2顺序数据：中位数和分位数2.3.3分类数据：众数2.4数据的离中趋势2.4.1极差2.4.2分位距2.4.3平均差2.4.4方差和标准差2.4.5离散系数2.5数据分布的测度2...

2020-04-09 17:37:27 1190

原创《深入浅出数据分析》-2.实验(检验你的理论)

二、实验（检验你的理论）星巴仕咖啡遇到了销量下滑问题，需要制定一个方案恢复元气好的起点是：1.会见首席执行官，弄清楚星巴仕如何进行商务运营的2.进行一次客户调查，弄清楚客户的想法我们通过随机抽取一些典型的咖啡消费者作为样本，问了消费者一堆相关的问题，问卷内容如下："星巴仕咖啡店的选址对我很方便""端上来的咖啡总是冷热适合""星巴仕员工彬彬有礼，咖啡上的很快"...

2020-04-09 11:31:23 402

原创《从零进阶！数据分析的统计基础》-1.数据分析概述

第1章数据分析概述：什么是数据分析：1.比较常见的答案：数据分析就是分析数据，从一大堆数据中提取到你想要的信息2.比较专业的答案：数据分析是由针对性的收集、加工、整理数据，并采用统计、挖掘技术分析和解释数据的科学和艺术3.比较客观的答案：基于某种行业目的，有目的地进行收集、整理、加工和分析数据，提炼信息的一个过程数据分析的六个步骤：1.明确分析目的和内容在进...

2020-04-08 16:48:26 1390

原创《深入浅出数据分析》-1.数据分析引言

目录：1 数据分析引言：分解数据数据分析的流程：确定问题阶段分解问题和数据阶段评估阶段决策阶段数据分析报告外界信息数据重新分析工作回顾1 数据分析引言：分解数据Acme公司旗舰产品-保湿露的销售情况：大方向上的问题：过去的六个月销量有什么变化？这六个月的实际总销量与目标总销量相比如何？看出Acme公司的开支规律了吗?你觉得...

2020-04-08 12:12:27 642

原创 Excel学习笔记-图表(双向条形图、甘特图、饼图、往PPT中插入图表)

一、制作双向条形图原数据：1.设置主次坐标轴红色的内销设为次坐标轴(簇状条形图)2.设置条形图方向设置刻度为(-1,1)，设置次坐标轴为逆序删除上面的坐标轴，把标签位置设为高(移到左边的1处)，删除中间的网格线图表美化，显示数据标签，把坐标轴的负刻度变为绝对值，数字中的格式代码改为0%;0%3.设置图表背景对背景图片进行虚化后填充...

2020-04-06 22:11:59 4437

原创 Excel学习笔记-图表(柱形图、折线图、动态图表)

一、认识图表中的元素设置窗口在右侧(设置图表区格式)：二、创建并美化柱形图1.制作折线与柱形符合图表原数据与初始图表：对指标完成度再设置一个坐标轴：因为造成了遮挡，右键-更改系列图标类型-使用折线图通过调整坐标轴，让两个曲线分开：美化后的最终结果：2.制作计划与实际对比图原数据与初始图表：把计划完成变为次坐标轴，并且把坐...

2020-04-06 17:03:47 1731

原创 Mysql学习笔记(查询语句练习题2)

表格详情：student表：teacher表：course表：score表：Mysql查询语句练习：23.查询“张旭“教师任课的学生成绩select * from score where cno=(select cno from course where tno=(select tno from teacher where tname="张旭"));...

2020-04-05 23:12:34 1980

原创 Mysql学习笔记(查询语句练习题1)

表格详情：student表：teacher表：course表：score表：Mysql查询语句练习：1.查询Student表中的所有记录的Sname、Ssex和Class列select sname,ssex,class from student;2.查询教师所有的单位即不重复的Depart列select distinct(depart)...

2020-04-05 13:30:42 2948

原创 Mysql学习笔记(查询数据库/表格、建表约束、三大范式、四种连接、事务)

一、简单的查询语句1.查询数据库服务器中的所有数据库：show databases2.查询数据库中的所有表格：show tables二、Mysql的建表约束1.主键约束它能够唯一确定一张表中的一条记录，该字段不重复且不能为空，创建表时如果忘记添加主键，可以使用命令：alter table (表名)add primary key (属性名)来增加主键，alter table (...

2020-04-04 22:33:12 240

原创 Excel学习笔记-函数(基础数学函数、数组、Indirect)

目录：一、数学函数1.Round、Roundup、Rounddown、Int、Mod函数2.Row和Column函数二、函数应用实例1.特殊的舍入方式--员工假期计算2.基于位置规律的引用三、认识数组1.数组生成原理2.Sumproduct函数四、Lookup函数基本应用1.认识Lookup函数2.Lookup函数模糊匹配3.Lookup函数多条...

2020-04-04 18:08:34 943

原创 Excel学习笔记-函数(日期与时间、条件格式与公式、文本处理函数)

目录：一、认识时间和日期1.回顾日期格式2.时间格式3.基本的时间与日期运算二、日期函数1.Year、Month、Day、Date函数2.Datedif函数3.Weeknum4.Weekday5.Text三、条件格式与公式1.使用简单的条件格式2.定义多重条件的条件格式3.使用公式定义条件格式四、文本处理函数1.使用文本截取字符串...

2020-04-04 14:24:36 3651

原创 Excel学习笔记-函数(Sumif、Vlookup、Hlookup、Match、Index)

一、Sumif函数1.Sumif函数语法sumif(range,criteria,[sum_range])2.Sumif函数计算数值区间科目划分的发生额计算：3.Sumif函数超过15位字符时的错误类似于countif时的15位计算：4.关于第三参数简写时的注意事项sumif有一定的容错能力，选择区域大小等于求和区域大小，当求和区域较小时会自动扩充。...

2020-04-03 23:57:06 3597

原创 Excel学习笔记-函数(IF、AND、OR、Countif、Countifs)

一、认识Excel公式1.运算符算术运算符：+、-、*、/、%、&、^（文本连接符：&）比较运算符：=、>、<、>=、<=、<>2.公式中的比较判断比较运算符的结果：TRUE、FALSE3.运算符优先级4.单元格引用相对引用：L4绝对引用：$L$4(fn+f4)二、认识函数定位工具+自动求和，可...

2020-04-03 20:12:04 12561

原创 Excel学习笔记-数据透视表

Excel的数据分析的重要技能-数据透视表目录：Excel的数据分析的重要技能-数据透视表1.创建数据透视表：2.更改数据透视表汇总方式:3.数据透视表中的组合：4.汇总多列数据：5.在数据表中使用计算：6.生成多张工作表：1.创建数据透视表：excel中一列是一个字段，一行是一条数据插入->数据透视表选择数据透视表样式-显示-经典...

2020-04-02 23:53:47 2092

原创机器学习笔记13-SVD(协同过滤的推荐引擎)

SVD-矩阵分解在很多情况下，数据中的一小段携带了数据集中的大部分信息，其他信息则要么是噪声，要么就是毫不相关的信息。在线性代数中还有很多矩阵分解技术。最常见的一种矩阵分解技术就是SVD。SVD将原始的数据集矩阵Data分解成三个矩阵U、和，如果原始矩阵Data是m行n列，那么U、和就分别是m行m列、m行n列和n行n列。矩阵只有对角元素，其他元素均为0。这些对角元素称为奇异值，他们对应...

2020-03-26 17:06:48 389

原创机器学习笔记12-PCA(主成分分析)

PCA降维算法已标注和未标注的数据上都有降维技术。这里我们主要关注未标注数据上的降维技术，该技术也可以用于已标注数据。第一种降维的方法称为主成分分析(Principal Component Analysis,PCA)。在PCA中，数据从原来的坐标系转换到了新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴的选择和第一个新坐标轴正交且...

2020-03-26 12:56:49 593

原创机器学习笔记11-FP-growth算法

FP-growth算法FP-growth算法是一个频繁项集发现算法，它只需要对数据库进行2次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此FP-growth算法速度要比Apriori算法快。FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。它通过链接来连接相似元素，被连起来的元素项可以看成一个链表。1.构建FP树FP...

2020-03-26 10:29:45 268

空空如也

空空如也