自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 datawhale第23期集成学习基本线性回归算法的掌握task04

1

2021-03-24 23:33:31 200

原创 Datawhale第23期集成学习task03偏差vs方差

⼀个集成模型(f)在未知数据集(D)上的泛化误差E(f;D),由⽅差(var),偏差(bais)和噪声(ε)共同决定。偏差:模型的预测值与真实值之间的差异,即每⼀个红点到蓝线的距离。在集成算法中,每个基评估器都会有⾃⼰的偏差,集成评估器的偏差是所有基评估器偏差的均值。模型越精确,偏差越低。⽅差:反映的是模型每⼀次输出结果与模型预测值的平均⽔平之间的误差,即每⼀个红点到红⾊虚 线的距离,衡量模型的稳定性。模型越稳定,⽅差越低。其中偏差衡量模型是否预测得准确,偏差越⼩,模型越“准”;⽽⽅差衡量模型每次.

2021-03-22 22:55:47 171

原创 task02 datawhale第二十三期集成学习基本回归模型原理

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

2021-03-18 21:02:53 196

原创 DataWhale第23期集成学习第二章基础3大类机器学习

DataWhale第23期集成学习第二章基础3大类机器学习1 导论2 因变量的是否连续,有监督学习又分为回归和分类2.1 回归2.2 分类鸢尾花数据集为例3 无监督学习4 sklearn的建模流程4.1 明确项目任务4.2 选择度量模型性能的指标4.2.1 回归模型性能的度量指标4.2.2 分类模型性能的度量指标4.3 选择具体的模型并进行训练4.3.1 导包导入KNN包和划分训练和测试集的包4.3.2 划分训练集和测试集4.3.3 建模4.3.4 采用训练集进行训练4.4 评估模型

2021-03-15 23:19:01 208

原创 机器学习4 logistic回归模型

logistic 回归1. 什么是logistic回归2.损失函数的定义:3.采用梯度下降法求解损失函数4.logistic回归在sklearn中的实现:学习时间:学习产出:一级目录二级目录三级目录1. 什么是logistic回归逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用逻辑回归。Logistic回归本质上是线性回归,只是

2020-11-01 23:00:48 1275

原创 MySQL学习笔记1

MySQL学习笔记数据库概述1、数据定义语言DDL和数据操作语言DML2、数据查询语言DQL数据库概述数据库:按照一定的数据结构来组织存储和管理数据的仓库数据库分类1• 关系型数据库:以表的形式存储的结构化数据集2• 非关系型数据库:以键值对形式存储的非结构化数据集主流的关系型数据库 Oracle、 DB2、 MySQL、SQL serveSQL语言分类1.数据定义语言DDL2. 数据操作语言DML3.数据查询语言DQL4.数据控制语言DCLSQL书写规则1• SQL语句可以单行或

2020-10-25 23:18:33 78

原创 决策树在商业保险中的应用

决策树在商业保险中的应用决策树在商业保险中的应用⼀、业务背景二、数据探索性分析2.1、导入数据和安装包2.2了解数据特征的分布情况2.3了解数据特征与标签之间的相关性强弱三、数据清洗3.1 删除不需要的列3.2 拆分训练集和测试集3.3 空值填充3.3.1 对训练集数据进行填补3.3.1 对测试集数据进行填补3.4 数据编码四、建立决策树模型4.1没有进行任何参数设置的决策树模型4.2调参4.1学习曲线对单个参数进行调参4.2网格搜索对多个参数进行调参决策树在商业保险中的应用⼀、业务背景业务环境

2020-10-24 23:55:23 1909 3

原创 机器学习3决策树算法模型

数据挖掘概念与技术p223

2020-10-23 20:19:43 2309

原创 机器学习2k-means聚类

K-means聚类1、k-means:工作原理2、k-means代码实现:3、k-means sklearn代码的实现:学习时间:学习产出:1、k-means:工作原理k-means一种基于形心的技术,k-means算法把簇的形心(质心)定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象,每个对象代表一个簇的初始均值或中心。对剩下的每隔对象,根据其余各个簇中心的欧式距离,将它分配到最相似的簇。然后,k-means 算法迭代地改善簇内变差。对于每隔簇,它使用上次迭代分配到该簇的对象。计算新

2020-10-22 23:24:12 506

原创 机器学习之入门级-KNN算法

K近邻算法的实现KNN算法1.概述2.算法步骤:3.sklearn中接下来我们讲解一下sklearn包中的KNN算法的实现:4.总结KNN算法1.概述KNN算法又称为k近邻分类(k-nearest neighbor classification)算法。k-最近邻方法是20世纪50年代引进的。当给定大量数据集时,改方法是计算密集的,直到20世纪60年代计算能力大大增强之后才流行起来。此后它广泛应用于模型识别领域。最近邻分类法是基于类比学习,即通过将给定的检验元组与和它相似的训练元组进行比较来学习。训

2020-10-19 21:13:41 430 2

原创 一个能与随机森林相媲美的算法 AdaBoost

一个能与随机森林相媲美的算法:自适应提升法(Adaptive Boosting, AdaBoost)1. 概述提升法(Boosting)是一个更新的过程,它的做法是给每一个训练样本赋予一个权重,在每一轮结束时自动调整权重。提升(Boosting)方法图解如下所示:AdaBoost算法已被证明是一种有效而实用的Boosting(提升)算法,其思想是提高对那些被错误分类样本关注程度,降低对那些被正确分类的样本关注程度,采用加权多数表决的方法。具体的,就是增大分类偏差率小的弱分类器的权值,使其在表决中起

2020-10-16 19:34:29 1361

原创 lambda函数的介绍

lambda函数的介绍匿名函数用lambda关键词能创建小型匿名函数。这种函数得名于省略了用def声明函数的标准步骤lambda函数的语法只包含一个语句,如下:lambda [参数列表]:表达式lambda [arg1 [,arg2,…argn]]:expressionsum_value = lambda x1,x2,x3:x1+x2-x3sum_value(x1 = 3,x2=4,x3=7)lambda 函数 是一个用于简单化函数。例如我们要寻找一群数,当我们输入一个n位数的时候它能

2020-10-09 20:06:09 1107

原创 爬取boss直聘上面的数据遇见的问题解析

概述boss直聘(https://www.zhipin.com/)是现在互联网招聘比较火热的一个网站,本篇文章主要是针对爬取boss直聘数据遇见的一些问题进行解析。为什么要爬取boss直聘?哈哈哈,当然是因为简单,啪,原因如下:(1)动态网页,爬起来难度更大,讲起来更有内容;(2)与一般情况不同,我们所需内容通过get请求获取不了,需进行页面分析。1、网页解析(寻找目标请求网址)boss直聘比起其他的动态网址爬取,我自我感觉是最简单的,哈哈,因为,目标请求网址很容易就能找到,它的位置就在第一

2020-10-07 18:16:55 3240 2

原创 YouTube热门视频的分析

YouTube热门视频的分析1.1概述1.2数据的预处理生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1.1概述Youtube视频网站是美国最大的视频分享平台,youtube官网在中国也有很多用户。数据来源于kaggle网站,本文主要选取CA国家,探究YouTube在CA国家Top10热门视频数据。1.2数据的预处理1

2020-08-05 22:12:39 2815

原创 类不平衡数据分类准确率的提升算法smote过采样方法

类不平衡数据分类准确率的提升算法smote过采样方法1.1概述1.2 类不平衡数据smote分类算法1.3普通决策树分类器与smote模型准确率的比较1.导入所需模块2.划分训练集和测试集3.建立决策树模型4.查看原始样本标签比例5.通过smote算法合成新的少数类样本6.结论1.4 小结1.1概述 传统的分类算法是基于精度驱动的,即算法的目标是最小化分类误差,它假定:假正例(FP)和假负例(FN)错误的代价是相等的。这个假定是基于类平衡分布和相等的错误代价,即数据集中各个类的样本数都很接近。但是实

2020-08-01 21:27:24 2598 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除