自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 预测型数据分析:用特征选择方法优化模型

数据分析师(入门)     DC学院本节课程的内容是特征选择,主要介绍的是如何从训练集合中挑选最合适的子集作为训练模型时所用的特征,使最终学习得到的模型的预测准确率最高,在了解过其基本的原理之后,就可以开始相应的实践操作特征选择的定义:特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribu...

2018-05-16 03:59:24 9085

转载 预测型数据分析:聚类算法(k均值、DBSCAN)

本节课程的内容是聚类算法,主要介绍的是k均值和DBSCAN两个聚类算法,在了解过其基本的原理之后,就可以开始相应的实践操作聚类:在样本中寻找自然集群,事先是不知道存在哪些集群的。聚类是无监督学习,本质是探索数据的结构关系,常用于对客户细分,对文章聚类等 分类:对已经有标签的样本进行分类,已知存在有哪些类别K-means原理:事先划定k个点,计算其余点到这k个点的距离,根据距离最短原则划分类别,再重...

2018-05-16 03:29:51 11089

转载 决策树

决策树(Decision Tree)每个节点上对某个特征进行判断,根据结果转向某个分支,如图是一个决策树示意图,每个节点根据某个条件分裂节点1.在Python中调用决策树算法from sklearn import tree #决策树分类dt=tree.DecisionTreeClassifier()#决策树回归dt=tree.DecisionTreeRegressor()2.iris数据...

2018-05-15 19:45:10 300

转载 预测型数据分析:其它常用回归和分类算法

数据分析师(入门)     DC学院本节视频主要内容是三个算法:kNN、DecisionTree、RandomForest,以及集成学习的思想k近邻(kNN)原理:看新样本和训练集中的样本最接近的是哪一类,往往需要引入距离的计算距离:根据特征向量X计算不同样本之间的距离,d(X’,X”),最常用的是欧式距离k近邻回归 :找到距离最近的K个样本,计算平均值 k近邻分类 :找到距离最近的K个样本,少数...

2018-05-15 19:41:27 1365

转载 预测型数据分析:分类及逻辑回归

数据分析师(入门)     DC学院回归和分类的区别分类:对离散型变量进行预测(二分类、多分类)回归:对数值型变量进行预测区别:回归的y为数值连续型变量;分类的y是类别离散型变量分类问题1. 分类问题示例:信用卡 从x1:职业,x2:收入等等信用卡申请人不同的信息维度,来判断y:是否发放信用卡,发放哪一类信用卡2. 分类经典方法:logistic回归(二分类) 虽然名字里有回归二字,但logist...

2018-05-15 18:15:56 3296

转载 预测型数据分析:Python中进行线性回归(scikit-learn实现)

数据分析师(入门)     DC学院python实现线性回归Python中实现线性回归的主流包是scikit-learnimport sklearnfrom sklearn import linear_model#训练模型lm=linear_model.LinearRegression()#用fit进行回归model=lm.fit(X,y)在进行本节操作前请先确保已经安装了scikit...

2018-05-15 17:53:11 7299

转载 miniconda的安装及使用

Python 环境的配置及相关工具的安装数据分析师(入门)     DC学院 1.安装 miniconda进入网址 Miniconda - Conda下载 Python3 的 64-bit 版本即可。注意,最好是64位的版本(除非你的电脑是32位的)。这里选择3.X或者2.X没关系,都可以,但建议和课程一致选Python3版本。 【注意!】在下载完对应的Miniconda安装包之后,可以直接在开始...

2018-05-15 15:06:00 91813 5

转载 数据清理

数据预处理2017年04月06日 11:37:33阅读数:8281数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。一、数据清洗1.缺失值处理 处理缺失值分为三类:删除记录、数据补差和不处理。 数据补插方法: 1. 补插均值/中位数/众数 2. 使用固定值 3. 最近邻补插 4. 回归方法 5. 插值法 插值法介绍: (1)拉格朗日插值法 python 的Scipy库提供 代码:#c...

2018-05-14 09:02:54 1062

转载 Python中列表/元组/集合/字典的理解

1 列表/元组/集合/字典的理解(1)列表是任意对象的序列。列表用方括号表示。(2)将一组值打包到一个对象中,称为元组。元组用圆括号表示。元组和列表的大部分操作相同。但是,列表是不固定的,可以随时插入,删除;而元组一旦确认就不能够再更改。所以,系统为了列表的灵活性,就需要牺牲掉一些内存;而元组就更为紧凑。(注意,元组在定义过程中,字符串必须用单引号‘扩起来。)(3)与列表和元组不同,集合是无序的,...

2018-04-25 16:24:39 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除