自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (5)
  • 收藏
  • 关注

转载 机器学习--特征选择(Python代码实现)

转自 每日一Python 微信公众号特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集;常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter:通过方差选择法、相关系数法、卡方检验法、互信息法来对特征进行评分,设定...

2018-08-31 10:28:25 24189 1

转载 利用百度地图API获相关位置信息--Python代码

转自每日一Python 微信公众号最近工作接触到GPS,想计算两个GPS之间的距离,查了一下发现百度地图有提供给开发者各种接口,地址是这个http://lbsyun.baidu.com/,利用自己的百度账号登录,创建应用ak,在调用各个接口时要加上你自己的应用ak;可以看一下开发文档中提供的接口和工具,如图:我先试了一下“地图生成器”,利用GPS坐标,来生成以它为中心的地图。点击地图生...

2018-08-31 10:26:36 1548

转载 关联分析之发现频繁项集--使用Apriori算法(1)

转自微信公众号--每日一Python 从大规模数据集中寻找物品间的隐含关系被称为关联分析,最有名的案例应该是啤酒和尿布了。这些关系可以用两种方式来量化,一个是使用频繁项集,给出经常在一起出现的元素项;一个是关联规则,每条关联规则意味着元素项之间的“如果……那么”(A-->B)的关系;要先找到频繁项集然后才能获得关联规则。本文主要是先讲找到频繁项集(本文中的代码使用的是Pyth...

2018-07-27 14:34:45 5291

转载 python空值的一些问题

#转自微信公众号 每日一Python在数据处理的过程中,经常会遇到数据为空的情况,然后踩到很多坑浪费很久的时间,今天总结一下Python中空值的情况,以防后续再掉进坑里。Python中空值一般有四种情况,None," ",False和NaN:前三种类型中 打印 None == None ," " == " " ,False == False都能返回判断True,但是np.NaN == np.NaN...

2018-07-06 10:20:12 10806 1

转载 机器学习-数据预处理(Python实现)

#转自每日一Python微信公众号机器学习在训练模型前,需要将特征进行预处理使其规范化,易于,本文主要讲几种常见的数据预处理方式;标准化(z-Score)公式为(X-mean)/std,将特征转化为均值为0,方差为1的数据;可以用`sklearn.prepocessing.scale()``函数和sklearn.proprocessing.StandardScaler()类实现,使用Standar...

2018-07-04 11:00:59 1808 1

转载 随机森林筛选变量(Python实现)

#文章转自每日一Python公众号当数据集的特征过多时,容易产生过拟合,可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集,利用这个数据集,确定一个阈值,选出来对模型训练帮助最大的一些特征,...

2018-07-04 10:53:10 28128 8

转载 分类模型评估方法

上图矩阵中1是正例,0是只负例对于二分类问题,可以将真实类别和分类器预测类别组合为:真正例(true positive TP):真实类别为正例,预测类别为正例;假正例(false positive FP): 真实类别为负例,预测类别为正例;假负例(false negative FN):真实类别为正例,预测类别为负例;真负例(true negative TN):真实类别为负例,预测类别为负例;分类模...

2018-07-04 10:04:05 7161

机器学习实用案例

机器学习实用案例,使用的是R语言,有垃圾分类、预测网页访问量、股票市场指数、推荐系统、社交图谱等案例

2018-09-25

评分卡模型搭建流程

讲述了评分卡模型整个搭建流程,包括IV和woe转换的概念

2018-08-31

数据挖掘导论

该书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。

2018-08-13

sklearn中文资料

Python中sklearn模块的中文资料,讲述机器学习基础,线性回归、聚类、决策树等

2018-07-04

uci短信分类文集

UCI 短信分类文集,可运用于分类任务,第一列是短信分类类别ham 和spam,第二列是短信内容

2018-01-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除