自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 评分卡模型中的分箱操作和信息转化技术

在前篇文章中,我们可以看到的是,对应评分卡模型来说,对变量进行分箱划分和计算信息值是常用的数据处理技术,它可以应用于连续型变量,如,我们可以将年收入划分成若干个区间,然后通过计算每个区间的log(Odds)值,来获得每个区间的WOE值和该变量的IV值,(Odds通过该区间好样本个数占总体好样本个数的比例 除以 该区间坏样本个数占总体坏样本个数的比例 得到),也可以用于类别型变量。...

2019-06-20 12:17:39 1163

原创 申请评分卡模型实战——思路 + 代码(待补充)

评分卡模型流程:(1)变量清洗和处理(2)变量衍生(3)建模预测评分卡模型整体逻辑:(1)首先,正式进入模型阶段是在变量清洗和变量衍生后,此时建模需要知道哪些变量是连续型变量,哪些变量是离散型变量,以便对变量进行处理(因为变量性质不同,面临不同的操作);(2)对于连续型变量可以直接进行分箱操作,基于前一篇文章的ChiMerge函数,最后分箱后的条件要满足三点,也就是每...

2019-06-20 00:12:09 1336

原创 卡方分箱算法

最近看了很多评分卡文章,很多前辈都讲解了程序,然后讲解了原理,但个人感觉程序部分讲的不够细致,很多时候看觉得难懂,所以,便产生了想要很细致地解释代码的想法,通过手写和思路讲解,加深自己的理解~再看这篇文章前,最好先了解卡方分箱算法的原理再来看代码,这样才能有帮助,并且看的时候要从头到尾的看完,不要看一半,有些函数是嵌在其他函数中计算的,明白这点很重要~这里主要包括了一些基础函数和主体...

2019-06-15 14:18:06 5130 2

原创 决策树算法总结(ID3,C4.5,CART)

最近,在复习一些机器学习算法,根据还是要通过归纳总结的方式来梳理,这样思维脉络才能很清晰~决策树的定义:决策树的构成——由节点和有向边组成;节点包括根节点、(中间)内部节点和叶节点。内部节点代表一个特征或属性,叶节点代表一个类别。决策树图示:决策树学习的三个步骤:特征选择、决策树的生成、树的剪枝(1) 特征选择的标准: 信息增益、信息增益比、...

2019-06-14 00:05:56 1456

原创 拍拍贷魔镜杯风控算法大赛——基于lightgbm

本文仿照知乎一位大神的文章,基于理解的基础上,修改了部分代码~感谢前辈的分享~参考文献:https://zhuanlan.zhihu.com/p/56864235原始数据来源:https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1数据集构成:三万条已知标签的训练集,二万条不知标签的测...

2019-06-10 16:32:41 5605 2

原创 当当商品信息爬虫(基于Scrapy框架)

1,首先,基于cmd创建爬虫项目,命令为:scrapy startproject dangdang2,创建一个以基础爬虫为模板的爬虫文件,命令为:scrapy genspider -t dd dangdang.com如下图所示,再spiders中生成了dd.py文件!3,我们爬取的信息有,商品标题,商品出售店铺,商品链接,商品评论数,商品价格如下所示:4,在...

2019-03-14 00:58:20 654 1

原创 腾讯视频短评爬取--斗罗大陆

########################### 斗罗大陆短评爬取 #################################import urllib.requestimport recursor = "6393416078681683802" # 爬虫开始爬取的第一条评论的编号orinum = "10" # 每页十条评...

2019-03-13 10:53:53 635

原创 鸢尾花数据可视化——基于matplotlib

import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport matplotlib.cm as cmfrom matplotlib图形调配.图像基础属性 import Solve_Chinese,Set_labelimport seaborn as sns# 读取数据data = ...

2018-08-16 14:32:38 7346 2

原创 缺失值处理

###############################缺失值处理##################################### 删除缺失值def Delete_null_rows(df,thresh): ''' 只保留至少有num个非NAN值的行 ''' if thresh == 0 : df.dropna(inplace=...

2018-08-14 17:50:47 449

原创 提取某字段中末尾的数字串

import reimport xlrdimport xlwtimport pandas as pdimport numpy as npfrom xlutils.copy import copy#######################################方法一############################################xlrd——对...

2018-08-13 11:17:38 891

原创 matplotlib图形基础调配

最近,抓住空闲时间学习了下matplotlib的作图规范,封装成函数方便自我调用,感觉做个图要写好长代码,也是,开始了简单封装,一方面便于自己,一方面慢慢提升我自己!人生啦!加油的啦!有梦想就要去追!有想法就要去行动!代码如下:# 解决中文乱码问题def Solve_Chinese(font): ''' 解决中文编码问题——动态设置参数 font——使用的字体设...

2018-08-08 09:01:42 278

lightgbmlib-2.2.350.jar

lightgbmlib-2.2.350.jar

2021-08-08

mmlspark_2.11-0.18.1.jar

mmlspark_2.11-0.18.1.jar

2021-08-08

lightgbmlib-3.2.110.jar

lightgbmlib-3.2.110.jar

2021-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除