2 LuLuYao9494

尚未进行身份认证

暂无相关简介

等级
TA的排名 29w+

评分卡模型中的分箱操作和信息转化技术

在前篇文章中,我们可以看到的是,对应评分卡模型来说,对变量进行分箱划分和计算信息值是常用的数据处理技术,它可以应用于连续型变量,如,我们可以将年收入划分成若干个区间,然后通过计算每个区间的log(Odds)值,来获得每个区间的WOE值和该变量的IV值,(Odds通过该区间好样本个数占总体好样本个数的比例 除以 该区间坏样本个数占总体坏样本个数的比例 得到),也可以用于类别型变量。...

2019-06-20 12:17:39

申请评分卡模型实战——思路 + 代码(待补充)

评分卡模型流程:(1)变量清洗和处理(2)变量衍生(3)建模预测评分卡模型整体逻辑:(1)首先,正式进入模型阶段是在变量清洗和变量衍生后,此时建模需要知道哪些变量是连续型变量,哪些变量是离散型变量,以便对变量进行处理(因为变量性质不同,面临不同的操作);(2)对于连续型变量可以直接进行分箱操作,基于前一篇文章的ChiMerge函数,最后分箱后的条件要满足三点,也就是每...

2019-06-20 00:12:09

卡方分箱算法

最近看了很多评分卡文章,很多前辈都讲解了程序,然后讲解了原理,但个人感觉程序部分讲的不够细致,很多时候看觉得难懂,所以,便产生了想要很细致地解释代码的想法,通过手写和思路讲解,加深自己的理解~再看这篇文章前,最好先了解卡方分箱算法的原理再来看代码,这样才能有帮助,并且看的时候要从头到尾的看完,不要看一半,有些函数是嵌在其他函数中计算的,明白这点很重要~这里主要包括了一些基础函数和主体...

2019-06-15 14:18:06

决策树算法总结(ID3,C4.5,CART)

最近,在复习一些机器学习算法,根据还是要通过归纳总结的方式来梳理,这样思维脉络才能很清晰~决策树的定义:决策树的构成——由节点和有向边组成;节点包括根节点、(中间)内部节点和叶节点。内部节点代表一个特征或属性,叶节点代表一个类别。决策树图示:决策树学习的三个步骤:特征选择、决策树的生成、树的剪枝(1) 特征选择的标准: 信息增益、信息增益比、...

2019-06-14 00:05:56

拍拍贷魔镜杯风控算法大赛——基于lightgbm

本文仿照知乎一位大神的文章,基于理解的基础上,修改了部分代码~感谢前辈的分享~参考文献:https://zhuanlan.zhihu.com/p/56864235原始数据来源:https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1数据集构成:三万条已知标签的训练集,二万条不知标签的测...

2019-06-10 16:32:41

当当商品信息爬虫(基于Scrapy框架)

1,首先,基于cmd创建爬虫项目,命令为:scrapy startproject dangdang2,创建一个以基础爬虫为模板的爬虫文件,命令为:scrapy genspider -t dd dangdang.com如下图所示,再spiders中生成了dd.py文件!3,我们爬取的信息有,商品标题,商品出售店铺,商品链接,商品评论数,商品价格如下所示:4,在...

2019-03-14 00:58:20

腾讯视频短评爬取--斗罗大陆

########################### 斗罗大陆短评爬取 #################################import urllib.requestimport recursor = "6393416078681683802" # 爬虫开始爬取的第一条评论的编号orinum = "10" # 每页十条评...

2019-03-13 10:53:53

鸢尾花数据可视化——基于matplotlib

import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport matplotlib.cm as cmfrom matplotlib图形调配.图像基础属性 import Solve_Chinese,Set_labelimport seaborn as sns# 读取数据data = ...

2018-08-16 14:32:38

缺失值处理

###############################缺失值处理##################################### 删除缺失值def Delete_null_rows(df,thresh): ''' 只保留至少有num个非NAN值的行 ''' if thresh == 0 : df.dropna(inplace=...

2018-08-14 17:50:47

提取某字段中末尾的数字串

import reimport xlrdimport xlwtimport pandas as pdimport numpy as npfrom xlutils.copy import copy#######################################方法一############################################xlrd——对...

2018-08-13 11:17:38

matplotlib图形基础调配

最近,抓住空闲时间学习了下matplotlib的作图规范,封装成函数方便自我调用,感觉做个图要写好长代码,也是,开始了简单封装,一方面便于自己,一方面慢慢提升我自己!人生啦!加油的啦!有梦想就要去追!有想法就要去行动!代码如下:# 解决中文乱码问题def Solve_Chinese(font): ''' 解决中文编码问题——动态设置参数 font——使用的字体设...

2018-08-08 09:01:42
勋章 我的勋章
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。