5 qq_16365849

尚未进行身份认证

在数据、代码中寻找诗和远方......

等级
TA的排名 7k+

WOE信用评分卡--R语言实现

---title:"信用评分模型"author:"junjun"date:"2016年10月3日"output:html_document---  #一、数据的获取与整合 数据来源:数据来自Kaggle,cs-training.csv是有15万条的样本数据,下图可以看到这份数据的大致情况。下载地址为:https://www.kaggle.com/c/G

2017-03-28 10:44:44

WOE信用评分卡--R语言实例

目录(?)[-]信用卡评分一数据准备二数据处理三变量分析四切分数据集五Logistic回归六WOE转换七评分卡的创建和实施转载自:http://blog.csdn.net/csqazwsxedc/article/details/51225156信用卡评分2016年1月10日一、数据准备1、问题的准备•            目标:要完成一个

2017-03-28 10:41:34

WOE评分卡--IV

目录(?)[-]IV的用途对IV的直观理解IV的计算1WOE2IV的计算公式3用实例介绍IV的计算和使用31实例32计算WOE和IV33IV值的比较和变量预测能力的排序关于IV和WOE的进一步思考1为什么用IV而不是直接用WOE2IV的极端情况以及处理方式转载自:http://blog.csdn.net/ke

2017-03-28 10:38:13

WOE评分卡--WOE理论

1、评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法

2017-03-28 10:33:53

提升R代码运算效率的11中方法

当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。输出原始数据框:#Createthedataframecol1col2c

2016-10-11 17:20:00

R语言|数据预处理--6切分数据集:采样

1、创建训练集、validation和测试集数据的三种方法:将iris数据集分为训练集数据和测试集数据1)>dim(iris)[1]150  5>index>iris.train>dim(iris.train)[1]100  5>iris.test>dim(iris.test)[1]50 5 2)对数据分成两部分,70%训练数据,30%

2016-10-04 15:46:08

R语言|数据预处理--5异常值分析及处理

数据集接《3缺失值离群点处理》中21、异常值分析及处理#获取月收入的异常值outboxplot(traindata$x5)#which(traindata$x5%in%out)#traindata1#boxplot(traindata1$x5) #首先对于x2变量,即客户的年龄,我们可以定量分析,发现有以下值unique(traindata$x

2016-10-04 15:40:47

R语言|数据预处理--4变量分析及相关性

因变量与自变量之间的关系包括两种:自变量为数值类型和分类类型请参考R项目客户回复预测与效益最大化 1、分别查看数据的属性为数值型和因子类型的属性which(sapply(cup98,is.numeric))>idx.num ODATEDW     DOB CLUSTER     AGE NUMCHLD  INCOME WEALTH1     HIT    

2016-10-04 15:37:58

R语言|数据预处理--3缺失值离群点处理

查询包含缺失值的总行数 缺失值包括:NA,NULL和0值等1、NA值处理:判断为NA的坐标:which(is.na(a)) [1]4   注意:任意值与NA算术操作都为NA>n.missingrowSums(is.na(cup98))   #求每行的缺失值总个数>tab.missing>tab.missingn.missing   0

2016-10-04 15:31:00

R语言|数据预处理--2因子类型:训练测试集数据

查看因子水平是否大于10数据集下载地址:http://www.sigkdd.org/kddcup/index.php?section=1998&method=data 1、把预测数据与训练数据类型不一样的属性,修改为训练数据的类型(因子类型):请参考R项目客户回复预测与效益最大化1)、读取所需要预测的数据:>cup98valWarningmessage:In

2016-10-04 13:28:20

R语言|数据预处理--1分类时:因变量为数值类型

1、因变量为数值类型,转化为分类类型>cup98$TARGET_D2c(0,0.1,10,15,20,25,30,50,max(cup98$TARGET_D)))                 breaks也可以用seq生成breaks=seq(0,100,by=5)>table(cup98$TARGET_D2)[0,0.1)[0.1,10) [1

2016-10-04 13:05:34

R语言|数据预处理

数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。 1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性 2、因变量为数值型时,对因变量进行

2016-10-04 13:02:57

GBRT/GBDT算法实例

GBRT/GBDTjunjun2016年10月4日GBM实例1:#1、构造数据集# A least squares regression example # create some data  N1000X1runif(N)X22*runif(N)X3ordered(sample(letters[1:4],N,replace=TRUE),levels=

2016-10-04 12:55:52

GBDT、GBRT

GBDT(GradientBoostDecisionTree)原文:http://blog.csdn.net/aspirinvagrant/article/details/48415435GBDT,全称GradientBoostingDecisionTree,叫法比较多,如Treelink、GBRT(GradientBoostRegressionTree

2016-10-04 12:50:22

Roc曲线评价标准

1、一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(Truepositive),如果实例是负类被预测成正类,称之为假正类(Falsepositive)。相应地,如果实例是负类被预测成负类,称之为真负类(Truenegative),正类被预测成负类则为假负类(false

2016-09-29 15:41:11

R语言|求ROC和AUC值

测试junjun2016年9月29日1、求ROC和AUC值#方法一:ROCR包中主要是两个class:prediction和performance。前者是将预测结果和真实标签组合在一起,生成一个prediction对象,然后在用performance函数,按照给定的评价方法,生成一个performance对象,最后直接对performance用plot函数就能绘制出相应

2016-09-29 15:36:54

matplot绘制bar图--python绘图

#-*-coding:utf-8-*-"""CreatedonFriAug1915:07:542016@author:aijun"""importmatplotlib.pyplotaspltdefautolabel(rects):  forrectinrects:    height=rec

2016-08-19 16:32:15

4.2KNN算法实例2--python机器学习

测试数据的格式仍然和前面使用的身高体重数据一致。不过数据增加了一些:1.5 40 thin  1.5 50 fat  1.5 60 fat  1.6 40 thin  1.6 50 thin  1.6 60 fat  1.6 70 fat  1.7 50 thin  1.7 60 thin  1.7 70 fat  1.7 80 fat  1

2016-08-18 20:16:52

4.2KNN实例1--python机器学习

例子(电影分类): 电影名称打斗次数接吻次数电影类型CaliforniaMan  3104RomanceHe’sNotReallyintoDudes  2100Rom

2016-08-17 19:16:25

7.4多元线性回归实例1--python机器学习

参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创视频教程:http://pan.baidu.com/s/1kVNe5EJ1.例子  一家快递公司送货:X1:运输里程X2:运输次数 Y:总运输时间   Driving AssignmentX1=Miles Traveled

2016-08-17 09:28:30

查看更多

勋章 我的勋章
    暂无奖章