**码上人生**-CSDN博客

原创 WOE信用评分卡--R语言实现

---title: "信用评分模型"author:"junjun"date: "2016年10月3日"output:html_document--- # 一、数据的获取与整合数据来源：数据来自Kaggle，cs-training.csv是有15万条的样本数据，下图可以看到这份数据的大致情况。下载地址为：https://www.kaggle.com/c/G

2017-03-28 10:44:44 11953

转载 WOE信用评分卡--R语言实例

目录(?)[-]信用卡评分一数据准备二数据处理三变量分析四切分数据集五Logistic回归六WOE转换七评分卡的创建和实施转载自：http://blog.csdn.net/csqazwsxedc/article/details/51225156信用卡评分2016年1月10日一、数据准备1、问题的准备• 目标：要完成一个

2017-03-28 10:41:34 23107 1

转载 WOE评分卡--IV

目录(?)[-]IV的用途对IV的直观理解IV的计算1WOE2 IV的计算公式3 用实例介绍IV的计算和使用31 实例32 计算WOE和IV33 IV值的比较和变量预测能力的排序关于IV和WOE的进一步思考1 为什么用IV而不是直接用WOE2 IV的极端情况以及处理方式转载自：http://blog.csdn.net/ke

2017-03-28 10:38:13 7030

转载 WOE评分卡--WOE理论

1、评分卡概述最常见的用于信用评分的模型就是logistic回归，这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实，但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要，通常会在建立评分模型时将自变量做离散化处理（等宽切割，等高切割，或者利用决策树来切割），但是模型本身没办法很好地直接接受分类自变量的输入，因此需要对自变量进行再次的处理。比较常规的做法

2017-03-28 10:33:53 26320 4

转载提升R代码运算效率的11中方法

当我们利用R语言处理大型数据集时，for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率，但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法，包括简单的逻辑调整设计、并行处理和Rcpp的运用，利用这些方法你可以轻松地处理1亿行以上的数据集。输出原始数据框：#Create the data framecol1col2c

2016-10-11 17:20:00 1288

原创 R语言|数据预处理--6切分数据集：采样

1、创建训练集、validation和测试集数据的三种方法：将iris数据集分为训练集数据和测试集数据1）> dim(iris)[1]150 5>index >iris.train >dim(iris.train)[1]100 5>iris.test >dim(iris.test)[1]50 5 2）对数据分成两部分，70%训练数据，30%

2016-10-04 15:46:08 35403 2

原创 R语言|数据预处理--5异常值分析及处理

数据集接《3缺失值离群点处理》中21、异常值分析及处理#获取月收入的异常值out boxplot(traindata$x5)# which(traindata$x5%in% out)# traindata1 #boxplot(traindata1$x5) #首先对于x2变量，即客户的年龄，我们可以定量分析，发现有以下值unique(traindata$x

2016-10-04 15:40:47 14302

原创 R语言|数据预处理--4变量分析及相关性

因变量与自变量之间的关系包括两种：自变量为数值类型和分类类型请参考R项目客户回复预测与效益最大化 1、分别查看数据的属性为数值型和因子类型的属性which(sapply(cup98, is.numeric))> idx.num ODATEDW DOB CLUSTER AGE NUMCHLD INCOME WEALTH1 HIT

2016-10-04 15:37:58 22134

原创 R语言|数据预处理--3缺失值离群点处理

查询包含缺失值的总行数缺失值包括：NA，NULL和0值等1、NA值处理：判断为NA的坐标：which(is.na(a)) [1] 4 注意：任意值与NA算术操作都为NA> n.missing rowSums(is.na(cup98)) #求每行的缺失值总个数> tab.missing> tab.missingn.missing 0

2016-10-04 15:31:00 4644

原创 R语言|数据预处理--2因子类型：训练测试集数据

查看因子水平是否大于10数据集下载地址： http://www.sigkdd.org/kddcup/index.php?section=1998&method=data 1、把预测数据与训练数据类型不一样的属性，修改为训练数据的类型（因子类型）：请参考R项目客户回复预测与效益最大化1）、读取所需要预测的数据：> cup98val Warning message:In

2016-10-04 13:28:20 3724

原创 R语言|数据预处理--1分类时：因变量为数值类型

1、因变量为数值类型，转化为分类类型> cup98$TARGET_D2 c(0, 0.1, 10, 15, 20, 25, 30, 50,max(cup98$TARGET_D))) breaks也可以用seq生成breaks=seq(0, 100, by=5)>table(cup98$TARGET_D2)[0,0.1)[0.1,10) [1

2016-10-04 13:05:34 8626

原创 R语言|数据预处理

数据探索性分析需要遵循3个步骤：第一步，要查看单个变量的分布情况，这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点，以便确定变量是否需要进行转换或者是否应该用于建模。第二步，要查看因变量与自变量之间的关系，这可以用于特征选择。第三步，查看自变量之间的关系，以便删除冗余变量。 1、自变量为数值类型和分类类型，并分别求自变量与因变量的相关性 2、因变量为数值型时，对因变量进行

2016-10-04 13:02:57 2902

原创 GBRT/GBDT算法实例

GBRT/GBDTjunjun2016年10月4日GBM实例1：#1、构造数据集# A least squares regression example # create some data N1000X1runif(N)X22*runif(N)X3ordered(sample(letters[1:4],N,replace=TRUE),levels=

2016-10-04 12:55:52 7707

转载 GBDT、GBRT

GBDT（Gradient Boost Decision Tree）原文：http://blog.csdn.net/aspirinvagrant/article/details/48415435GBDT，全称Gradient Boosting Decision Tree，叫法比较多，如Treelink、 GBRT(Gradient Boost Regression Tree

2016-10-04 12:50:22 12717 1

原创 Roc曲线评价标准

1、一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（Truepositive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True negative）,正类被预测成负类则为假负类（false

2016-09-29 15:41:11 3115

原创 R语言|求ROC和AUC值

测试junjun2016年9月29日1、求ROC和AUC值#方法一:ROCR包中主要是两个class：prediction和performance。前者是将预测结果和真实标签组合在一起，生成一个prediction对象，然后在用performance函数，按照给定的评价方法，生成一个performance对象，最后直接对performance用plot函数就能绘制出相应

2016-09-29 15:36:54 47107 1

原创 matplot绘制bar图--python绘图

# -*- coding: utf-8 -*-"""Created on Fri Aug 19 15:07:54 2016@author: aijun"""import matplotlib.pyplot as pltdef autolabel(rects): for rect in rects: height = rec

2016-08-19 16:32:15 17690 1

原创 4.2KNN算法实例2--python机器学习

测试数据的格式仍然和前面使用的身高体重数据一致。不过数据增加了一些：1.5 40 thin 1.5 50 fat 1.5 60 fat 1.6 40 thin 1.6 50 thin 1.6 60 fat 1.6 70 fat 1.7 50 thin 1.7 60 thin 1.7 70 fat 1.7 80 fat 1

2016-08-18 20:16:52 1223

原创 4.2KNN实例1--python机器学习

例子（电影分类）：电影名称打斗次数接吻次数电影类型California Man 3104RomanceHe’s Not Really into Dudes 2100Rom

2016-08-17 19:16:25 963

原创 7.4多元线性回归实例1--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 例子一家快递公司送货：X1：运输里程 X2：运输次数 Y：总运输时间 Driving AssignmentX1=Miles Traveled

2016-08-17 09:28:30 6774 1

原创 7.3多元线性回归--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 与简单线性回归区别(simple linear regression) 多个自变量(x)2. 多元回归模型 y=β0＋β１x1+β2x2+ ... +βpxp+ε 其中：β0，β１，β

2016-08-17 09:26:14 3407

原创 7.2简单线性回归算法实现--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 简单线性回归模型举例：汽车卖家做电视广告数量与卖出的汽车数量：1.1 如何练处适合简单线性回归模型的最佳回归线？使sum of squares最小1.1.2 计

2016-08-17 09:23:12 1112

原创 7.1简单线性回归--python机器学习

0. 前提介绍：为什么需要统计量？统计量：描述数据特征0.1 集中趋势衡量0.1.1均值（平均数，平均值）（mean）{6, 2, 9, 1, 2}(6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 40.1.2中位数（medi

2016-08-17 09:18:56 2763

原创 6.3神经网络实例1--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 简单非线性关系数据集测试(XOR):X: Y0 0 00 1 11 0 11 1

2016-08-17 09:15:18 1844

原创 6.2神经网络算法实现--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 关于非线性转化方程(non-linear transformation function)sigmoid函数(S 曲线)用来作为activation function: 1.1 双曲函数(tanh)

2016-08-17 09:13:31 2166 1

原创 6.1神经网络--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 背景: 1.1 以人脑中的神经网络为启发，历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward

2016-08-17 09:10:31 1728

原创 5.3SVM实例1--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ利用SVM进行人脸识别实例：from __future__ import print_functionfrom time import timeimport loggingimport matplotlib.pyp

2016-08-17 09:05:03 928 1

原创 5.2SVM2--python机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. SVM算法特性： 1.1 训练好的模型的算法复杂度是由支持向量的个数决定的，而不是由数据的维度决定的。所以SVM不太容易产生overfitting 1.2 SVM训练出来的模型完全依赖于支持向量(Support Vect

2016-08-17 08:58:52 615

原创 4.1K近邻--python机器学习

1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)2. 例子：未知电影属于

2016-08-17 08:47:08 560

原创 3.2决策树理论2--python深度机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. Python2. Python机器学习的库：scikit-learn 2.1：特性：简单高效的数据挖掘和机器学习分析对所有用户开放，根据不同需求高度可重用性基于Numpy, SciPy和matp

2016-08-17 08:42:25 1505

转载机器学习进阶路上不可错过的 28 个视频

想自学机器学习和深度学习?不妨边看专家讲解视频边自学。不仅能感受世界各地专家的熏陶，也能快速获取知识，一举两得。这篇文章整理了一个 YouTube 视频列表，供希望在该领域学习的朋友使用。　　视频观看建议　　我将视频分为三类：机器学习、神经网络、深度学习。为方便起见，你可以使用我创建的列表按顺序学习。特别推荐初学者根据顺序学习，以更好地理解视频。　　这套参考视频集需要时间消

2016-08-12 17:34:53 1995

原创 3.1决策树理论--python深度机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ 0. 机器学习中分类和预测算法的评估：准确率速度强壮行可规模性可解释性 1. 什么是决策树/判定树（decision tree)? 判定树是一个类似于流程图的树结构：其中，每个内部

2016-08-12 08:26:10 1239

原创 2基本概念--python深度机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ基本概念：训练集，测试集，特征值，监督学习，非监督学习，半监督学习，分类，回归概念学习：人类学习概念：鸟，车，计算机定义：概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数例子：学习 “享受运动" 这一概念

2016-08-12 08:25:10 579

原创 1.2机器学习基础下--python深度机器学习

1. 机器学习更多应用举例：人脸识别 2. 机器学习就业需求： LinkedIn所有职业技能需求量第一：机器学习，数据挖掘和统计分析人才 http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-2014/ 3. 深度学习(Deep Learnin

2016-08-12 08:24:12 1186

原创 1.1机器学习基础-python深度机器学习

参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ 1. 课程介绍2. 机器学习（Machine Learning, ML) 2.1 概念：多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟

2016-08-12 08:23:16 2057

原创 Rstudio安装——打开一片空白问题

1、R语言安装指定为64位；2、R语言和Rstudio的安装路径不要有汉字；3、R语言和Rstudio的安装父目录要为同一个。注意：如果不按照上面的操作，可能会出现Rstudio打不开的问题。

2016-06-29 15:18:32 54669 13

原创 highcharter R语言

Highcharterjunjun2016年5月25日参考：http://jkunst.com/highcharter/highcharts-api.html1、示例#1、Hello World Example#install.packages("purrr")#install.packages("highcharter")librar

2016-05-25 16:54:52 3208

原创 RCurl爬虫抓取验证码例子

RCurl抓取验证码流程junjun2016年4月20日抓取验证码#1）抓取验证的流程#①打开网页到验证码的位置#②鼠标左键拖动验证#③得到验证的url：http://tjcredit.gov.cn/verifycode?date=1461146339377#④最后，把此url加入到R程序中#⑤循环抓取验证码即可#2）抓取一个验证码lib

2016-04-20 18:12:21 2773

原创 RCurl抓取

RCurl抓取junjun2016年4月20日参考：http://www.w2bc.com/Article/284891、RCurl抓取验证码RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。什么是curl&lib

2016-04-20 16:10:49 2323

原创 RCurl汽车之家抓取

汽车之家抓取junjun2016年4月20日参考：http://blog.sina.com.cn/s/blog_6f2336820102v13n.html汽车之家抓取library(RCurl)## Loading required package: bitops#install.packages("XML")library(XML)librar

2016-04-20 15:48:30 1686

KDD Cup 1998年竞赛的目标是估计一个直邮的回复量，以便获得最多的捐款。数据集的格式是以逗号作为分隔符，其中学习数据集”cup98lrn.txt”包含了95412条记录，481个字段，验证数据集“cup98val.txt”包含了96367条记录，479个字段。每条记录都包含一个CONTROLN字段，该字段是记录的唯一标识符；有两个目标变量TARGET_B和TARGET_D，TARGET_B是一个二进制变量，表示当一条记录中的TARGET_D变量中有捐款时，该条记录是否对邮件做了回复。学习数据集和验证数据集的数据格式相同，但是在验证数据集中没有包含TARGET_B和TARGET_D这两个变量。

2016-10-04

TA关注的人

KDD Cup 1998年竞赛

2016数据挖掘面试总结

R语言与数据挖掘最佳实践和经典案例_（澳）

Hadoop 1.0 API

java就业培训教程

数据分析/挖掘工程师发展方向（职业规划）**互动问答**

Hbase web界面不能访问

hive查询时卡死，很久以后报出异常

数据分析/挖掘工程师发展方向（职业规划）互动问答