changzoe-CSDN博客

原创【模型指标】ks,gini值，auc的关系

做风控也很久了，一直没有整理ks,gini,auc的关系，下边简单谈一下自己的理解，立下flag,以后每两天更新一篇，谈谈自己对指数的理解。先说一下ksks值和ks曲线：将所有样本根据分数值从低到高排序（即坏账率从高到低）均分成10组，分别计算这10组的实际好样本数、坏样本数、累积好样本数、累积坏样本数、累积好样本数占比、累积坏样本数占比，差值。其中实际好坏样本数分别为该组内的好坏样本数，累...

2019-11-06 14:45:36 1273

原创【numpy】查询手册

所有函数见：函数查询中文.函数查询以下重点写常用到的一些函数：正态分布f(x)=12π−12πσexp(−(x−μ)22σ2)f(x)=12π− \frac{1}{2\pi\sqrt σ} exp(− \frac{(x−μ)^2}{2 σ^2})f(x)=12π−2πσ1exp(−2σ2(x−μ)2)#从某一分布（由均值和标准差标识）中获得样本mu, sigma = 0, ...

2019-11-06 11:50:20 521

原创【pandas】查询手册

对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。参考（1）官网：http://pandas.pydata.org（2）https://bigquant.com/docs/#/other?id=数据透视表在以下中，我们使用...

2019-10-29 17:15:45 376

原创【风控指标】_Monthly loan review 要关注哪些指标

风控政策/策略需要观测大盘情况，来调整策略，下面简单的谈谈一个策略在月初需要关注的风控指标：- 业务总览每个月的业务量（不同资产的放款订单，放款金额，占比情况）每个流程的转化情况（产品中每个环节的活跃转化留存情况）可以拆分不同的资产类型，不同的客群种类（这里可以根据策略制定的客群，就比如说首贷，复贷用户，再比如根据客群画像类来做细分，比如说高资产用户、有车有房等）如果有需要首...

2019-10-27 22:10:09 555

原创【模型指标】LIFT提升图

信用模型中的LIFT在模型评估中，我们常用到增益/提升（Gain/Lift）图来评估模型效果，其中的Lift是“运用该模型”和“未运用该模型”所得结果的比值。以信用评分卡模型的评分结果为例，我们通常会将打分后的样本按分数从低到高排序，取10或20等分（有同分数对应多条观测的情况，所以各组观测数未必完全相等），并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比，可由该组坏样本数除以...

2019-04-28 18:11:57 12322 1

原创复杂网络特征与networkx实现------（二）

图的类型 Graph类是无向图的基类，无向图能有自己的属性或参数，不包含重边，允许有回路，节点可以是任何hash的python对象，节点和边可以保存key/value属性对。该类的构造函数为Graph(data=None，**attr)，其中data可以是边列表，或任意一个Networkx的图对象，默认为none；attr是关键字参数，例如key=value对形式的属性。 MultiGra...

2018-07-17 11:51:55 11364 3

原创 R做评分卡模型-实战

样本表现定义变量含义 EDA与数据描述读入数据x<-read.csv('/Users/cc/Downloads/评分卡模型——具体举例/data1.csv',header=T,sep=',',fileEncoding = 'GBK')n <- length(x$order_id)data <- subset (x,x$BILL_CNT_L...

2018-04-09 10:31:33 958

原创评分卡模型-理论

评分卡模型流程变量分群/分箱通常是为了让变量的预测力最强名义变量降低基数类似决策树的一种算法连续变量的分箱在评分卡建模中，变量分箱（binning）是对连续变量离散化（discretization）的一种称呼。要将logistic模型转换为标准评分卡的形式，这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最...

2018-03-28 20:07:37 8496 1

原创集成学习Adaboost算法及python实现及sklearn包的调用

集成方法（ensemble method）集成方法主要包括Bagging和Boosting两种方法。bagging 基于数据重抽样的分类器构建方法在Bagging方法中，主要通过对训练数据集进行随机采样，以重新组合成不同的数据集，新数据集和旧数据集大小相等，利用弱学习算法对不同的新数据集进行学习，得到一系列的预测结果，对这些预测结果做平均或者投票做出最终的预测。注：随机森林算法是基于Baggin

2017-12-28 14:20:25 20318

原创机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析

隐形语义分析LSA隐形语义分析（LSA）是一种自然语言处理中用到的方法，又称为隐形语义索引 LSI，其通过“矢量语义空间”来提取文档与词中的“概念”，进而分析文档与词之间的关系。LSA的基本假设是，如果两个词多次出现在同一文档中，则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵，这个矩阵的一行代表一个词，一列代表一个文档，矩阵元素代表该词在该文档中出现的次数，然后再此矩阵上使用奇异值

2017-12-22 12:07:12 1364

原创 R解析文件--找出常用地址

解析文件–找出常用地址文件数据为三列，电话，地址，访问时间要求输出每个电话的常用地址

2017-12-13 17:54:58 549

转载 Hive分区表的分区操作

本文链接：https://blog.csdn.net/afafawfaf/article/details/80249974为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。一个分区实际上就是表下的一个目录，一个表可以在多个维度上进行分区，分区之间的关系就是目录树的关系。1、创建分区表通过PARTITIONED BY子句指定，分区的顺序决定了谁是父目录，谁是子目录。创建...

2019-09-24 16:39:19 1210

原创【hive】with as语法

公用表表达式（CTE）是从WITH子句中指定的简单查询派生的临时结果集（会把查询的表数据放到内存中，供其他查询随时使用），该子句紧跟在SELECT或INSERT关键字之前。CTE仅在单个语句的执行范围内定义。可以在Hive SELECT，INSERT， CREATE TABLE AS SELECT或CREATE VIEW AS SELECT语句中使用一个或多个CTE 。在 select 中使用...

2019-09-19 11:35:53 1731 1

原创 hive窗口函数+分位数

lead(expr [, offset] [, default]) OVER([partition_by_clause] order_by_clause)This function returns the value of an expression using column values from a following row. You specify an integer offset, ...

2019-09-19 11:06:27 2096

转载 sublime 快捷键

Ctrl+D 选词（反复按快捷键，即可继续向下同时选中下一个相同的文本进行同时编辑）Ctrl+G 跳转到相应的行Ctrl+J 合并行（已选择需要合并的多行时）Ctrl+L 选择整行（按住-继续选择下行）Ctrl+M 光标移动至括号内开始或结束的位置Ctrl+T 词互换Ctrl+U 软撤销Ctrl+P 查找当前项目中的文件和快速搜索；输入 @ 查找文件主标题/函数；或者输入 : 跳转...

2019-05-21 14:23:28 136

原创【pandas】常用统计指标

1. 分位数pandas 和 numpy中都有计算分位数的方法，pandas中是quantile，numpy中是percentile两个方法其实没什么区别，用法上稍微不同，quantile的优点是与pandas中的groupby结合使用，可以分组之后取每个组的某分位数quantileimport numpy as npimport pandas as pdimport networ...

2019-04-28 18:41:25 1127

原创 python解析txt转为csv

txt格式为：以下解析为csvimport numpy as npimport pandas as pdimport networkx as nximport matplotlib.pyplot as pltimport os,sysimport reos.chdir('/Users/cc/Documents/cc工作对内生意金/05.征信版_qdy') f1=open...

2019-04-14 15:33:40 2993

原创 pandas常见报错

问题1’utf-8’ codec can’t decode byte 0xc4 in position 0: invalid continuation byte解决：加入encoding=‘gbk’data1=pd.read_csv(‘ZQ_MINI_MODEL_TOTAL.csv’,encoding=‘gbk’)

2019-04-08 11:32:14 546

转载 python 矩阵，列表转换tolist()

from numpy import *a1 =[[1,2,3],[4,5,6]] #列表print(‘a1 :’,a1)#(‘a1 :’, [[1, 2, 3], [4, 5, 6]])a2 = array(a1) #列表 -----> 数组print(‘a2 :’,a2)#(‘a2 :’, array([[1, 2, 3],[4, 5, 6]]))a3 = mat(a1)...

2019-01-22 10:57:23 10866

原创【数据准备】_变量分析和随机抽样_python &R

1.单变量分析计算gini值，或者iv或者ks见另一篇文章2.多变量分析计算皮尔逊相关系数pythonimport matplotlib.pyplot as pltimport seaborn as snsdata3_corr=data3.corr()data3_corr.to_csv('trade_5_csv.csv')sns.heatmap(data3_corr)p...

2019-01-15 19:54:52 486

原创 hive解析jsonb

get_json_object(string json_string, string path)说明：第一个参数填写json对象变量，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组；如果输入的json字符串无效，那么返回NULL。每次只能返回一个数据项。举例：data 为 test表中的字段，数据结构如下：data ={ "store": ...

2018-12-25 19:28:13 527

原创 pandas排序

score1=score.sort_values(ascending=False)####降序排列

2018-09-26 13:09:28 545

原创 matplotlib批量生成子图--用于比较分析

##################################################################0912 画图#################################################import numpy as npimport pandas as pdimport networkx as nximport matplot...

2018-09-13 14:47:23 858

原创 scikit-learn决策树

1、scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。分类决策树的类对应的是DecisionTreeClassifier，而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同，但是意义不全相同。下面就对DecisionTreeClassifier和...

2018-09-13 14:45:47 611

原创 pandas 根据列的值选取所有行

选取等于某些值的行记录用 ==df.loc[df[‘column_name’] == some_value]选取某列是否是某一类型的数值用 isindf.loc[df[‘column_name’].isin(some_values)]多种条件的选取用 &amp;df.loc[(df[‘column’] == some_value) &amp; df[‘other_...

2018-09-03 15:07:24 19692 3

原创【sas】tabulate报表

TABULATE过程的主要功能是输出统计量表，它是对整个数据集中的数据的汇总。　　TABULATE过程的一般格式为　　PROC TAULATE DATA＝数据集名称；　　CLASS 分类变量；　　VAR 分析变量；　　TABLE 页维说明行维说明列维说明/选项；　　RUN；　　其中CLASS语句给出分类变量，给变量分类之后可以分别计算它们的统计量，VAR语句指定了...

2018-08-16 16:25:56 7781

原创 pandas列联表crosstab透视图pivot_table总结

pandas.pivot_table 透视表导入数据 pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc=’mean’, fill_value=None, margins=False, dropna=True)参数：data : DataFramevalues : co...

2018-07-31 14:47:24 10905

原创 Mac下Sublime Text 3 使用

1. 修改Sublime Text2 默认配置在菜单栏选择 Sublime Text->Preferences->Setting-User(注意其中Setting-Default是默认的系统配置, 是不可修改的), 通过修改用户设置会覆盖系统对应的默认配置,下面是我的配置单, 都加油注释{ "color_scheme": "Packages/Theme - it...

2018-07-24 20:28:53 2385

原创 hive拼接和group_concat

拼接函数concat(STRING|BINARY a, STRING|BINARY b…)Returns the string or bytes resulting from concatenating the strings or bytes passed in as parameters in order. For example, concat(‘foo’, ‘bar’) res...

2018-07-24 17:41:49 51473 1

原创统计描述分析

sasproc meansproc means data=数据集;class &amp;lt;分组变量，按变量名列分组统计，不要求排序&amp;gt;;var 要分析的变量名;by 分组变量，按变量名列分组统计，必须排序;freq 分析变量的品书;weight 权重;id 输出时加上的索引;output out 数据集名关键字=新变量名;proc univariate...

2018-06-28 15:32:46 847

原创 sas 转换变量类型

将字符型变量转换为数值型变量，使用input函数data a; set a; year_new=input(year,12.); month_new=input(month,12.); rename year_new=year; rename month_new=month; drop year month;run;将数值型变量转换为字符型变量，...

2018-06-27 15:04:00 15142

原创分位数-hive,sas,r,python求法

为了方便，总结如下：hivepercentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)其中percentile要求输入的字段必须是int类型的，而percentile_approx则是数值类似型的都可以其实percentile_approx还有一个参数B...

2018-06-27 15:01:18 2301

原创词频计算

tf_idfTF-IDF（词频-逆文档频率）算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用，如从一篇文章中找到它的关键词。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在...

2018-06-04 10:53:01 7313

原创 jupyter入门

参考文档： https://www.cnblogs.com/nxld/p/6566380.html

2018-05-31 15:00:41 467

原创 SAS入门之（四）改变数据类型

将字符串改为数值用input生成新的变量data a; set a; year_new=input(year,12.); month_new=input(month,12.); rename year_new=year; rename month_new=month; drop year month;run;...

2018-05-29 10:56:10 10439

原创 sas入门之（三）条件语句，循环语句，input语句

sas变量：字符型变量。定义后家“$”以标识数值型变量。数值型常量字符型常量日期型常量有单引号引起的日期，并在后家D，T，DT 分别代表日期，时间，日期时间。如：’12:37’Tsas运算符：算术运算符：乘方**比较运算符： EQ(=),GT(&amp;amp;amp;gt;) , LT(&amp;amp;amp;lt;), NE(^=)不等于 GE(&amp;amp;amp;gt;=), LE(&amp;a

2018-05-21 17:57:53 19306 1

原创评分卡模型——变量分箱

处理缺失：由于缺失的值都是好人，根据业务含义，服以9999m44<-train$BILL6#######处理缺失train$BILL6[is.na(m44)]=9999m44<-train$BILL6

2018-05-15 17:42:34 2952

原创 hive正则：

使用Hive做数据清洗，经常需要使用正则表达式。比较讨厌的是，正则表达式匹配失败的时候，hive完全不会报错。原来的写法 SELECT * from ahhs_product_info where product_name NOT RLIKE ‘([\u4e00-\u9fa5])+’ ;在hive里面的写法 SELECT * from ahhs_product_info where...

2018-05-09 12:03:49 2640

原创 r do call

函数 call 允许通过函数名字和参数列表创建一个调用对象 x <- 10.5 > call(“round”, x) round(10.5)如上所见，是x的值而不是符号加入了调用中，因此和 round(x)有明显的差异。这种形式用的非常地少，但是当一个函数的名字可以作为一个字符变量时，这会非常有用。函数 do.call 是相关的，但会立即对...

2018-04-26 11:54:52 692 1

原创 rpart 决策树

节点和结点的区别：节点为两线相交，不为终点；而结点为两线相交为终点，没有延伸； 1.分支节点：它指向其他的节点，所以是度不为0的节点。 vs 叶子结点：度为0的结点 2.度：结点拥有的子树数；就是说这个结点下面有几条分支 3.树的深度：树有几层 4.10折交叉验证：常用的测试算法准确性的方法。将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验每次试验...

2018-04-25 10:46:49 2451

评分卡_分箱

空空如也