自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

没人关注

诗情画意藏心底,抑郁忧伤留昨天,心平气和研究数据分析。

  • 博客(65)
  • 收藏
  • 关注

原创 sql-窗口函数编号 row_number() over()

【代码】sql-窗口函数编号 row_number() over()

2023-06-14 14:41:54 177

原创 SQL-将数组打散regexp_replace/split/explode

split()函数是用于切分数据,也就是将一串字符串切割成了一个数组。– explode()函数是用于打散行的函数,将一行的数据拆分成一列。– regexp_replace()替换函数。

2023-06-14 11:55:12 334

原创 python_概率密度图

【代码】python_概率密度图。

2023-06-12 14:22:20 476

原创 python_本地使用sql查询语法

python_本地使用sql查询语法

2023-02-02 16:33:27 330

原创 python-重复数据统计

python重复数据统计

2022-08-04 15:34:01 877

原创 SAS与mysql数据库连接

01 配置ODBC02 运行SAS代码LIBNAME userdata odbc dsn='mysql' read_isolation_level = RU schema=dbo CONNECTION=sharedDBMAX_TEXT=32767 /* prevent text column truncation */;注:mysql为设置的ODBC名称

2022-01-04 17:04:53 740

原创 风控指标-%NCL是vintage_loss的多少倍

12期–1.85倍24期–2.09倍6期–1.71倍12期产品–假设每月放款A亿,最终全生命周期损失vintage_loss 为B%。则:后续ENR将持续在[A*(12+1)/2]=6.5A左右,月底新增NCL为12AB%,那么NCL%=(12AB%)/6.5A=1.85*B%24期产品–假设每月放款A亿,最终全生命周期损失vintage_loss 为B%。则:后续ENR将持续在[A*(24+1)/2]=11.5A左右,月底新增NCL为24AB%,那么NCL%=(24AB%)/11.5A=2.09*

2021-11-01 17:30:37 688

原创 建模流程

字段表构造并生成变量提取Y变量,并与X变量打通数据预处理a. EDA 探索性数据分析1) 数值型变量:n, nmiss, max, min ,mean, trim, median, std, quantile(1%- 99%)2) 分类变量:每个分类的计数n,nmiss,每个类别上Y的mean,stdb. 数据处理 数值型变量:缺失值标记,缺失值填充,特殊值替换,特殊值标记,1%和99%分位数修剪cap和floor(有界变量不需要) 分类变量:one-

2021-08-17 18:54:12 116

原创 python_%

格式化符号当你看到输出语句存在%d,%s,%f等百分号的时候,就接触到python 字符串格式化输出相关知识。Python 支持字符串格式化输出,尽管这样可能遇到非常复杂的表达式,但最基本的是用法就是将一个值插入到一个有字符串格式符%s的字符串中。如,例1:name = '阿昌'print("大家好,我叫%s"%name)输出大家好,我叫阿昌...

2021-07-01 18:24:24 292

原创 相关系数

1、公式2、具体3、 评价

2021-06-10 17:50:53 189

原创 召回率(recall)

召回率:覆盖面的度量,度量有多少个实际正例被分为正例公式:TP/(TP+FN)

2021-06-10 16:43:10 486

原创 精确率、精度(precision)

精确率:被分为正例的实例中实际为正例的比例公式:实际正例/被分为正例 TP/(TP+FP)

2021-06-10 16:37:52 326

原创 SAS-04-入门操作

1 、把数据集从一个逻辑库移到另一个逻辑库data mysql.datanew;/*在mysql逻辑库创建一个数据集*/set applications contract_infos;/*从一个或几个已存在的数据集中读观测 纵向合并*/run;2、删除逻辑库中的某一数据集proc delete data=mysql.applications3、sql操作proc sqlcreate table mysql.data asselect a.transport_id,a.max_plat

2021-03-17 17:34:41 446

原创 SAS-03-导出数据

proc export data=mysql.data outfile="Z:data.xlsx";run;

2021-03-17 17:18:54 127

原创 SAS-02-导入数据

一、 导sql数据库中的数1、配置odbc(1) 打开ODBC(2) 添加(3)SAS代码PROC SQL:CONNECCT TO ODBC(DSN=RISK)/*RISK 为(2)中添加ODBC时的名称*/creat table mysql.applications asselect * from connection to odbc(select * from std_risk.applications);/* mysql为目标逻辑库*/二、 导本地excel文件proc

2021-03-17 11:27:56 169

原创 SAS-01-注释快捷键

SAS在注释快捷键添加快捷键ctrl+/取消快捷键shift+ctrl+/

2021-03-17 11:11:31 2037

原创 Python_自定义函数

# ============================================================================= # 函数功能:导出不同放款月份(季度)缺失率函数# 函数名称:Miss_rate(data,yvar)# data:需要计算的数据(申请、通过或者通过层面)# yvar:需遍历指标向量,一般用放款月份或季度 # 函数使用案列:Miss_rate(data,dat

2021-01-07 14:25:01 131

原创 Python_MD5加密

定义: MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。不可逆:对于MD5,明文与密文一一对应。明文可根据算法加工成密文,但是密文无法返回明文。用途:一些敏感数据(验证三要素:姓名、身份证号、密码;用户名、密码)的传输。撞库等。pyhon代码实现import pandas as pdimport numpy as npimport ha

2020-11-18 17:05:06 339

原创 Python_with(把数据保存在本地同一excel不同sheet页中)

with实现闭环管理,否则可能会遗忘后半截案例:#保存数据于已存在的excel中的不同sheet页中writer=pd.ExcelWriter('json_all.xlsx')data_json_all.to_excel(writer,'Shee2')data_json_all.to_excel(writer,'Shee3')writer.save()#容易被遗忘#使用with后with pd.ExcelWriter('json_all.xlsx') as writer: data

2020-10-27 17:01:30 2029

原创 Python_Json解析(+读取同一文件夹下所有文件)

用途:遍历同一文件夹下所有表格,并把每个表格内json格式数据解析,最终汇总在同一个表格内。import pandas as pdimport numpy as npimport osimport jsonlocation=r'C:\Users\Administrator.20170801-163855\Desktop\工作内容\PYTHON\JSON'os.chdir(location)data_json=pd.DataFrame([])data_json_all=pd.DataF

2020-10-27 16:32:58 1398 1

原创 python--有关sql函数中case when的探索

apply函数针对dataframe的每一行进行运行较为方便案例一:把日期修改为季度1:借用for函数,很费时for i in range(len(data)-1): print(i) data.loc[data.index==i,'quarter_decison']=str(data.iloc[i]['time_decision_at'].year)+str('-Q')+str(data.iloc[i]['time_decision_at'].quarter)2:借用apply函

2020-10-21 18:09:46 684 1

原创 Python_if_else_for循环函数应用

对标Mysql中case when 函数,在Pyhon中可使用for+if函数。代码如下:for i in range(len(tot_2019_lo.index)): print(i) if (tot_2019_lo.iloc[i]['a11']>=7) & (tot_2019_lo.iloc[i]['d1']>=48): tot_2019_lo.loc[tot_2019_lo.index==i,'rule_seg'] ='rule_a'

2020-09-23 11:51:07 230

原创 Python_决策树应用

# -*- coding: utf-8 -*-"""Created on Wed Sep 16 16:06:42 2020@author: zhaoyan"""import pandas as pdimport numpy as np# =============================================================================# 一、导入数据# =======================================

2020-09-18 22:40:32 231

原创 Python--KNN(K近邻)模型

KNN模型在信贷风控中的运用结论:不是很适用原因:对于贷后有表现客户,坏客户量相对较少,使用K邻近算法,大部分坏客户也会被预测为好客户(好客户着实太多了,1个坏客户身边可能有20个好客户)以下案例,虽然预测准确率为97%,但是把所有客户都预测为了好客户。(坏客户占比2%左右,量少)import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.m

2020-07-29 16:30:58 483

原创 python--测试集训练集分类

sklearn的train_test_splittrain_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释:train_data:被划分的样本特征集train_target:被

2020-07-26 18:30:12 468

原创 python--缺失值处理

删除无效项df[df.isnull()] #返回的是个true或false的Series对象(掩码对象),进而筛选出我们需要的特定数据。df[df.notnull()]df.dropna() #将所有含有nan项的row删除df.dropna(axis=1,thresh=3) #将在列的方向上三个为NaN的项删除df.dropna(how='ALL') #将全部项都是nan的row删除填充空缺项df.fillna(0)df.fillna({1:0, 2:0.5})

2020-07-26 17:59:46 268

原创 python--数据选取loc/iloc/ix

loc中的数据是列名,是字符串,所以前后都要取;iloc中数据是int整型,所以是Python默认的前闭后开一. loc函数:主要通过行标签索引数据,前闭后闭df 0 1 2 30 green M 10.1 class11 red L 13.5 class22 blue XL 15.3 class1In[10]: df.loc[0:1] #取第一和第二行,loc[]中的数字其实是行索引,所以算是前闭加后闭Out[10]:

2020-07-22 15:24:57 290

原创 Python--json解析数据

Python–json解析from openpyxl import Workbookimport pandas as pdimport numpy as npimport jsonimport tracebackimport osfrom pandas.core.frame import DataFrame# 读取csvdf_req = pd.read_csv(r"F:\报表\三方数据分析\税贷CAP规则调整\data_loan_infos.csv",header = 0,

2020-07-16 17:47:33 88

原创 R语言定价-D1-NCL

collection <- read.csv('E:/03 工作代码/02 R project/风险定价/collection.csv', stringsAsFactors = F)collection <- data.table(collection)pricing.result <- merge(collection, t, by = 'transport_id')...

2020-03-24 21:42:26 211

原创 R语言定价-C2-other-pricing

other_input <- t[!max_platform %in% c('TAOBAO', 'TMALL') & is.na(price_level)]other_input[, target := ifelse(X4mon_per_flag == 1 & mob4_ever_dpd15_flag == 0, 0, ifelse(mob4_ever_dpd15_fla...

2020-03-24 21:41:48 254

原创 R语言定价-C1-pricing_merge

# pricing strategy mergeinput_features <- c('decision_credit_type', 'initial_amount', 'sys_limit' , 'decision_qrt' , 'mob6_ever_dpd30_flag' ...

2020-03-24 21:41:08 321

原创 R语言定价-B6-oversea-pricing

##外贸oversea_input <- mergeData_credit[platform == 'Oversea']oversea_input[, target := ifelse(X4mon_per_flag == 1 & mob4_ever_dpd15_flag == 0, 0, ifelse(mob4_ever_dpd15_flag == 1, 1, -1))]...

2020-03-24 21:40:22 402

原创 R语言定价-B5-jd-pricing

jd_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/df_jd_features.csv', stringsAsFactors = F)jd_raw <- data.table(jd_raw)jd_input <- merge(jd_raw, mergeData_credit, by = 'transport_id')j...

2020-03-24 21:39:31 170

原创 R语言定价-B4-Twofire-pricing

library(jsonlite)library(data.table)## 读入二维火数据twodfile_raw <- read.csv("E:/03 工作代码/02 R project/风险定价/2dfile_features.csv", stringsAsFactors = F)twodfile_raw <- data.table(twodfile_raw)test_...

2020-03-24 21:38:54 124

原创 R语言定价-B1ali-pricing

# 风险定价# step 1 淘系定价## 淘系的平台数据ali_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/阿里平台数据-201904.csv', stringsAsFactors = F)## 淘系新评分-201905, 2017年1月至2019年2月进件的评分ali_newscore <- read.csv('E:/03...

2020-03-24 21:36:02 186

原创 R语言定价-A2variableAnalysis

## single variable analysiswoe_decile_qrt <- data.table()result_qrt <- data.table()for (name in names(pricing.merge_data)) { print(name) for (date in unique(pricing.merge_data$decisio...

2020-03-24 21:35:16 147

原创 R语言定价-A1sourceData

# 共同数据源输入library(data.table)library(rpart)library(rpart.plot)library(sqldf)library(reshape2)library(jsonlite)repay_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/还款数据-201904.csv', stringsAs...

2020-03-24 21:33:53 201

原创 AUC-评价一个二值分类器的优劣

AUC(area under the curve)是ROC曲线下的面积。所以,在理解AUC之前,要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵,因此,我们先从混淆矩阵开始谈起。混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性,y=0表示肿瘤是恶性。则我们可...

2020-02-26 12:33:58 1387

原创 IV值与WOE-二元分类特征的选择

一、应用场景WOE(weight of evidence)和IV(Information Value)主要用来判断变量的预测强度,比如判断用户收入对用户是否会发生逾期的预测强度。因此,两个值的使用主要是在有监督的分类问题中,具体可以细化到如下方面:指导变量离散化。在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15...

2020-02-26 00:40:21 1075

原创 pthon v.s mysql (2)

"""Created on Tue Jan 14 18:06:08 2020@author: Administrator"""import pandas as pdimport numpy as np# =============================================================================# 一、导数据# ===...

2020-02-24 20:14:34 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除