没人关注-CSDN博客

原创 sql-窗口函数编号 row_number() over（）

【代码】sql-窗口函数编号 row_number() over（）

2023-06-14 14:41:54 177

原创 SQL-将数组打散regexp_replace/split/explode

split()函数是用于切分数据，也就是将一串字符串切割成了一个数组。– explode()函数是用于打散行的函数，将一行的数据拆分成一列。– regexp_replace()替换函数。

2023-06-14 11:55:12 334

原创 python_概率密度图

【代码】python_概率密度图。

2023-06-12 14:22:20 476

原创 python_本地使用sql查询语法

python_本地使用sql查询语法

2023-02-02 16:33:27 330

原创 SAS与mysql数据库连接

01 配置ODBC02 运行SAS代码LIBNAME userdata odbc dsn='mysql' read_isolation_level = RU schema=dbo CONNECTION=sharedDBMAX_TEXT=32767 /* prevent text column truncation */;注：mysql为设置的ODBC名称

2022-01-04 17:04:53 740

12期–1.85倍24期–2.09倍6期–1.71倍12期产品–假设每月放款A亿，最终全生命周期损失vintage_loss 为B%。则：后续ENR将持续在[A*(12+1）/2]=6.5A左右，月底新增NCL为12AB%，那么NCL%=(12AB%)/6.5A=1.85*B%24期产品–假设每月放款A亿，最终全生命周期损失vintage_loss 为B%。则：后续ENR将持续在[A*(24+1）/2]=11.5A左右，月底新增NCL为24AB%，那么NCL%=(24AB%)/11.5A=2.09*

2021-11-01 17:30:37 688

原创建模流程

字段表构造并生成变量提取Y变量，并与X变量打通数据预处理a. EDA 探索性数据分析1）数值型变量：n, nmiss, max, min ,mean, trim, median, std, quantile（1%- 99%）2）分类变量：每个分类的计数n，nmiss，每个类别上Y的mean，stdb. 数据处理数值型变量：缺失值标记，缺失值填充，特殊值替换，特殊值标记，1%和99%分位数修剪cap和floor(有界变量不需要) 分类变量：one-

2021-08-17 18:54:12 116

原创 python_%

格式化符号当你看到输出语句存在%d，%s，%f等百分号的时候，就接触到python 字符串格式化输出相关知识。Python 支持字符串格式化输出，尽管这样可能遇到非常复杂的表达式，但最基本的是用法就是将一个值插入到一个有字符串格式符%s的字符串中。如，例1：name = '阿昌'print("大家好，我叫%s"%name)输出大家好，我叫阿昌...

2021-07-01 18:24:24 292

原创相关系数

1、公式2、具体3、评价

2021-06-10 17:50:53 189

原创召回率（recall)

召回率：覆盖面的度量，度量有多少个实际正例被分为正例公式：TP/(TP+FN)

2021-06-10 16:43:10 486

原创精确率、精度（precision)

精确率：被分为正例的实例中实际为正例的比例公式：实际正例/被分为正例 TP/(TP+FP)

2021-06-10 16:37:52 326

原创 SAS-04-入门操作

1 、把数据集从一个逻辑库移到另一个逻辑库data mysql.datanew;/*在mysql逻辑库创建一个数据集*/set applications contract_infos;/*从一个或几个已存在的数据集中读观测纵向合并*/run;2、删除逻辑库中的某一数据集proc delete data=mysql.applications3、sql操作proc sqlcreate table mysql.data asselect a.transport_id,a.max_plat

2021-03-17 17:34:41 446

原创 SAS-03-导出数据

proc export data=mysql.data outfile="Z:data.xlsx";run;

2021-03-17 17:18:54 127

原创 SAS-02-导入数据

一、导sql数据库中的数1、配置odbc(1) 打开ODBC(2) 添加(3)SAS代码PROC SQL:CONNECCT TO ODBC(DSN=RISK)/*RISK 为（2）中添加ODBC时的名称*/creat table mysql.applications asselect * from connection to odbc(select * from std_risk.applications);/* mysql为目标逻辑库*/二、导本地excel文件proc

2021-03-17 11:27:56 169

原创 SAS-01-注释快捷键

SAS在注释快捷键添加快捷键ctrl+/取消快捷键shift+ctrl+/

2021-03-17 11:11:31 2037

原创 Python_自定义函数

# ============================================================================= # 函数功能：导出不同放款月份（季度）缺失率函数# 函数名称：Miss_rate(data,yvar)# data:需要计算的数据（申请、通过或者通过层面）# yvar:需遍历指标向量，一般用放款月份或季度 # 函数使用案列：Miss_rate(data,dat

2021-01-07 14:25:01 131

原创 Python_MD5加密

定义： MD5信息摘要算法（英语：MD5 Message-Digest Algorithm），一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。不可逆：对于MD5，明文与密文一一对应。明文可根据算法加工成密文，但是密文无法返回明文。用途：一些敏感数据（验证三要素：姓名、身份证号、密码；用户名、密码）的传输。撞库等。pyhon代码实现import pandas as pdimport numpy as npimport ha

2020-11-18 17:05:06 339

原创 Python_with（把数据保存在本地同一excel不同sheet页中）

with实现闭环管理，否则可能会遗忘后半截案例：#保存数据于已存在的excel中的不同sheet页中writer=pd.ExcelWriter('json_all.xlsx')data_json_all.to_excel(writer,'Shee2')data_json_all.to_excel(writer,'Shee3')writer.save()#容易被遗忘#使用with后with pd.ExcelWriter('json_all.xlsx') as writer: data

2020-10-27 17:01:30 2029

原创 Python_Json解析(+读取同一文件夹下所有文件)

用途：遍历同一文件夹下所有表格，并把每个表格内json格式数据解析，最终汇总在同一个表格内。import pandas as pdimport numpy as npimport osimport jsonlocation=r'C:\Users\Administrator.20170801-163855\Desktop\工作内容\PYTHON\JSON'os.chdir(location)data_json=pd.DataFrame([])data_json_all=pd.DataF

2020-10-27 16:32:58 1398 1

原创 python--有关sql函数中case when的探索

apply函数针对dataframe的每一行进行运行较为方便案例一：把日期修改为季度1：借用for函数，很费时for i in range(len(data)-1): print(i) data.loc[data.index==i,'quarter_decison']=str(data.iloc[i]['time_decision_at'].year)+str('-Q')+str(data.iloc[i]['time_decision_at'].quarter)2：借用apply函

2020-10-21 18:09:46 684 1

原创 Python_if_else_for循环函数应用

对标Mysql中case when 函数，在Pyhon中可使用for+if函数。代码如下：for i in range(len(tot_2019_lo.index)): print(i) if (tot_2019_lo.iloc[i]['a11']>=7) & (tot_2019_lo.iloc[i]['d1']>=48): tot_2019_lo.loc[tot_2019_lo.index==i,'rule_seg'] ='rule_a'

2020-09-23 11:51:07 230

原创 Python_决策树应用

# -*- coding: utf-8 -*-"""Created on Wed Sep 16 16:06:42 2020@author: zhaoyan"""import pandas as pdimport numpy as np# =============================================================================# 一、导入数据# =======================================

2020-09-18 22:40:32 231

原创 Python--KNN(K近邻）模型

KNN模型在信贷风控中的运用结论：不是很适用原因：对于贷后有表现客户，坏客户量相对较少，使用K邻近算法，大部分坏客户也会被预测为好客户（好客户着实太多了，1个坏客户身边可能有20个好客户）以下案例，虽然预测准确率为97%，但是把所有客户都预测为了好客户。（坏客户占比2%左右，量少）import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.m

2020-07-29 16:30:58 483

原创 python--测试集训练集分类

sklearn的train_test_splittrain_test_split函数用于将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。格式：X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释：train_data：被划分的样本特征集train_target：被

2020-07-26 18:30:12 468

原创 python--缺失值处理

删除无效项df[df.isnull()] #返回的是个true或false的Series对象（掩码对象），进而筛选出我们需要的特定数据。df[df.notnull()]df.dropna() #将所有含有nan项的row删除df.dropna(axis=1,thresh=3) #将在列的方向上三个为NaN的项删除df.dropna(how='ALL') #将全部项都是nan的row删除填充空缺项df.fillna(0)df.fillna({1:0, 2:0.5})

2020-07-26 17:59:46 268

原创 python--数据选取loc/iloc/ix

loc中的数据是列名，是字符串，所以前后都要取；iloc中数据是int整型，所以是Python默认的前闭后开一. loc函数：主要通过行标签索引数据，前闭后闭df 0 1 2 30 green M 10.1 class11 red L 13.5 class22 blue XL 15.3 class1In[10]: df.loc[0:1] #取第一和第二行，loc[]中的数字其实是行索引，所以算是前闭加后闭Out[10]:

2020-07-22 15:24:57 290

原创 Python--json解析数据

Python–json解析from openpyxl import Workbookimport pandas as pdimport numpy as npimport jsonimport tracebackimport osfrom pandas.core.frame import DataFrame# 读取csvdf_req = pd.read_csv(r"F:\报表\三方数据分析\税贷CAP规则调整\data_loan_infos.csv",header = 0,

2020-07-16 17:47:33 88

原创 R语言定价-D1-NCL

collection <- read.csv('E:/03 工作代码/02 R project/风险定价/collection.csv', stringsAsFactors = F)collection <- data.table(collection)pricing.result <- merge(collection, t, by = 'transport_id')...

2020-03-24 21:42:26 211

原创 R语言定价-C2-other-pricing

other_input <- t[!max_platform %in% c('TAOBAO', 'TMALL') & is.na(price_level)]other_input[, target := ifelse(X4mon_per_flag == 1 & mob4_ever_dpd15_flag == 0, 0, ifelse(mob4_ever_dpd15_fla...

2020-03-24 21:41:48 254

原创 R语言定价-C1-pricing_merge

# pricing strategy mergeinput_features <- c('decision_credit_type', 'initial_amount', 'sys_limit' , 'decision_qrt' , 'mob6_ever_dpd30_flag' ...

2020-03-24 21:41:08 321

原创 R语言定价-B6-oversea-pricing

##外贸oversea_input <- mergeData_credit[platform == 'Oversea']oversea_input[, target := ifelse(X4mon_per_flag == 1 & mob4_ever_dpd15_flag == 0, 0, ifelse(mob4_ever_dpd15_flag == 1, 1, -1))]...

2020-03-24 21:40:22 402

原创 R语言定价-B5-jd-pricing

jd_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/df_jd_features.csv', stringsAsFactors = F)jd_raw <- data.table(jd_raw)jd_input <- merge(jd_raw, mergeData_credit, by = 'transport_id')j...

2020-03-24 21:39:31 170

原创 R语言定价-B4-Twofire-pricing

library(jsonlite)library(data.table)## 读入二维火数据twodfile_raw <- read.csv("E:/03 工作代码/02 R project/风险定价/2dfile_features.csv", stringsAsFactors = F)twodfile_raw <- data.table(twodfile_raw)test_...

2020-03-24 21:38:54 124

原创 R语言定价-B1ali-pricing

# 风险定价# step 1 淘系定价## 淘系的平台数据ali_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/阿里平台数据-201904.csv', stringsAsFactors = F)## 淘系新评分-201905, 2017年1月至2019年2月进件的评分ali_newscore <- read.csv('E:/03...

2020-03-24 21:36:02 186

原创 R语言定价-A2variableAnalysis

## single variable analysiswoe_decile_qrt <- data.table()result_qrt <- data.table()for (name in names(pricing.merge_data)) { print(name) for (date in unique(pricing.merge_data$decisio...

2020-03-24 21:35:16 147

原创 R语言定价-A1sourceData

# 共同数据源输入library(data.table)library(rpart)library(rpart.plot)library(sqldf)library(reshape2)library(jsonlite)repay_raw <- read.csv('E:/03 工作代码/02 R project/风险定价/还款数据-201904.csv', stringsAs...

2020-03-24 21:33:53 201

原创 AUC-评价一个二值分类器的优劣

AUC(area under the curve)是ROC曲线下的面积。所以，在理解AUC之前，要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵，因此，我们先从混淆矩阵开始谈起。混淆矩阵假设，我们有一个任务：给定一些患者的样本，构建一个模型来预测肿瘤是不是恶性的。在这里，肿瘤要么良性，要么恶性，所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性，y=0表示肿瘤是恶性。则我们可...

2020-02-26 12:33:58 1387

原创 IV值与WOE-二元分类特征的选择

一、应用场景WOE(weight of evidence)和IV（Information Value）主要用来判断变量的预测强度，比如判断用户收入对用户是否会发生逾期的预测强度。因此，两个值的使用主要是在有监督的分类问题中，具体可以细化到如下方面：指导变量离散化。在建模过程中，时常需要对连续变量进行离散化处理，如将年龄进行分段。但是变量不同的离散化结果（如：年龄分为［0-20］还是［0-15...

2020-02-26 00:40:21 1075

原创 pthon v.s mysql (2)

"""Created on Tue Jan 14 18:06:08 2020@author: Administrator"""import pandas as pdimport numpy as np# =============================================================================# 一、导数据# ===...

2020-02-24 20:14:34 127

空空如也

空空如也