夜景黑色调-CSDN博客

原创金融风控数据分析

一、信贷底层库表详解与数据集市构建1.信贷业务底层数据核心库表穿透式详解1）客户信息表结构与数据（customer_info）客户信息表是根据客户在前端申请信贷产品时主动填写的信息收集的，部分可验证字段可直接用于风控规则，而有些无法验证的字段在前期没有贷后表现的情况下只能用于参考，不适合直接用于制定规则。结构：基本信息（姓名、年龄、性别）；单位信息（单位名称，单位地址）；教育程度；工作信息（工龄、职位）；收支情况；家庭信息（户籍地址、子女数量）数据：customer_no，customer_nam

2021-11-10 16:53:02 8731 5

原创模型评价指标（混淆矩阵，AUC,ROC）

模型的预测性：正例覆盖率：表示正确预测的正例数在实际正例数中的比例，即Sensitivity，也叫Recall=TPTP+FNRecall=\frac{TP}{TP+FN}Recall=TP+FNTP，所有真正违约的样本中，能被模型检测出来的比例。负例覆盖率：表示正确预测的负例数在实际负例数中的比例，Specificity=TNTN+FPSpecificity=\frac{TN}{TN+FP}Specificity=TN+FPTNAUC曲线：x轴为1-specificity，即负例错判率；y轴

2021-10-30 07:44:40 699

原创 Python中的if name == ‘main‘

if name == 'main’的意思是：当.py文件被直接运行时，if name == 'main’之下的代码块将被运行；当.py文件以模块形式被导入时，if name == 'main’之下的代码块不被运行。from here

2021-07-27 16:47:23 3458

原创梯度下降法

简介：梯度下降法（gradient descent）或最速下降法（steepest descent）是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。假设f(x)f(x)f(x)是RnR^nRn上具有一阶连续偏导数的函数。要求解的无约束最优化问题是minx∈Rnf(x)(行标)\underset{x\in{R^n}}{min}f(x)\tag {行标}x∈Rnminf(x)(行标)xk+1x^{k+1}xk+1f(x(k))f(x^

2021-05-17 22:40:00 189

原创申请评分卡

一、数据的预处理与特征构建简介:在构建评分卡模型的工作中，数据预处理工作和特征构建工作是至关重要的一步。数据的预处理工作可以有效处理缺失值与异常值，从而增强模型的稳健性。而特征构建工作则可以将信息从字段中加以提炼，形成有业务含义的优异特征。1.评分卡简介：风控场景中的评分卡：1）以分数的形式来衡量风险几率的一种手段；2）是对未来一段时间内违约/逾期/失联概率的预测；3）有一个明确的（正）区间；4）通常分数越高越安全；5）数据驱动；6）反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡。申请评分卡（Ap

2021-05-08 17:46:03 1418

原创风控策略和信贷风控指标

准入策略1.年龄准入2.地区准入3.行业准入个人验证1.身份证信息验证2.人脸信息验证3.银行卡四要素4.运营商三要素黑名单策略反欺诈策略

2021-03-27 15:35:03 1408

原创 1.政策与定价

一、量化风控体系1）量化风控体系的风险应用板块巴塞尔协议3中主要涉及的风险类型：1.信用风险：信用风险更多的是涉及对个人及企业的一个信用能力去授信和管控2.市场风险：在市场进行交易时的风险，期货股票交易等3.操作风险：合规，欺诈等风险4.流动性风险：关于资金管控，还有资本充足率的一个要求在信用风险的量化逻辑上其实主要是量化它的这个损失，这个损失有两大部分：1）损失期望：就是预期的一个损失，即损失的平均的一个情况2）极端损失：在恒定的一个几率里面，或者是在固定的一个观测几率里面，我们的一个

2021-03-21 21:09:27 597 1

原创日常python常见问题

1.numpy中axis参数理解简单的来记就是axis=0代表往跨行（down)，而axis=1代表跨列（across)。

2021-03-11 11:17:44 157

原创数据分析与挖掘建模实战总结

1.理论铺垫：集中趋势：均值、中位数、分位数、众数离中趋势：标准差、方差数据分布：偏态与峰态、正态分布与三大分布抽样理论：抽样误差、抽样精度四分位数计算方法：Q1:的位置=（n+1）*0.25Q2:的位置=（n+1）*0.5Q3:的位置=（n+1）*0.75import pandas as pddf=pd.read_csv("HR.csv")df.head(10)type(df) # 数据结构为DataFrametype(df["satisfaction_level"]) #

2021-03-07 22:13:26 1627

原创日常SQL常见问题

1.SQL书写顺序select distinctfrom[on >join]where -- 在查询之前进行的一个约束group by -- 分组having --在查完表之后对结果进行过滤，后面可以使用相应的聚合函数，where不可以order by desclimit2.SQL执行顺序from 表名where group byhavingselect distinct -- 这时候才进行查找order bylimit 3.分组排序函数（row_number

2021-02-28 21:01:51 518

原创反欺诈策略

1.客户引流项目风险评估线下项目评估：线上项目类型：小额现金贷、线上消费贷特点：时间段、放款快、但是额度一般较低；无需提供相关附件，申请方式简单便捷，随时随地，无需面签线上项目风险管理办法（政策指引、管控办法、监控报表）1）政策推广指引：根据产品定位设置前端营销推广指引，包括渠道准入标准、客户进件条件、产品额度等2）合作方准入以及前期沟通：对前端上报渠道进行准入评估、合作模型确定（API还是H5模式）3）系统对接及联调测试：前置风险条件设置、必要回传信息验证、普通变量回归测试、白名单测试4）

2020-11-28 16:56:05 2451

原创反欺诈体系

欺诈与反欺诈一、互联网面临的欺诈风险欺诈三要素：欺诈人，欺诈目的，欺诈手段，是否定义为欺诈要看企业业务或者产品的需要欺诈的类型：个人欺诈，团体欺诈或者(第一方欺诈、第二方欺诈、第三方欺诈)，欺诈目的有盗刷、薅羊毛、骗贷、套现、刷单、刷好评欺诈的表现形式：网络攻击(撞库、拖库、洗库)，机器注册，暴力破解；伪造资料：资料包装，证件伪造，伪冒身份短信/电话劫持：伪基站，手...

2020-10-17 18:36:00 1446

原创第四章数据的预处理与特征构建(续)

申请评分卡模型数据的预处理与特征构建(续)课程简介：逻辑回归模型的特征需要是数值型，因此类别型变量不能直接放入模型中去，需要对其进行编码。此外，为了获取评分模型的稳定性，建模时需要对数值型特征做分箱的处理。最终在带入模型之前，我们还需要对特征做单变量与多变量分析的工作。目录：特征的分箱WOE与特征信息值单变量分析与多变量分析特征的分箱...

2020-05-26 14:50:00 728

原创第7章 PCA与梯度上升法

主成分分析法：主要作用是降维疑似右侧比较好？第三种降维方式：问题：？？？？？方差：描述样本整体分布的疏密的指标，方差越大，样本之间越稀疏；越小，越密集第一步：总结：问题：？？？？怎样使其最大变换后：最后的问题：？？？？注意区别于线性回归使用梯度上升法解决PCA问题：...

2020-03-22 22:15:00 108

原创信贷业务中的APR和IRR

简单换算：APR∗1.82=IRR。

2022-10-16 16:57:00 601 1

原创贷中管理-理论

贷中管理：值从贷款发放之日起，至贷款本息收回日期为止的贷款管理。不同于贷前和贷后管理，贷后管理早期在信贷管理较为薄弱，且没有明确的业务目标。但随着催收压力逐渐加大，且贷中管理存在大量的金融服务需求，关注度也逐渐攀升。贷中管理业务核心分两块：1）客户的风险排查与预警处置；2）客户潜在金融需求的及时满足和服务体验提升。1）客户分层：利用模型和策略量化客户未来逾期风险，从而进行数字化的风险分层；2）贷中预警：结合不同的风险等级，相对应的设计对应配套的处置策略，降低信用风险；

2022-09-11 22:46:01 1880

原创 mysql中自定义变量（浅显易懂简洁版）

select，set定义变量

2022-07-04 12:54:22 6929

原创历史数据回溯

BEGIN-- 按日回退还款明细数据,start_date格式(2019-05-01)declare start_date date;set @start_date = daydate; -- drop table if EXISTS repayment_detail_day; -- create table repayment_detail_day asinsert into repayment_detail_dayselect a.*, case when date(当

2022-06-16 13:39:11 274

原创假设检验基础

统计推断的另一类问题是假设检验问题。在总体的分布函数完全未知或只知其形式、但不知其参数的情况，为了推断总体的某些未知特性，提出某些关于总体的假设，例如，提出总体服从泊松分布的假设，又如，对正态总体提出数学期望等于μ0\mu_0μ0的假设等。我们要根据样本对所提出的假设作出是接受还是拒绝的决策。假设检验是作出这一决策的过程。...

2022-04-28 13:29:07 309

原创 Word中显示超链接成{HYPERLINK “url“}形式的解决方案

按Alt+F9就切换即可

2022-04-22 07:56:22 1177

原创 Excel相关常识

数据透视表：选择任意一个时间，创建组合汇总多列数据数据透视表中写公式：域，项目合集（计算字段）生成多张工作表

2022-03-18 18:22:13 2567

原创量化风控全流程

2022-03-10 17:02:56 319

原创 mysql面试题

## 统计近一个月,每个商品的销售数量,以及销售金额在总销售金额中的占比select oi.product_id,oi.product_name,sum(oi.num) as '商品的销售数量',(sum(oi.price)/(select sum(order_amount) from order where create_time>='2022-01-19' and create_time<='2022-02-20')) as '占比'from order o,order_item oi

2022-02-23 10:52:52 723

原创日常SQL常见问题（二）

MySQL中的函数相关

2021-12-30 15:15:29 756

原创正则表达式re模块

请从以下文件里取出所有的手机号：姓名地区身高体重电话况咏蜜北京 171 48 13651054608王心颜上海 169 46 13813234424马纤羽深圳 173 50 13744234523乔亦菲广州 172 52 15823423525罗梦竹北京 175 49 18623423421刘诺涵北京

2021-09-15 23:08:17 105

原创利用python进行数据分析第二版学习笔记

行话：数据规整（Munge/Munging/Wrangling）指的是将非结构化和（或）散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。伪码（Pseudocode）算法或过程的“代码式”描述，而这些代码本身并不是实际有效的源代码。语法糖（Syntactic sugar）这是一种编程语法，它并不会带来新的特性，但却能使代码更易读、更易写。Python的对象通常都有属性（其它存储在对象内部的Python对象）和方法（对象的附属

2021-09-13 20:08:00 383

原创第2章数据归一化

问题：样本间的距离被发现时间所主导！数据归一化的目的，就是将数据的所有特征都映射到同一尺度上，这样可以避免由于量纲的不同使数据的某些特征形成主导作用。数据归一化的方法主要有两种：最值归一化和均值方差归一化。1.最值归一化（normalizationnormalizationnormalization）：把所有数据映射到0-1之间。xscale=x−xminxmax−xminx_{scale}=\frac{x-x_{min}}{x_{max}-x_{min}}xscale=xmax−xminx

2021-07-19 11:33:49 380

原创第3章衡量线性回归的指标：MSE，RMSE，MAE

简单线性回归：目标：找到a和b，使得∑i=1m(ytrain(i)−axtrain(i)−b)2\sum_{i=1}^m(y_{train}^{(i)}-ax_{train}^{(i)}-b)^2∑i=1m(ytrain(i)−axtrain(i)−b)2尽可能小

2021-06-18 13:11:44 273

原创 ROC,AUC

1.混淆矩阵：2.准确率=（TP+TN）/（TP+TN+FP+FN）注：：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。3.精准率（precision，查准率）=TP/（TP+FP）,针对预测结果而言4.召回率（Recall，查全率）=TP/（TP+FN），针对原样本而言5.精准率和召回率的关系，F1Score=2∗Precision∗RecallPrecision+RecallF1Score=\frac{2*Precision*Recal

2021-06-02 14:49:54 215

原创统计学习及监督学习概论

1.统计学习简介：统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习由监督学习（supervised learning）、无监督学习（unsupervised learning）和强化学习（reinforcement learning）等组成。1）监督学习习惯上输入变量写作XXX，输出变量写作YYY。输入与输出变量的取值用小写字母表示，输入变量的取值写作xxx,输出变量的取值写作yyy。变量可以是标量或向量，都用相

2021-05-24 08:31:50 135

原创函数在线绘图

好用的函数在线绘图工具

2021-05-21 12:54:45 353

原创 2021-05-11

有的人黯淡无光，有的人金玉其外但却败絮其中，而当你有一天遇见一个彩虹般灿烂的人，自此以后，你的眼中只有她一个人

2021-05-11 20:46:15 50

原创大数据分析之Hadoop

一、目标：1.完成Hadoop的部署和配置2.正常启动/关闭Hadoop集群，并完成基准测试3.理解分布式文件系统的设计思想4.熟练操作Hadoop集群二、Hadoop的安装与部署一、切换到root用户：su - root二、关闭selinux：vim /etc/selinux/configSELINUX=disabled1.将软件包上传到node100（Windows使用xftp上传，Mac使用scp命令上传）2.配置免密登录cd 进入hadoop用户的家目录ssh-keygen

2021-05-04 20:58:30 486 1

原创大数据分析之环境部署

目标：1、理解大数据分析的开发环境2、尝试在自己电脑上搭建好开发环境3、掌握centos系统常见操作所需软件：vmvare、xshell6、xftp6、centos7系统、Hadoop（服务器上）、jdk（服务器上）、hive（服务器上）步骤：1）安装vmvare并配置网络；2）安装centos7.5操作系统；2.1、新建1台虚拟机；2.2、编辑虚拟机；2.3、安装centos7操作系统；2.4、使用xshell连接虚拟机。centos7系统基本常识：1.centos7是一个Linu

2021-05-04 11:57:10 300

原创 Hive常见问题

1.hive中substr用法详解1)substr(string A, int start),substring(string A, int start) 两者用法一样,两个参数说明：返回字符串A从start位置到结尾的字符串 hive> select substr('abcde',3) from test;//意为从第三个开始截取，一直到结尾。a的下标为1。 cde hive> select substring('abcde',3) from te

2021-05-04 11:15:21 92

原创 SQL数据清洗

真正的原始表是混乱且有许多冗余特征的，所以需根据原始数据清洗出相对干净的特征表很重要。但是公司的业务数据一般存贮在数据仓库（DW）里面，数据量很大，这时候用Pandas处理是不方便的，更多的时候是用HIveSQL和MySQL处理。1.删除指定列、重命名列场景：多数情况并不是底表的所有特征（列）都对分析有用，这个时候就只需要抽取部分列，对于不用的那些列，可以删除；因为一般情况下是没有删除的权限（可以构建临时表），这时候可以反向思考：删除的另一个逻辑是选定指定列（select）重命名列可以避免有些列的

2021-04-27 00:07:44 477 3

1视频教程_入门机器学习--经典算法与运用.rar

空空如也