自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积一时之步,臻千里之遥程

努力是选择的基石,选择是努力的方向,但现在看来,选择比努力更重要!

  • 博客(495)
  • 资源 (6)
  • 收藏
  • 关注

原创 金融数据分析之路【TG思考篇】

说完了以上这些,自己也对这个岗位有了更深刻的认知,而在最后也想起了我的大领导在某次谈话中,对我们提到的一个模型,叫做——Y模型,我也想分享给大家。我现在理解这个模型有两个含义:对于第一个含义,Y模型其实可以被看作是一个数学模型中的y=F(x)形式,在分析数据或者解决问题时,我们往往会陷入过多的细节和具体情况之中,容易偏离我们最终要解决的问题或者达成的目标。因此,我们需要在开始分析和解决问题之前,先明确我们最终要解决的问题或达成的目标,这个问题或目标就是我们的y,它是我们分析和思考的核心和中心。

2023-04-08 19:08:38 741

原创 利用Python构建宁德时代、比亚迪、隆基绿能股票时间序列预测模型

存货复合年增长率(Compound Annual Growth Rate,CAGR)是一项投资在特定时期内的年度增长率 CAGR=(现有价值/基础价值)^(1/年数) - 1 或 (end/start)^(1/# years)-1它是一段时间内的恒定回报率。换言之,该比率告诉你在投资期结束时,你真正获得的收益。它的目的是描述一个投资回报率转变成一个较稳定的投资回报所得到的预想值。

2023-06-30 17:57:11 4032 1

原创 <零售信贷>数字营销能力建设思考篇【1】开篇

总的来说,我认为这三个要素是锻造数据营销能力的重要基础。当然,其他环节也是非常重要的,需要我们在实践中不断完善和优化。接下来,我将结合自身以及其他大佬的观点,深入分享零售信贷在各个阶段的一些思考,具体包括以下系列文章:<零售信贷>数字营销能力建设思考篇【1】开篇<零售信贷>数字营销能力建设思考篇【2】策略<零售信贷>数字营销能力建设思考篇【3】模型<零售信贷>数字营销能力建设思考篇【4】数据<零售信贷>—贷前风控思考篇【1】开篇…<零售信贷>—贷中风控思考篇【1】开篇…

2023-06-26 22:43:44 896

原创 信贷知识-单利、复利、罚息

单利是指在一定时间内,按照一定利率计算利息,只计算本金的利息,不计算利息的利息。其中,本金是指投资或贷款的本金金额,利率是投资或贷款的年利率,时间是投资或贷款的时间,通常以年为单位。如果借款1000元,利率为10%,借款期限为1年,则利息为100元如果投资人将利息再次投资,则下一年的利息将按照本金计算,不考虑上一年的利息。

2023-05-08 11:50:10 1348 1

原创 【信贷业务】营销场景及模型介绍

在营销阶段,非常重要的一个模型就是营销响应模型,它是营销阶段结合数据挖掘技术最典型的模型之一,通过挖掘用户的基本信息、历史行为信息来预测用户在未来一段时间内是否会响应的概率,以此采取不同的营销策略,实现精准营销。总的来说,基于用户历史数据构建营销响应模型,并将其应用在精准营销中具有很强的实用性和灵活性,这为产品的营销寻找了更多的响应客户,且不断提高经济效益。对于信贷领域,产品、营销、风控是最重要的参与方。

2023-01-30 15:32:55 990

转载 【信贷业务】金融信贷存量客户运营管理

近几年随着消费金融在我国的快速发展,银行零售业、消费金融公司、互联网金融等迎来了一个爆发式的增长,人均授信总额不断增加即居民杠杆率持续攀升。伴随着市场竞争日趋激烈、客群不断下探、监管收紧的大背景下,互联网金融、小贷公司、P2P行业洗牌和业务调整,将会导致次级下沉客户向银行、持牌消费金融公司传导,使共债风险持续增加、坏账率增高。因此,新客带来的业务增加将会遇到一个瓶颈期,各大金融机构缩减新客获取,至此国内消费金融市场将进入存量客户精细化运营管理时代。

2023-01-28 13:41:48 2109

原创 python 自动刷新tableau看板数据

tableau看板数据刷新三步骤1.提取2.prep 处理3.刷新看板为了实现自动化,使用了python中的pyautogui包,加上windows的定时执行任务,实现自动刷新

2022-12-16 09:32:07 1339

原创 借款久期&还款久期 简述

在工作的时候,在资产使用遇到三个指标,分别是生息资产、借款久期、还款久期,有点不清楚其中的含义,查阅相关资料后做个简短的总结,可能有错,先放这。

2022-12-15 17:21:30 2280 1

原创 对Vintage未表现数据的预测方法总结

前面说到,Vintage是资产质量分析的重要工具,主要是用来分析同一产品在不同时间放款的资产质量变化情况,从而反映该产品的客群质量和变化情况,以及这个过程中的风险策略水平情况等等,其本质是按生命起点进行对准,按生命周期进行比较。

2022-12-15 16:22:49 2700

原创 关于模型融合Stacking的一些改进思路

Stacking是一种嵌套组合型的模型融合方法,其基本思路就是在第一层训练多个不同的基学习器,然后把第一层训练的各个基学习器的输出作为输入来训练第二层的学习器,从而得到一个最终的输出。具体的构建思路如下:用一个基础模型进行5折交叉验证,对于训练集先拿出4折作为训练数据,另外一折作为测试数据,每一次交叉验证我们都会基于训练数据训练生成的模型对测试数据进行预测,这部分预测值最后拼接起来就是第二层模型的训练集。

2022-10-22 10:01:34 3479 2

原创 关于集成学习算法的概述(Bagging、Boosting、Stacking、Blending)

近几年,集成学习(Ensemble Learning)在国内外研究以及数据科学竞赛中被广泛提及和应用,它是通过某种结合策略将多个单一模型结合起来得到一个强模型,这个强模型通常比单一模型有更强的性能。目前,集成学习模型的分类主要是根据个体学习器之间的关系进行区分,常用集成学习框架包括:Bagging、Boosting以及Stacking。

2022-10-16 21:56:41 1311

原创 关于数据均衡化方法的简介(以EasyEnsemble算法为例)

数据的不均衡问题往往会让模型更偏向于多数类的样本,而对少数类样本的识别表现不佳,因此数据的不均衡是模型构建中需要重点解决的问题。

2022-10-16 21:40:21 3857

原创 关于GBDT算法、XGBoost算法的基本原理概述

梯度提升决策树GBDT是一种利用残差拟合弱学习器的集成算法,该算法是由Boosting中最具代表性的Adaboost算法演变而来,其中各个基学习器之间并不独立,是一种串行关系。GBDT的基本思想就是每次学一点点,然后逐步逼近最终的预测值,即GBDT将当前预测结果的残差作为下一棵树的输入,不断迭代生成下一棵树,最终模型的结果为所有决策树的结果之和(GBDT 的目标就是要找到一颗使得残差最小的决策树)。θk​)

2022-10-16 11:39:28 983

原创 关于LightGBM算法基本原理概述

2017年微软公司提出了LightGBM算法(Light Gradient Boosting Machine),该算法也是基于GBDT算法的改进,,但相较于GBDT、XGBoost算法,LightGBM算法有效地解决了处理海量数据的问题,在实际应用中取得出色的效果。

2022-10-16 10:34:48 14166 2

转载 SQL窗口函数及Pandas实现

写在前面窗口函数在处理复杂需求时提供了一种更为简便的数据处理方式,在实际业务中应用非常广泛,也是面试官喜欢重点考察的知识点。

2022-09-28 16:17:49 879

转载 python matplotlib 堆叠柱状图 visualization

from matplotlib import pyplot as pltimport numpy as npunit_topics = ['Limits', 'Derivatives', 'Integrals', 'Diff Eq', 'Applications']

2022-09-11 10:21:36 1227

原创 风控指标:净损失率NCL的计算流程整理

这段时间,经常会接触到NCL这个指标,在网上搜索这个指标后发现,基本上都是简单提一下概念和计算公式,对于NCL的计算过程没有一个完整的总结所以这篇文章,来对NCL的计算做一个小小的整理,写的时间比较少,内容会比较粗糙。

2022-08-22 18:20:48 1923

原创 Tableau 去掉文本表中的abc字符

Tableau 去掉文本表中的abc字符

2022-08-16 16:07:31 990

原创 对Vintage分析的一些学习理解

我目前工作主要是信贷业务相关的数据分析及算法构建,所以经常会接触到信贷风险管理分析方法,常见的包括账龄分析(Vintage Analysis)、滚动率分析(Roll Rate Analysis)、迁移率分析(Flow Rate Analysis。这三种分析是我工作中最常见的,所以也想简单总结一下,输出一些自己的理解,并通过项目实践,不断补充。......

2022-07-22 23:09:26 4255

原创 利用Python做新能源公司股票分析(可视化)

基于Python语言,调用数据接口,获取10支股票数据,完成股票的基本分析。

2022-06-11 08:21:00 2072 3

转载 金融风控稳定性指标 PSI & CSI

原文作者:过一点画一条直线(知乎ID)知乎专栏:数据化风控原文链接:https://zhuanlan.zhihu.com/p/94619990业务背景评分卡模型监控主要可以分为前端分析(Front-End)和后端分析(Back-End),其中前端分析主要关注人群的稳定性,后端分析主要关注模型的影响和表现。本文主要介绍前端分析中的Population Stability Index (PSI)和Characteristic Stability Index (CSI),它们是监控模型稳定性的重要指标。

2022-05-30 16:00:52 2728

转载 一文带你了解助贷行业

原文作者:宁阿姨(知乎ID)原文链接:https://zhuanlan.zhihu.com/p/485880345注:仅限自己学习使用日常消费用花呗用信用卡,个人周转用借呗或微粒贷,买车买房用车贷房贷,作为消费者的我们或多或少会接触贷款产品。而作为优化师,大家也听过或投过很多金融产品,例如拍拍贷、马上消费金融、中原消费、省呗、融360等头部助贷/消费金融/贷超产品。以及可能听说过的裸贷、学生贷、暴力催收,可能没有听说过背债、养白户等非法行为或市场。(据传头条21年某月金融产品消耗)可以看到作为一个工

2022-05-15 11:13:22 1863

原创 关于融合模型的一些简单整理(Stacking、Blending)

目前,模型融合的方式有很多,比较常用的包括Voting法、Stacking法以及Blending法。一、VotingVoting是模型融合策略中最简单的一种方法,其融合过程不需要建立新的模型,只需要在单一模型的输出结果上完成融合。Voting可以分为硬投票(Hard Voting)和软投票(Soft Voting)。硬投票(Hard Voting)是指对每个模型给出的样本分类结果以少数服从多数的方式产生最终结果,例如对于一个二分类问题,分别使用逻辑回归模型、支持向量机模型以及随机森林模型进行预测

2022-05-14 12:30:43 3214

转载 Tableau 集(set)、组(group)

原文作者:江边鸟知乎专栏:Tableau入门原文链接:简单介绍Tableau中的集(set)和组(group) --(上)注:仅供自己学习一、集和组的创建集 和 组是tableau数据分析中常用的功能,在很多案例分析和教程里我们都能看到它们的踪影,特别是 集 配合筛选器、参数等功能,能够实现很多令人惊叹的效果。集和组都是Tableau中进行数据处理、数据区分、数据筛选的重要功能。本文我们简单介绍Tableau中的集(set)和组(group)的区别与作用。集的官方定义:​ 集(Se

2022-05-07 17:49:56 1004

转载 Tableau 参数(控制维度、度量、排序、参考线、透视表)

原文作者:little forest(知乎ID)知乎专栏:Tableau系列其他章节原文链接:https://zhuanlan.zhihu.com/p/335261683注:仅供自己学习参数的使用将从5个方面进行讲解,5个小例子会做以后,就基本了解了参数的使用方法。然后自己在工作中开发的时候就参照这些基本用法进行举一反三就可以了。1、参数控制维度在点击右边名称为“维度”的筛选器,任选一个维度时,工作表中的“选择参数”会切换到对应的维度,维度对应的销售额也会随着发生改变。上面示例涉及的计算字

2022-05-06 23:12:53 4149

原创 金融风控评分卡建模流程整理

对网络中评分卡原理文章的一个整理,仅限自己学习参考:玩转逻辑回归之金融评分卡模型WOE编码为啥有效等

2022-05-06 08:59:42 450 1

转载 关于风控业务中特征缺失值的思考

原文作者:过一点画一条直线(知乎ID)知乎专栏:数据化风控原文链接:https://zhuanlan.zhihu.com/p/149718442业务背景在搭建风控模型之前,我们都会进行数据挖掘,找到对业务更有价值的特征。在特征构建的过程中,即会生成正常的连续或离散值,也会生成0值、NULL值等。有些同学在对NULL值的处理过程中就会直接填充成0或者其他值(-999,999等之类的),但是在风控业务中,NULL值其实也是有业务含义的,有时候当特征值为NULL和为0时,它们所代表的含义是不同的。另外,在

2022-05-05 15:38:10 334

原创 【贷款违约模型评估】策略表和策略曲线

**策略:**既然我们意识到以上模型永远不会100%的完美预测,以及基于该模型拒绝预测会违约的申请,但实际中仍然会有借款人违约(无论拒绝贷款申请数量多少,仍会有债务人违约)。

2022-03-27 21:56:44 2826

原创 客观赋权法——CRITIC权重法【Python实现】

理论部分不介绍,可以看之前的文章客观赋权法——CRITIC权重法Python实现是用jupyter做的,做得比较糙,直接截图了,有需要jupyter文件的可以私信。注:数据乱造的,看过程就行

2022-03-05 15:50:06 3302

原创 特征工程之特征提取与特征选择 区别

特征提取(Feature Eatraction)是在特征选择之前的,它是从原始数据中提取新特征的过程,这个提取过程通常是使用一定的算法(函数映射)来自动执行,将多维的或相关的原始特征通过数据转化或映射得到一个新的特征空间,尽管新的特征空间是在原有特征基础上得到的,但是凭借直接观察可能看不出新数据集与原始数据集之间的关联,它是对原始特征的一种降维映射操作。例如,有n个原始特征x1,x2,⋯,xnx_1,x_2,⋯,x_nx1​,x2​,⋯,xn​,现通过数据映射进行特征提取得到m个新的特征,表示为y1,y2

2022-01-26 15:53:57 1906

原创 Python 使用Sidetable探索数据集

在对数据集进行探索时,我经常使用的语句包括df.shapedf.head()df.columnsdf.sample(n=10)df.info(verbose=True)df['x1'].value_counts()df['x1'].value_counts(normalize=True)df['x1'].unique()nunique()groupbydescribe()describe(include = 'all').T df.isnull().sum() print("数据

2022-01-18 11:26:52 1199

原创 Python 定时发送【每日天气】和【每日简报】至【邮件】或【钉钉】(代码部署在云服务器)

思路:1、爬取当前所在城市的天气(实时)2、爬取每天一分钟,知晓天下事,新闻简报(最新一天)3、利用python将天气和简报发送至指定邮箱 或 发送至钉钉群(借助自定义机器人)4、在本地测试通过后,就可以把代码部署到云函数中,设置定时执行。文章给的就是一个完整代码,可能有些地方写的比较冗余,也懒得改了每日天气:https://www.tianqi.com/chongqing/每日简报:https://www.163.com/dy/media/T1603594732083.html1

2021-12-25 16:35:02 3500 3

转载 原来Kylin的增量构建,大有学问(理解Cube、Cuboid与Segment的关系)

转载自:原来Kylin的增量构建,大有学问!(理解Cube、Cuboid与Segment的关系)作者:大数据梦想家        本篇博客,博主为大家介绍的是关于Kylin的增量构建的步骤过程,以及其与全量构建的差异对比!看完之后,相信你也一定能够感受到这里面的大学问~ 文章目录 Kylin增量构建应用场景理解Cube、Cuboid与Segment的关系全量构建与增量构建全量构建增量构建全量构建和增量构建的对比

2021-12-11 14:50:25 578

原创 【Python自动化办公】实现excel表中的数据批量导入到word指定位置(表格形式和下滑线形式)

案例1——word模板为表格数据word模板(准备好需要的文档。)最终效果方法1打开作为模板的word文档。点击 “邮件-邮件开始合并”。如何把excel表格中的内容批量填写到word模板中https://jingyan.baidu.com/article/870c6fc322b798f13ee4be7e.html最终效果这种方法的就是把每一页word生成一个文件http://www.360doc.com/content/18/0813/17/94334_777982230.

2021-12-05 18:20:25 15412

转载 Apache Kylin 深入Cube和查询优化

继续学习kylin~~转载自:https://mp.weixin.qq.com/s/40PWJu0K38kYY67Z-Hryhw公众号:大数据技术博文前言Apache Kylin 在中企的使用主要在新数仓系统以及 BI 报表的数据计算工作,带来的变化有:一方面Kylin帮助我们提升了开发效率,减少了开发人员需要手动编写HQL/SQL 语句去查询维度数据的状况;另一方面解耦现有系统设计,数据计算层主要包括Spark类的实时计算和HQL的离线计算(Kylin在我司目前还没有接入实时流计算,后期会尝

2021-11-28 17:01:01 398

转载 Kyligence:Cube优化器

作者:Kyligence链接:Kyligence KAP2.4新特性:Cube优化器来源:知乎KAP2.4新特性之Cube优化器:基于数据特性与业务常用SQL样例,可以一键输出Cube优化设置,帮助分析师快速上手Cube的设计与优化。什么是CubeCube是数据仓库中一个经典的概念。数据仓库作为一种数据环境,具有面向分析、提供企业决策支持的重要作用。而在数据仓库中,多维数据模型能够满足大多数企业的数据分析需求——它提供了多角度多层次的分析应用,比如基于时间维度、地域维度等构建的销售星形模型、雪花模型

2021-11-25 16:35:41 304

转载 多维数据模型和OLAP的实用价值在哪?

感觉学完瞬间懂了,分享给大家作者:Kyligence链接:多维数据模型和OLAP的实用价值在哪?来源:知乎首先理解一下多维数据模型和OLAP的含义。OLAP区别与传统的交易型业务系统(做增删查改),也叫OLTP。OLAP的目的不是为了方便数据可以随时增删改,而是方便数据可以随时做统计分析,因此其存储数据的结构和模型设计上就会跟OLTP完全不一样。而多维数据模型就是一种非常适合OLAP的模型,通过将维度(分析角度)拆分出来形成维度表,然后跟基于事务交易的记录事实表进行关联,形成多维度的星型或者雪花模

2021-11-25 15:19:22 331

原创 互联网金融中必做的17个模型

最近又要开始实习了~,从运营商行业转到了互联网金融。说实话,对金融行业不是很了解,很多金融知识都不太懂,慢慢学习吧!冲冲冲文章:互联网金融中必做的17个模型

2021-11-19 20:41:16 13601

原创 Python 批量获取地点经纬度坐标,并利用geopandas在地图上绘制经纬度的点

文章目录1 调用接口获取经纬度2 获取地图shapefile文件3 利用geopandas绘制地图4 通过经纬度在地图上标注点1 调用接口获取经纬度随便举几个例子import pandas as pdregi = ['重庆渝北区','重庆南川区','重庆巫山县']regi = pd.DataFrame({'地区':regi})接下来,调用百度接口这里可以参考:python 使用百度地图SDK获取地址的经纬度https://lbsyun.baidu.com/apiconsole/key#/

2021-11-19 11:19:39 8411 10

原创 PyAutoGUI 自动控制鼠标和键盘操作(三个小案例)

PyAutoGUI 安装用pip直接安装,可能错误不断,基本都是版本的问题,我是这样安装的,可以尝试一下,能不能成功pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com pillow==7.1.0pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com pymsgbox

2021-11-17 22:42:10 2492

文件迁移工具-原位置留下快捷方式,不破坏文件

Windows 系统上的文件迁移工具,迁移后,原位置留下快捷方式,不破坏文件,可以自由移到其他文件目录。

2022-10-12

对比条形图主城九区.xlsx

对比条形图主城九区.xlsx

2022-03-18

世界各国中英文对照.xlsx

世界各国中英文对照.xlsx

2022-03-18

合并excel小软件.zip

就简单的把相同格式的excel表进行合并

2021-11-03

第二阶段SFA回归数据模板.xls

DEA第二阶段计算表格

2021-01-02

R语言期末试题R语言期末试题

R语言期末试题

2020-12-30

KNN实现鸢尾花分类

knn的python代码 #样本数据150*4二维数据,代表150个样本, #每个样本4个属性分别为花瓣和花萼的长、宽

2019-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除