自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 标准类型参数

from typing import Sizedclass TradeData: symbol: str = '' datatime: str = '' direction: str = '' price: float = 0.0 volume: float = 0.0 size: int = 0 def __init__( self, symbol: str, datatime: str, .

2021-12-19 22:51:50 217

原创 使用groupby统计样本各数值的数量

h = data_X.groupby('供应商名称')['缴费天数'].value_counts().unstack(fill_value=0)上面代码的意义在于按照供应商名称分组,统计不同缴费天数的数量,并转换成宽格式的dataframe并将空值用fill_value填充

2021-12-08 23:37:54 1029

原创 np.all()的用法

a=np.array([1,2,3,4,3,1,6,7,5,3,1])np.all([a>3,a<=9],axis = 0)返回一串布尔值,同时满足两条件的为true,不满足的为false。

2021-11-22 22:21:11 1536

原创 决策树分箱,参考代码

金融申请评分卡_starzhou的专栏-CSDN博客_申请评分卡金融申请评分卡(1)2018年02月23日 00:26:08阅读数:527金融申请评分卡概念的介绍 目前金融申请评分卡主要使用在一些互联网金融企业和保险银行机构,主要用来解决目前金融机构存在的信用风控问题。1、信用违约风险的控制手段 从最早的有抵押无规则→无抵押有规则→数据模型,形成了目前在风控领域的基本风控脉络;现今主要采用基于数据驱动建立的风控模型,主要就是目前应用最广...https://blog.csdn.net...

2021-11-22 10:57:52 550

原创 评分卡分箱原则及单调性

1、分箱的原则(1)最小分箱占比不低于5%(2)箱内不能全部是好客户(3)连续箱单调2、单调性评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系_Michael_Shentu的博客-CSDN博客Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率bad rate 单调性与不同的特征场景:在评分卡模型中,对于比较严格的评分模型,会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。 1. 连续性变量:...

2021-11-22 10:52:45 1071

原创 groupby()

一、工作流程1.拆分成多个组df.gruoupby('货号')df.groupby(['货号‘,’平台']) #两列合起来的唯一值df.groupby('货号')['销量']#销量所在列与货号分组后的index行成的新series2.分别对每个组应用函数聚合: df.groupby('货号').sum()转换:df.groupby('货号')['销量'].transform('sum')聚合会把索引压扁,transform转换不会过滤:df...

2021-11-21 20:27:36 911

原创 逻辑回归算法的推导及进阶

​​​​​​出场率No.1的逻辑回归算法,是怎样“炼成”的?_木东居士-CSDN博客sklearn中的逻辑回归中及正则化_木东居士-CSDN博客逻辑回归的决策边界及多项式_木东居士-CSDN博客逻辑回归的本质及其损失函数的推导、求解_木东居士-CSDN博客逻辑回归代码实现与调用_木东居士-CSDN博客按顺序看一遍,逻辑回归算法基本掌握。...

2021-11-18 16:48:01 153

原创 按条件删除dataframe中的行

1.删除df.ts_code大于等于"30"且小于"60"的所有行 df = df.drop(df[(df.ts_code >= 30) & (df.ts_code < 60)].index)

2021-11-16 15:17:10 764

原创 数据离散化与分箱

1.分箱的意义将数据放在分段线中,例如将成绩按照等差区间分为,A,B,C,D。分别对应60,80,90,100。2.代码示例import pandas as pdimport numpy as npages = [20,22,33,54,64,43,55,66,75,32,21,11]bins = [18,25,35,60,100]cart = pd.cut(ages,bins) #将原数据按照bins中的区间进行分箱。cart.codes #查看每个数据分箱到哪里了ca

2021-11-15 13:40:32 792

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除