自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2020-09-27

一、目标将之前建模调参的结果进行模型融合,尝试多种融合方案二、内容平均简单平均法加权平均法投票简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging(在Task4中已经提及,就不再赘述)三、 stacking\blending详解stacking将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一

2020-09-27 22:48:30 90

原创 贷款违约预测-Task4

Task4:建模和调参1、读取数据:正常的读取数据流程是读取一个模型数据,然后对数据进行建模处理——即分离数据集,分成训练集和测试集;目的是为了利用交叉验证对模型性能进行评估。教程就是采用的这个正常的流程。data_train =pd.read_csv(’…/train.csv’)data_test_a = pd.read_csv(’…/testA.csv’)data_train = reduce_mem_usage(data_train)data_test_a = reduce_mem_usa

2020-09-24 23:36:00 167

原创 天池贷款违约预测——Task3 特征工程

1.特征工程目的特征工程是数据分析中最耗时间和精力的一部分工作。数据和特征决定了机器学习的上限,而模型和算法则是逼近这个上限。因此,特征工程就变得尤为重要了。特征工程的主要工作就是对特征的处理,包括数据预处理,特征选择,甚至降维技术等跟特征有关的工作。主要内容2.1 数据预处理缺失值的填充(掌握数据类型,数据类型转换,填充方法等)异常值的处理(3segama原则、箱型图、小提琴图等)数据分箱(固定宽度分箱,分位数分箱,卡方分享等)缺失值填充指定值填充(-1,999,0等)向上或向下填充

2020-09-21 21:03:16 149

原创 金融风控竞赛笔记2-使用EDA粗略分析数据

查看缺失值data_train.isnull().any().sum() # how many column is null查看缺失特征中缺失率大于5%的特征缺失列的可视化:这里缺失值很小,可以根据各列情况选择填充。另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。查看训练集测试集中特征属性只有一值的特征查看特征的数值类型有哪些,对象类型有哪些特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。类别型特征有时具有非数

2020-09-18 21:23:28 171

原创 天池金融风控-贷款违约预测

比赛链接:https://tianchi.aliyun.com/competition/entrance/531830/introduction因为这是一个金融风控专题的数据挖掘实战,在开始之前先引入一些预备知识。1.预备知识1.1预测指标本次竞赛用AUC作为评价指标,AUC为ROC曲线下与坐标轴围成的面积大小。分类算法常见的评估指标1、混淆矩阵(confused matrix)1.若一个实例为正类,预测也为正类,则为真正类TP(True Positive)2.若一个实例为正类,预测也为负类

2020-09-15 23:41:19 1088

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除