2 青枫冥月

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 57w+

过拟合与交叉验证验证集

过拟合所谓过拟合,指的是模型在训练集上表现的很好,但是在交叉验证和集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(generalization)能力较差。从图中可以看出,图一是欠拟合,模型不能很好地拟合数据;图二是最佳的情况;图三就是过拟合,采用了很复杂的模型。最后导致曲线波动很大,最后最可能出现的结果就是模型对于未知样本的预测效果很差。在机器学习算法中,我们常常将原始数...

2020-04-12 16:06:17

模型保存与读取、包外样本

模型保存bst.save_model(‘demo.model’)包外样本oob参考1 : 包外样本可用于模型选择,例如确定最佳迭代次数参考2 : obbs估计等价于k折交叉验证,使用obbs作为测试集能大幅减少计算。参考3 : 包外估计的用途...

2020-04-12 00:05:21

XGBoost

XGBoost有两种方法建模训练1、使用xgboost原生库进行训练import xgboost as xgbfrom sklearn.metrics import accuracy_scoredtrain = xgb.DMatrix(f_train, label = l_train)dtest = xgb.DMatrix(f_test, label = l_test)param =...

2020-04-11 17:35:49

4.11交叉验证——K-fold和Stratified k-fold

参考来源:python中sklearn实现交叉验证在实验数据分析中,有些算法需要用现有的数据构建模型,如卷积神经网络(CNN),这类算法称为监督学习。构建模型需要的数据称为训练数据。模型的构建的过程中,也需要检验模型,辅助模型构建。所以会将训练数据分为两个部分,1)训练数据;2)验证数据。将数据分类就要采用交叉验证的方法。Stratified k-foldStratifiedKFo...

2020-04-11 16:59:37

4.9

1、sklearn中predict_proba用法(注意和predict的区别)predict_proba返回的是预测为各个类别的概率predict返回的是预测标签p=t1.predict_proba(X_test)p=t1.predict_proba(X_test)[:,1]#预测为1的概率=预测概率p=t1.predict(X_test)#预测标签...

2020-04-09 22:38:18

4.6

1、print整数(%d)、浮点数(%f)print('TP = %d' %TP)print('AUC = %.4f' %AUC)Stacking原理+代码网格搜索、自定义损失函数CNN在金融领域的应用:【传统特征衍生】从人人贷平台来看CNN 在金融科技领域的运用机器学习之金融风控实战(全网最全)...

2020-04-06 23:24:27

4.5

1、创建空列表#创建一个长度为3000,初始值都为0的列表:PD_pre=[0 for x in range(0,3000)]2、数据框添加两列、并加变量名#方法1:validationset['PD_pre']=PD_prevalidationset['PD_prediction']=PD_prediction#方法2#第一步定义字典c={"PD_pre" : PD_pre...

2020-04-05 23:43:20

4.4

1、新增一列trainset1['fold'] = 1 2、导入导出CSVtrainset1=pd.read_csv("E:/anaconda3/DATA/trainset1.csv")trainset.to_csv('C:/Users/Lenovo/Desktop/trainset.csv',index=False)3、数据框合并(默认axis=0)validationset=...

2020-04-05 00:33:33
勋章 我的勋章
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。