老三1987-CSDN博客

原创 task5_模型融合

方法：1、简单加权融合 2、stacking/blending 3、boosting/bagging1.代码示例1.1 回归\分类概率-融合1.1.1 简单加权平均，结果直接融合import numpy as npimport pandas as pdfrom sklearn import metrics## 生成一些简单的样本数据，test_prei 代表第i个模型的预测值test_pre1 = [1.2, 3.2, 2.1, 6.2]test_pre2 = [0.9, 3.1,

2021-03-28 21:20:32 148

原创 task4_模型调参

可以参考 https://zhuanlan.zhihu.com/p/258964754?utm_source=wechat_sessionimport pandas as pdimport numpy as npfrom sklearn.metrics import f1_scoreimport osimport seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ign

2021-03-25 21:24:10 329

原创 task3_特征工程

1、导入包并读取数据# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_features#时间序列特征处理工具 Tsfresh（TimeSeries Fresh）from tsfresh.utilities.dataframe_functions import impute# 数据读取data_train = pd.read_c

2021-03-22 11:23:31 183

原创 task2_数据分析

载入各种数据科学与可视化库#导入warnings包，利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import missingno as msnoimport pandas as pdfrom pandas import DataFrameimport matplotlib.pyplot as plt import seaborn as snsimport numpy as np载入训练集和测试集#导入训

2021-03-18 22:06:38 166

原创 Task01 赛题理解及baseline学习

import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgb#from catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor, LinearRegression, Ridgefrom sklearn.preprocessing i

2021-03-16 16:58:15 218 1

原创 task5：模型融合

模型融合的方式：平均：a. 简单平均法b. 加权平均法投票：a. 简单投票法b. 加权投票法综合：a. 排序融合b. log融合stacking:构建多层模型，并利用预测结果再拟合预测。blending：选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测。Blending只有一层，而 Stacking有多层boosting/bagging1 平均#简单平均pre=(pre1+pre2+pre3)/3#加权平均pre=0.1*pre1+0.3*pre2+

2020-09-27 21:53:54 70

原创 task4：建模与调参

目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程1 导入库import pandas as pd import numpy as np import warnings import os import seaborn as snsimport matplotlib.pyplot as plt """ sns 相关设置 @return: """ # 声明使用 Seaborn 样式 sns.set() # 有五种seaborn的绘图风格，它们分别是：d

2020-09-24 22:36:30 256

原创 task3：特征工程

目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime from tqdm import tqdm from sklearn.preprocessing import LabelEncoder from sklearn.featu

2020-09-21 23:56:17 1241

原创 task2：探索性数据分析（EDA）

目的EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.了解变量间的相互关系、变量与预测值之间的存在关系。为特征工程做准备import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snstrain_data=pd.read_csv('./数据/train.csv')test_data=pd.rea

2020-09-18 23:50:47 591

原创 task1：赛题理解

1 赛题理解赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。1.1 学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程1.2 赛题概况赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为

2020-09-15 22:12:05 180

原创 Task03：基于支持向量机的分类预测

1.什么是支持向量？答：样本中距离超平面最近的一些点，这些点叫做支持向量2.支持向量机的推导3.SVM的损失函数答：合页损失函数加上正则化项4.SVM的核函数有哪些，核函数的作用是什么？答：核函数的引入一方面减少了我们计算量，另一方面也减少了我们存储数据的内存使用量。常用核函数有：线性核函数、多项式核函数、高斯核函数5.硬间隔和软间隔答：硬间隔：完全线性可分；软间隔：允许个别样本点出现在间隔带里面（间隔内的那部分样本点也是支持向量）6.SVM可以做多分类吗，怎么做？答：可以7.SVM

2020-08-26 21:32:43 241

原创 Task02：基于决策树的分类预测

在决策树的算法中，建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有一下三种算法：ID3C4.5CART主要的区别就是选择的目标函数不同，ID3使用的是信息增益，C4.5使用信息增益率，CART使用的是Gini系数。信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高.熵H(Y)与条件熵H(Y|X)之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。DecisionTreeClassifier(c

2020-08-22 17:55:05 419

原创 Task01：基于逻辑回归的分类预测

逻辑回归模型的优劣势:优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类精度可能不高https://zhuanlan.zhihu.com/p/74874291与 SVM相同点都是分类算法，本质上都是在找最佳分类超平面；都是监督学习算法；都是判别式模型，判别模型不关心数据是怎么生成的，它只关心数据之间的差别，然后用差别来简单对给定的一个数据进行分类；都可以增加不同的正则项。不同点LR 是一个统计的方法，SVM 是一个几何的方法；SV.

2020-08-19 17:20:06 875

原创 task9-文件与文件系统

1 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需，文件路径（相对或者绝对路径）。mode: 可选，文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别

2020-08-08 17:32:40 171

原创 task8-模块与datetime模块

1 模块在前面我们脚本是用 Python 解释器来编程，如果你从 Python 解释器退出再进入，那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法，把这些定义存放在文件中，为一些脚本或者交互式的解释器实例使用，这个文件被称为模块（Module）。模块是一个包含所有你定义的函数和变量的文件，其后缀名是.py。模块可以被别的程序引入，以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。1.1 什么是模块容器 -> 数据的封装函数 -> 语句的封

2020-08-07 22:18:34 190

原创 task7-类、对象与魔法方法

1 类与对象1.1 对象 = 属性 + 方法对象是类的实例。换句话说，类主要定义对象的结构，然后我们以类为模板创建对象。类不但包含方法定义，而且还包含所有实例共享的数据。封装：信息隐蔽技术我们可以使用关键字 class 定义 Python 类，关键字后面紧跟类的名称、分号和类的实现。继承：子类自动共享父类之间数据和方法的机制多态：不同对象对同一方法响应不同的行动class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" #

2020-08-05 22:02:27 197

原创 task6-函数与lambda表达式

1 函数1.1 函数的定义函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串" function_suite return [expression]1.2 函数的调用def add(a,b): return a+ba=1b=2prin

2020-08-02 19:57:02 180

原创 task5-字典、集合和序列

1 字典1.1 可变类型与不可变类型序列是以连续的整数为索引，与此不同的是，字典以"关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值。字典是 Python 唯一的一个映射类型，字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢？两种方法：麻烦方法：用 id(X) 函数，对 X 进行某种操作，比较操作前后的 id，如果不一样，则 X 不可变，如果一样，则 X 可变。便捷方法：用 hash(X)，只要不报错，证明 X 可被哈希，即不可变，反过来

2020-07-31 16:10:37 288

原创 Task4：列表、元组和字符串

1.列表1.1 列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的 Python 对象，语法为 [元素1, 元素2, …, 元素n]。关键点是「中括号 []」和「逗号 ,」中括号把所有元素绑在一起逗号将每个元素一一分开1.2 列表的创建创建一个普通列表a=['x1','x2','x3','x4']print(a,type(a))['x1', 'x2', 'x3', 'x4'] <class 'list'>a=[12,24,36,48]prin

2020-07-27 22:07:33 166

原创 task3：异常处理

1.try-except 语句try: 检测范围except Exception[as reason]: 出现异常后的处理代码try 语句按照如下方式工作：首先，执行try子句（在关键字try和关键字except之间的语句）如果没有异常发生，忽略except子句，try子句执行后结束。如果在执行try子句的过程中发生了异常，那么try子句余下的部分将被忽略。如果异常的类型和except之后的名称相符，那么对应的except子句将被执行。最后执行try语句之后的代码。如果一个异

2020-07-25 19:49:28 133

原创 Task02：条件循环结构

1 条件语句1.1 if语句if 2>1 and 3>2: print('great!')输出结果：great!1.2 if - else 语句temp=int(input("猜一猜我口袋里有几颗糖，请输入："))if temp>=6: if temp==6: print('答对了！') else: print('大了大了！')else: print('小了小了！')输出结果：猜一猜我口袋里有几颗糖，请输入

2020-07-23 21:58:07 189

原创 Task 1: 变量、运算符、数据类型及位运算

这里写自定义目录标题1 变量、运算符和数据类型1.1 注释1.2 运算符1.3 变量和赋值1.4 数据类型与转换1.5 print函数1 变量、运算符和数据类型1.1 注释# 单行注释`#打印一个爱心print('❤')结果如下：❤''' ''' 或""" """，多行注释"""我要打印一个爱心第二个爱心第三个"""print('❤')print('❤')print('❤')结果如下：❤❤❤1.2 运算符算术运算符+ 加- 减* 乘\ 除\\

2020-07-22 15:00:57 135

原创西瓜书学习——第十二章计算学习理论

通过这周对西瓜书第十二章的学习，记录笔记如下：

2019-07-25 21:05:53 761

原创西瓜书学习——第十一章特征选择与稀疏学习

通过这周对西瓜书第十一章的学习，记录笔记如下：

2019-07-18 22:02:14 254

原创西瓜书学习——第十章降维与度量学习

通过这周对西瓜书第十章的学习，记录笔记如下：第十章降维与度量学习——2低维嵌入第十章降维与度量学习——3主成分分析第十章降维与度量学习——5流形学习第十章降维与度量学习——5流形学习...

2019-07-11 22:01:15 368

原创西瓜书学习——第九章聚类

通过这周对西瓜书第九章的学习，记录笔记如下：第九章聚类——3距离计算第九章聚类——4原型聚类第九章聚类——4原型聚类2第九章聚类——5密度聚类第九章聚类——6层次聚类...

2019-07-03 12:07:21 424

原创西瓜书学习——第八章集成学习

通过这周对西瓜书第八章的学习，记录笔记如下：

2019-06-27 22:01:33 583 1

原创西瓜书学习——第二章模型评估与选择

通过这周对西瓜书第二章的学习，记录笔记如下：第二章模型评估与选择——1经验误差与过拟合第二章模型评估与选择——2评估方法2第二章模型评估与选择——2评估方法3第二章模型评估与选择——3性能度量第二章模型评估与选择——3性能度量2第二章模型评估与选择——3性能度量3第二章模型评估与选择——3性能度量4第二章模型评估与选择——5偏差与方差...

2019-06-20 09:24:40 158

原创西瓜书学习——第七章贝叶斯分类器

通过这周对西瓜书第七章的学习，记录笔记如下：第七章贝叶斯分类器——极大似然估计第七章贝叶斯分类器——朴素贝叶斯分类器第七章贝叶斯分类器——朴素贝叶斯分类器2第七章贝叶斯分类器——半朴素贝叶斯分类器第七章贝叶斯分类器——贝叶斯网第七章贝叶斯分类器——贝叶斯网...

2019-06-13 16:27:14 302

原创西瓜书学习——第五章神经网络

通过这周对西瓜书第五章的学习，记录笔记如下：第五章神经网络——感知机与多层网络1第五章神经网络——误差逆传播算法1第五章神经网络——误差逆传播算法2第五章神经网络——误差逆传播算法3第五章神经网络——其他常见神经网络1第五章神经网络——深度学习1...

2019-06-06 16:23:07 419

原创西瓜书学习——第六章支持向量机

通过这周对西瓜书第六章的学习，记录笔记如下：第六章支持向量机——间隔与支持向量与对偶问题第六章支持向量机——对偶问题第六章支持向量机——软间隔与正则化第六章支持向量机——软间隔与支持向量回归...

2019-06-01 23:55:12 333

原创西瓜书学习——第四章决策树

通过这周对西瓜书第四章的学习，记录笔记如下：第四章决策树——基本流程and信息增益第四章决策树——增益率and基尼指数第四章决策树——连续值第四章决策树——缺失值...

2019-05-20 15:15:12 247

原创西瓜书学习——第一章绪论和第三章线性模型笔记

通过这周对西瓜书第一章和第三章的学习，记录笔记如下：第三章线性模型——线性回归第三章线性模型——对数几率回归第三章线性模型——线性判别分析...

2019-05-16 21:57:44 322

老三的博客