wwqauznii-CSDN博客

原创 Ensemble算法之GreedyEnsemble

前言我们常说三个臭皮匠顶个诸葛亮，在机器学习领域中将这个理念应用到极致的技术是boosting，将N多的弱分类器组合到一起，达到一个强分类器的效果，主流代表的算法就是xgboost，当然对于这种集成的思想，还有另外一个技术叫做ensemble，我们通过训练出不同算法的最优单模型，然后综合这些单模型的投票结果，输出最终结果。一般来说，ensemble技术主要有两个好处，可以进一步提升模型的性能可以有效降低单模型过拟合的风险本文将介绍一种非常高效的ensemble算法，-GreedyEnsembl

2021-12-08 17:52:56 585

原创 automl工具入门介绍

前言自动化机器学习已经被广泛应用于各种(跨)业务场景的模型构建，实验以及生产部署当中。automl领域中有各种各样的开源项目可以直接使用，本篇文章尝试对一些主流的开源框架进行介绍。autogluonhypergbmh2o automllightautomlFLAML备注：本篇文章的所使用的数据集为tabular-playground-series-may-2021数据集.import pandas as pd## load datatrain_data = pd

2021-12-07 18:08:25 1527

原创 automl中如何提升搜索效率

前言automl, 简单来说，就是将机器学习应用于现实问题的端到端流程自动化的过程，其产生的主要原因就是因为机器学习的应用需要大量的人工干预，这些人工干预表现在：特征分析、模型选择、参数调节等机器学习的各个方面。AutoML视图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习，使得机器学习模型无需人工干预即可被应用。参考paper:Automated Machine Learning Methods, Systems, Challenges.pdf换言之，不管是HPO，还是NAS，我们可

2021-11-29 15:55:43 1132

原创机器学习中的早停策略

前言在做机器学习模型调优的时候，往往会通过一系列的操作去提升调优效率，其中有一种技术就是合理运用早停策略。关于数据集：本文直接使用kaggle的数据集，你可以直接点击链接下载。一、入门1.验证集性能和迭代次数的关系我们这里选用lightgbm算法作为演示，随机选择了一些参数值，然后设置n_estimators=1000，接下来我们来看一下验证集的性能和n_estimators的关系。data = pd.read_csv('..\resource\data.csv',index_col=0)Y

2021-11-25 17:57:15 1820 2

原创机器学习中如何处理非数值型的特征

前言传统的机器算法一般处理的是结构化数据，而结构化数据中往往包含以下几种类别：传统的机器学习算法SVM，LR，lightgbm，xgboost等结构化数据类别Categorical，类别型变量Numeric，连续型变量Datetime，时间型时间变量Timestamp，时间戳型时间变量(本文不做讨论)Longitude and latitude，经纬度类型变量(本文不做讨论)一、类别型变量通常来说，传统的机器学习算法只能应对于连续型变量，也就是我们常说的全是数字的数据集，那

2021-11-25 14:29:28 3773

原创本地如何远程登录服务器端的jupyter notebook

前言jupyter notebook可以将代码和运行结果以网页的形式分享出去，同时方便中间调试(已经运行过的变量会保存到内存中，不需要要pycharm一样修改中间部分的代码逻辑需要重新运行一遍)，那么在服务器上装上一个notebook，然后本地电脑可以直接访问编程就显得尤为重要了。本文主要记录一下如何完成本地如何远程登录服务器端的jupyter notebook的具体步骤一、在服务器端安装jupyter notebook# 首先安装jupyterpip3 install jupyter -i ht

2021-11-24 18:07:06 559

原创 linux Guest账户下如何更新默认的python版本

前言服务器上的默认python版本是3.6.5，现在很多python的库都开始不支持3.7以下的python版本了，比如numpy1.20以上的版本就不支持，虽然可以直接用anaconda创建各种虚拟python版本的虚拟环境，这里还是尝试从源码安装的方式来更新一下 Guest账户下的如何更新默认的python版本。一、源码下载(以python3.7.11版本为例)首先登陆python官网下载python3.7.11版本的源码，然后解压到服务器上。二、源码安装python版本1. 进入python

2021-11-22 13:46:45 672

翻译机器学习之如何处理缺失值(missing value)

机器学习之如何处理缺失值备注：本次数据来源于kaggle，详情请戳here文章目录机器学习之如何处理缺失值一、介绍二、缺失值分布1. null值对每个feaure的影响2.读入数据总结一、介绍本EDA(Exploratory Data Analysis)的目的是为了探索数据集中的缺失值信息，旨在通过掌握缺失值的分布情况等信息，从而找到一种合适的方法填充缺失值，让模型有更好的性能。二、缺失值分布让我们来看一下null值在数据集中是如何分布的，明白了null值的分布规律在特征工程中是非常有用

2021-09-23 18:13:20 2527

原创 HyperGBM之进化搜索算法

HyperGBM学习笔记之进化搜索算法文章目录HyperGBM学习笔记之进化搜索算法一、什么是进化搜索算法？二、HyperGBM中的变异算法实现1. 构建进化搜索实例2. 变异算法实现3. 进化搜索算法整体流程三、HyperGBM变异算法性能测试一、什么是进化搜索算法？进化搜索算法是一种启发式的搜索算法，它的主要组成部分是：变异，重组，选择(包括父代的选择和淘汰样本的选择)的算法设计模块，针对不同的task，当我们完成变异，重组，选择模块的实现，那进化搜索算法的框架就算是搭建好了。如下图所示，

2021-09-18 15:38:38 1872

原创 HyperGBM之元学习器(meta_learner)

HyperGBM学习笔记之元学习器文章目录HyperGBM学习笔记之元学习器一、什么是元学习器？二、使用步骤1.引入库2.读入数据总结一、什么是元学习器？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warnin

2021-09-14 18:23:05 2175

原创 HyperGBM如何定义autoML的搜索空间

HyperGBM学习笔记之如何定义搜索空间文章目录HyperGBM学习笔记之如何定义搜索空间前言一、入门篇1. 定义需求2. 需求解析二、进阶篇1. 定义参数的搜索范围2.读入数据总结前言HyperGBM作为一款端到端全Pipeline的autoML开源框架，将数据imputer，特征预处理，模型选择，参数调优，模型ensemble/blending等ML建模的全生命周期步骤都作为了搜索空间中的搜索元素之一，真正意义上完成了端到端的模型构建，本文将带你一起去探索HyperGBM如何定义搜索空间。

2021-09-14 15:55:48 1125

原创 AutoML工具之HyperGBM介绍

HyperGBM介绍本文章主要是对autoML开源框架HyperGBM的一个介绍。文章目录HyperGBM介绍一、关于HyperGBM二、功能特性总览二、如何安装HyperGBM三、HyperGBM入门样例1. 准备数据集2. 创建实验并进行训练3. 保存模型4. 评价模型四、HyperGBM基础应用五、HyperGBM高级应用六、HyperGBM处理样本不均衡问题1. 利用ClassWeight建模2. 欠采样或过采样七、HyperGBM自定义搜索空间八、HyperGBM自定义建模算法一、关于

2021-09-13 14:49:28 3995

原创 HyperGBM自定义建模算法

HyperGBM实现了对XGBoost、LightGBM、CatBoost和HistGridientBoosting的支持，并作为SearchSpace的一部分在建模优化时进行搜索。如果您需要增加对其他算法的支持，则需要：将您选择的算法封装为HyperEstimator的子类将封装后的算法增加到SearchSpace中，并定义搜索参数在make_experiment中年使用您自定义的SearchSpace1. 封装HyperEstimator子类：以SVM算法为例：from sklearn

2021-09-13 14:36:49 1145

原创 HyperGBM自定义搜索空间(SearchSpace)

HyperGBM内部有自己默认的搜索空间，虽然默认的搜索空间可以解决绝大多数问题，但在实际运用中，存在需要我们针对项目特性本身建立自定义的搜索空间的情况，接下来从三个方面来进行介绍如何自定义自己的搜索空间。1. 设置参数为一个先验值针对某个项目，已经有了一些先验经验，所以可以直接设置某个参数为一个定值，比如指定catboost的bootstrap_type=‘Poisson’from hypergbm import make_experimentfrom hypergbm.search_space

2021-09-13 13:57:51 1245

原创 HyperGBM高级应用

1. 数据清洗：CompeteExeriment 的第一步就是利用Hypernets的DataCleaner进行数据清洗，此步骤不可禁用，但可通过参数对DataCleaner的行为进行调整，包括：nan_chars： value or list, (default None), 将哪些值字符替换为np.nancorrect_object_dtype： bool, (default True), 是否尝试修正数据类型drop_constant_columns： bool, (default True

2021-09-13 11:52:30 1190

原创 HyperGBM基础应用

1. 以缺省配置创建并运行实验：利用工具make_experiment可快速创建一个可运行的实验对象，执行该实验对象的run方法即可开始训练并得到模型。使用该工具时只有实验数据train_data是必须的，其它都是可选项。数据的目标列如果不是y的话，需要通过参数target设置。from hypergbm import make_experimentfrom hypernets.tabular.datasets import dsutilstrain_data = dsutils.load_blo

2021-09-13 11:14:57 1287

原创如何安装HyperGBM

安装HyperGBM：推荐使用pip命令来安装HyperGBM；如果您有Docker环境，也可以在Docker容器中安装并运行HyperGBM。使用pip：安装HyperGBM之前，您需要准备Python3.6或以上版本的运行环境并保证 pip 命令可正常运行。使用pip安装HyperGBM：pip install hypergbm可选的, 如果您希望在JupyterLab中使用HyperGBM, 可通过如下命令安装HyperGBM:pip install hypergbm[notebo

2021-09-13 10:39:29 1031

原创 AutoML领域的一把利器---HyperGBM

之前因为工作上的需求，需要做一个多分类模型来处理一个网站上的用户多分类问题，无奈自己当时对这个领域了解不多，不过也没办法，工作来了就得做，所以呢，就一步步的开始从数据预处理，特征分析，筛选，模型选择，模型调参优化进行尝试，好在最终也算是完成了工作(一个字，累啊)。现在回过头来看一下，是否当初可以有更好的选择呢？或者说有没有一个高效的autoML框架可以帮助我完成这些工作呢？接下来，就是想介绍这样一款满足我以上需求的开源autoML框架---[HyperGBM](https://github.com/D

2021-09-10 18:05:45 1597 3

ziqian的博客