自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【天池】金融风控-贷款违约预测(五)—— 模型融合

【天池】金融风控-贷款违约预测(五)—— 模型融合前言内容介绍stacking\blending详解代码示例总结前言【天池】金融风控-贷款违约预测(赛题链接)。上一篇进行数据建模和模型调参的介绍,主要介绍了金融风控领域常用的机器学习模型以及机器学习模型的建模过程与调参流程。本篇是将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果。内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果,往往模型相差越大且模型表现都不错

2020-09-28 09:46:52 731

原创 【天池】金融风控-贷款违约预测(四)—— 建模与调参

【天池】金融风控-贷款违约预测(四)—— 建模与调参前言内容介绍模型对比与性能评估代码示例总结前言【天池】金融风控-贷款违约预测(赛题链接)。上一篇特征工程时已经对特征工程以及分析方法的介绍,主要熟悉了特征预处理、缺失值、异常值处理、数据分桶等特征处理方法;特征交互、编码、选择的相应方法,并且对赛题的数据进行了数据预处理,特征工程处理。本篇将进数据建模和模型调参的介绍:金融风控领域常用的机器学习模型;机器学习模型的建模过程与调参流程。内容介绍逻辑回归模型:a. 理解逻辑回归模型;b.

2020-09-24 20:26:12 1493 1

原创 【天池】金融风控-贷款违约预测(三)—— 特征工程

【天池】金融风控-贷款违约预测(二)—— 特征工程前言内容介绍代码示例前言【天池】金融风控-贷款违约预测(赛题链接)。上一篇数据分析时已经对赛题进行了数据探索(EDA,Exploratory Data Analysis),主要熟悉了解整个数据集的基本情况(缺失值,异常值),了解了变量间的相互关系、变量与预测值之间的存在关系。本篇将进行各种特征工程以及分析方法的介绍:特征预处理、缺失值、异常值处理、数据分桶等特征处理方法;特征交互、编码、选择的相应方法。内容介绍数据预处理:a. 缺失值的

2020-09-21 16:34:00 1736 1

原创 【天池】金融风控-贷款违约预测(二)—— 数据分析

【天池】金融风控-贷款违约预测(二)—— 数据分析前言内容介绍代码示例总结前言【天池】金融风控-贷款违约预测(赛题链接)。上一篇赛题理解时已经对赛题背景、数据字段等进行了介绍。 本篇是数据分析部分,进一步了解数据,熟悉数据,为后续的特征工程做准备。一般的数据探索(EDA,Exploratory Data Analysis)目的如下:1、EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模;2、了解变量间的相互关系、变量与预测

2020-09-18 18:26:39 1693

原创 【天池】金融风控-贷款违约预测(一)——赛题理解

【天池】金融风控-贷款违约预测(一)——赛题理解赛题介绍赛题理解读取数据赛题介绍【天池】金融风控-贷款违约预测(赛题链接)赛题背景金融风控-贷款违约预测,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。数据介绍赛题以预测用户贷款是否违约为任务,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测

2020-09-15 21:27:19 1814

原创 【天池】资金流入流出预测(一)——赛题理解

【天池】资金流入流出预测(一)——赛题理解赛题介绍赛题介绍【天池】资金流入流出预测(赛题链接)。赛题背景蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。本赛题期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为。赛题描述余额宝用户的申购赎回数

2020-08-20 21:41:53 1846

原创 【NLP】天池新闻文本分类(一)——赛题理解

【NLP】天池新闻文本分类——赛题理解赛题介绍赛题数据评测标准赛题理解读取数据分析数据解题思路赛题介绍NLP之新闻文本分类挑战赛(赛题链接)。赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。赛题数据赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B

2020-08-20 10:57:38 2430 2

原创 【NLP】天池新闻文本分类(六)——基于深度学习的文本分类3

【NLP】天池新闻文本分类(六)——基于深度学习的文本分类2前言基于Bert文本分类前言本文是NLP之新闻文本分类挑战赛(赛题链接)。的第六篇:基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2,介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。本篇将介绍基于Bert的文本分类。基于Bert文本分类Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训

2020-08-04 16:17:17 528

原创 【NLP】天池新闻文本分类(五)——基于深度学习的文本分类2

【NLP】天池新闻文本分类(五)——基于深度学习的文本分类2前言Word2Vec文本法Word2Vec词向量TextCNN文本分类TextRNN文本分类HAN文本分类前言本文是NLP之新闻文本分类挑战赛(赛题链接)。的第五篇:基于深度学习得文本分类2。上一篇是基于深度学习的文本分类1,介绍了基于FastText的文本分类。本篇将介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。Word2Vec文本法Word2Vec词向量wor

2020-07-31 19:56:14 533

原创 【NLP】天池新闻文本分类(四)——基于深度学习的文本分类1

【NLP】天池新闻文本分类(四)——基于深度学习的文本分类1前言深度学习之FastText介绍基于FastText的文本分类采用分层交叉验证集调参前言本文是NLP之新闻文本分类挑战赛(赛题链接)。的第四篇:基于深度学习得文本分类1。上一篇是基于机器学习的文本分类,使用的是传统机器学习算法来实现新闻分类建模:介绍了几种文本的表示方法,如One-hot、Bag of words、N-gram、TF-IDF,并且通过sklearn分别实现了Count Vectors + RidgeClassifier、TF

2020-07-27 21:09:13 785

原创 【NLP】天池新闻文本分类(三)——基于机器学习的文本分类

【NLP】天池新闻文本分类(三)——基于机器学习的文本分类前言机器学习简介文本表示方法简介前言本文是NLP之新闻文本分类挑战赛(赛题链接)。的第三篇:基于机器学习的文本分类,将使用传统机器学习算法来完成新闻分类建模。前两篇分别为赛题理解、数据读取和数据分析。机器学习简介机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对

2020-07-25 22:17:45 824

原创 【NLP】天池新闻文本分类(二)——数据读取与数据分析

【NLP】天池新闻文本分类(二)——数据读取与数据分析前言数据读取数据分析前言NLP之新闻文本分类挑战赛(赛题链接)。其实上一篇赛题理解时已经做了数据读取和分析,因为一般在分析之后才对题目有初步理解。但为了流程完整性,还是做一篇独立的数据读取与分析,采用Pandas库实现。数据读取数据分析...

2020-07-22 13:48:22 918 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除