4 布丁咩咩

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 16w+

金融风控学习task04

4.3 模型相关原理介绍由于相关算法原理篇幅较长,本文推荐了一些博客与教材供初学者们进行学习。4.3.1 逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/491234194.3.2 决策树模型https://blog.csdn.net/c406495762/article/details/762624874.3.3 GBDT模型https://zhuanlan.zhihu.com/p/451458994.3.4 XGBoost

2020-09-24 22:39:52

金融风控task3 特征工程

首先对特征工程部分做一个大体的了解,包含以下几个部分:数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3sigema原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试特征编码one-hot编码label-encode编码特征选择1 Filter2 Wrapper(RFE)3 Embedded代码示例导入包并读取数据imp

2020-09-21 21:54:41

金融风控-task 2 数据分析

目的:1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备2.1 学习内容数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关

2020-09-16 20:16:09

天池金融风控—task1赛题理解

天池风控新人赛–赛题理解1.1 比赛和数据比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。数据包括80w训练集和40w测试集,包含47个变量,其中15个为匿名变量。提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。1.

2020-09-15 19:23:17

支持向量机

思考与讨论1.什么是支持向量假设超平面(w,b)(w,b)(w,b)能将训练样本正确分类,即对于(xi,yi)∈D(x_i,y_i)\in D(xi​,yi​)∈D,若yi=+1y_i=+1yi​=+1,则有wTxi+b>0w^Tx_i+b>0wTxi​+b>0;若yi=−1y_i=-1yi​=−1,则有wTxi+b<0w^Tx_i+b<0wTxi​+b<0.令wTxi+b≥+1,yi=+1wT+xi+b≤−1,yi=−1w^Tx_i+b\geq +1,y_i=+

2020-08-26 22:23:49

基于决策树的分类预测

决策树原理决策树是一种常见的分类模型。优点:具有很好地解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。缺点:模型容易过拟合,需要采用减枝技术处理。不能很好利用连续型特征。预测能力有限,无法达到其他强监督模型效果。基于企鹅数据集的决策树实战思考与讨论1.为什么说Boosting既可减小方差,又可减小偏差?①因为boosting是一个迭代算法,每一次都根据上一次迭代的预测结果对样本进行加权,所以

2020-08-22 21:38:58

逻辑回归

逻辑回归算法原理逻辑回归算法实践基于鸢尾花(iris)数据集的分类预测

2020-08-20 22:29:45

python基础 文件读写

【例】打开一个文件,并返回文件对象,如果该文件无法被打开,会抛出OSError。f = open('将进酒.txt')print(f)# <_io.TextIOWrapper name='将进酒.txt' mode='r' encoding='cp936'>for each in f: print(each)# 君不见,黄河之水天上来,奔流到海不复回。# 君不见,高堂明镜悲白发,朝如青丝暮成雪。# 人生得意须尽欢,莫使金樽空对月。# 天生我材必有用,千金散尽还复来。

2020-08-08 22:27:41

Python基础 datatime模块

datetime类如何创建一个dayetime对象import datetimedt = datetime.datetime(year=2020, month=6, day=25, hour=11, minute=23, second=59)print(dt) # 2020-06-25 11:23:59print(dt.timestamp()) # 1593055439.0dt = datetime.datetime.fromtimestamp(1593055439.0)print(

2020-08-07 22:38:53

python基础 类与对象 魔法方法

类与对象对象=属性+方法class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 legs = 4 shell = True mouth = '大嘴' # 方法 def climb(self): print('我正在很努力的向前爬...') def run(self): pr

2020-08-05 22:12:15

零基础入门NLP-Task6 基于深度学习的文本分类3

Transformer 原理我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Feed Forward Neural Network),每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。这里能看到Transformer的一个关键特性,每个位置的词仅仅

2020-08-04 20:24:40

Python基础 函数与Lambda表达式

函数定义def printme(str): print(str)printme("我要调⽤⽤户⾃定义函数!") # 我要调用用户自定义函数!printme("再次调用同一函数") # 再次调用同一函数temp = printme('hello') # helloprint(temp) # None函数参数位置参数默认参数def printinfo(name, age=8): print('Name:{0},Age:{1}'.format(name, age))printi

2020-08-02 17:56:20

python基础--字典集合序列

字典笔记参考:https://github.com/datawhalechina/team-learning-program/blob/master/PythonLanguage/09.%20%E5%AD%97%E5%85%B8.md集合https://github.com/datawhalechina/team-learning-program/blob/master/PythonLanguage/10.%20%E9%9B%86%E5%90%88.md序列https://github.com

2020-07-31 23:21:37

零基础入门NLP-TASK5基于深度学习的文本分类2

TextCNN#模型搭建self.filter_sizes = [2, 3, 4] # n-gram windowself.out_channel = 100self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True)for filter_size in self.filter_sizes])#前向传播pooled_outputs = []for i in

2020-07-31 23:05:27

python基础 列表元组

7 列表创建:x=[i for i in range(10)]print(x,type(x))#[0,1,2,3,4,5,6,7,8,9] <class'list'>x=[[0 for col in range(3)] for row in range(4)]print(x,type(x))#[[0,0,0],[0,0,0],[0,0,0],[0,0,0]] <class 'list'>增添元素向列表中添加元素有append(只接受一个参数)和extend两种

2020-07-28 22:44:00

零基础入门NLP-Task4基于深度学习的文本分类1

介绍Fast TextFast Text是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。首先进行fast text的安装方法一:电脑在本地的cmd输入pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fasttext方法二:参考:https://blog.csdn.net/qq_17814041/article

2020-07-27 23:10:42

零基础入门NLP-TASK3基于机器学习的文本分类

在处理自然语言问题时,需要将文字处理为计算机可以理解的语言,由于文本长度不定,因此需要进行词嵌入(Word Embedding)。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。常见词嵌入方法:one-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一

2020-07-25 22:36:21

python基础 异常处理

练习题猜数字游戏题目描述:电脑产生一个零到100之间的随机数字,然后让用户来猜,如果用户猜的数字比这个数字大,提示太大,否则提示太小,当用户正好猜中电脑会提示,“恭喜你猜到了这个数是…”。在用户每次猜测之前程序会输出用户是第几次猜测,如果用户输入的根本不是一个数字,程序会告诉用户"输入无效"。(尝试使用try catch异常处理结构对输入情况进行处理)获取随机数采用random模块。a=random.randint(0,100)k=1print('猜测0~100的整数')while 1:

2020-07-25 22:27:56

Python基础:条件和循环

4 条件语句4.1 if语句if expression: expr_true_suite① 只有条件表达式expression结果为真时才执行expr_true_suite代码块,否则继续执行紧跟在该代码块后面的语句。② 单个if语句中的expression条件表达式可以通过布尔操作符and,or,not实现多重条件判断。4.2 if-else语句if expression: expr_true_suiteelse: expr_false_suite如果if语句的条件表达式结果布尔

2020-07-23 22:18:22

零基础入门NLP-Task2数据读取与数据分析

数据读取数据的每一列都是以\t为分割的字符import pandas as pddata=pd.read_csv('train_set.csv',sep='\t')data.head()数据可视化与分析新闻长度分析train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].describe())每条新闻平均由907个字符构成,最短的长度为2,最长

2020-07-22 22:28:09

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。