自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习入门——线性模型(1)

文章目录线性模型基本形式本文根据西瓜书与查阅资料所写。如有错漏请指出。线性模型基本形式西瓜书上的定义:给定由d个属性描述的示例x=(x1;x2;x3;… ;xd)x=(x_1;x_2;x_3;\dots;x_d)x=(x1​;x2​;x3​;…;xd​),其中xix_ixi​是xxx在第iii个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+w3x3+⋯+wdxd+bf(x)=w_1x_1+w_2x_2+w_3x_

2020-09-26 11:02:12 208

原创 机器学习入门——简介

文章目录机器学习简介发展历程基本术语模型评估与选择经验误差与过拟合评估方法调参与最终模型性能度量本文根据西瓜书以及查阅资料所写。机器学习简介简单的说,就是使用各种数学知识,将人的一些行为用数学解释出来,再通过计算机去复现。其实机器学习就是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果。机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于

2020-09-16 16:41:15 237

原创 Kaggle泰坦尼克号预测——Last

整理了一下全部流程,写成了一个ipynb文件导入数据集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')##载入数据集data_path = 'D:/Now/Titanic/'train_data = pd.read_csv(data_path + 'train.

2020-08-28 18:46:19 322

原创 时间序列 —— task06

学习总结时间序列规则https://www.jianshu.com/p/31e20f00c26f(时间序列规则法快速入门)这篇文章的确较为清晰易懂。感觉规则就像是特征,提取的特征越好,越准确,预测的效果就会越好。就类似于做特征工程。时间序列模型这章学习的很痛苦,要求有一定程度的数理统计基础,虽然刚上完数理统计的课,但是对于模型的理解还是要不断地查资料。然而到现在还是没能搞懂全部模型,只能理解个大概。ARMA模型:学习这个模型,可以看看知乎作者Jack Lee的几篇文章,B站视频AR

2020-08-25 23:22:35 126

原创 Kaggle泰坦尼克号 数据可视化

matplotlibpython优秀的数据可视化的第三方库matplotlib库由各种可视化类构成,内部结构复杂,受MATLAB启发。matplotlib.pyplot是绘制各类可视化图形的命令字库,相当于快捷方式。import matplotlib.pyplot as pltplt.plot() 当输入的参数只有一个列表时,会将这个列表当做Y轴处理。X轴是该列表的索引,自动生成。当有两个以上参数时,按照X轴和Y轴顺序绘制数据点。plt.savefig() 将输出图形存储为文件,默

2020-08-25 23:02:18 1361

原创 时间序列 —— task04

特征工程基于数据分析与探索提取潜在有价值的特征特征工程的重要性特征越好,模型的性能越出色特征越好,构建的模型越简单特征越好,模型的灵活性越强特征提取基于数据分析与探索提取箱型图分析点线图分析离散型特征很重要可用于设计规则易于模型拟合,xgboost、lightgbm、catboost等都以决策树为基模型便于理解便于做特征组合在推荐系统等领域很常见简单粗暴的特征组合方式简单粗暴的进行加、减、乘、除、log、exp等运算易于生成大量特征,但会

2020-08-24 23:17:28 102

原创 时间序列 —— task03

时间序列模型一、时间序列预测模型时间序列分解时间序列是指将同一统计量的数值按其发生的时间先后顺序排列而成的数列常用按时间顺序排列的一组随机变量X1,X2,⋯Xt,⋯表示一个随机事件的时间序列,简记为 {Xt}时间序列的各种变化都可以归纳成四大类因素的综合影响- 长期趋势(trend):会导致序列出现明显的长期趋势- 循环波动(circle):会导致序列呈现出周期性波动- 季节性变化(season): 会导致序列呈现出和季节变化相关的稳定的周期波动.- 随机波动(immedia

2020-08-23 21:40:12 256

原创 时间序列 —— task02

资金流入流出预测时间序列规则与baseline赛题:资金流入流出预测赛题地址:https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281925.0.0.158c7137tNEr5N赛题数据:竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。时间序列规则很多比赛都可基于对背景的理解和数据分析获得有用规则,通过“if A then B“等方式

2020-08-22 23:36:38 124

原创 Kaggle泰坦尼克号 —— task02

特征工程一、特征提取test原本无Survived列,将其补齐test加到train尾部#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)test['Survived'] = 0train_test = train.append(test)Pclasspandas.get_dummiesget_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档train_test = pd.get_dummies(train_test,

2020-08-21 23:42:57 199

原创 时间序列 —— task01

数据探索与分析赛题:资金流入流出预测赛题地址:https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281925.0.0.158c7137tNEr5N赛题数据:竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。用户信息表用户信息表: user_profile_table 。总共随机抽取了约 3 万用户,其中部分用户在 2014 年 9 月份

2020-08-20 21:53:48 338

原创 Kaggle泰坦尼克号 —— task01

数据加载及探索性数据分析数据及背景:从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic在这次项目中,先在Kaggle上下载所需要的训练数据集和测试数据集,通过训练数据集分析什么类型的人能在这场灾难中生存下来,建立机器学习的模型,再使用这个模型预测测试数据集中所有人的生存情况。本次项目属于一个典型的二分分类问题,可以采用逻辑回归的方法建立机器学习模型。数据加载有两种方法:pd.read_csv(),pd.read_table()pd.rea

2020-08-19 23:51:23 208

原创 自然语言处理实践(新闻文本分类)——task06

基于深度学习的文本分类BERT训练BERT (Bidirectional Encoder Representations from Transformers):可以用于问答系统,情感分析,垃圾邮件过滤,命名实体识别,文档聚类等任务中,作为这些任务的基础设施即语言模型。BERT 的创新点在于它将双向 Transformer 用于语言模型,之前的模型是从左向右输入一个文本序列,或者将 left-to-right 和 right-to-left 的训练结合起来。实验的结果表明,双向训练的语言模型对语境的

2020-08-04 21:10:00 271

原创 自然语言处理实践(新闻文本分类)——task05

基于深度学习的文本分类Word2vec + TextCNNWord2vec:

2020-07-31 22:49:24 455

原创 自然语言处理实践(新闻文本分类)——task04

基于深度学习的文本分类1FastTextFastText结构简图:fasttext.supervised 参数如下:参数作用input_file训练文件路径(必须)output输出文件路径(必须)label_prefix标签前缀 default labellr学习率 default 0.1lr_update_rate学习率更新速率 default 100dim词向量维度 default 100ws上下文窗口大小 default

2020-07-27 20:52:56 177

原创 自然语言处理实践(新闻文本分类)——task03

基于机器学习的文本分类TF-IDFTF-IDF算法是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。TF-IDF实践步骤,也即是一般的文本处理和模型训练步骤:1.获取原始文本内容信息。2.转换成纯小写,按空格把文章分成独立的词组成的list。3.去除噪音符号: [""","=","\","/",":","-","(",")",",",".","\n"]等4.去除停用词5.提取词干,把相近的词转换为标准形式,比如把文章中的go,going,went,

2020-07-25 21:57:29 343

原创 自然语言处理实践(新闻文本分类)——task02

数据分析句子长度分析由赛题题目得知,赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据,其中数据最长的句子有57921个单词,数据最短的句子仅有2个单词。画出直方图如下,可以看到大多句子数据在1500~3000左右新闻类别分布统计每类新闻的样本个数,画出直方图可以0标签的新闻数量最多,根据标签数字的大小依次递减,可以看出该数据集分布不均匀。字符分布统计统计整个数据集中每个字符所出现的次数。由于内存无法支持全部数据的

2020-07-22 22:30:15 253

原创 自然语言处理实践(新闻文本分类)——task01

自然语言处理实践(新闻文本分类)自然语言处理( NLP )是信息时代最重要的技术之一,也是人工智能的重要组成部分。NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用了不需要传统的、任务特定的特征工程的单个端到端神经模型。在本课程中,学生将全面了解NLP深度学习的前沿研究。通过讲座、作业和最终项目,学生将学习设计、实现和理解他们自己的神经网络模型的必要技能。赛题理解赛题数据根

2020-07-21 17:09:26 335

原创 File类的一些常用方法

方法------------------------------------------------------ 说明boolean canExecute() 测试应用程序是否可以执行此抽象路径名表示的文件boolean canRead() 测试应用程序是否可以读取此抽象路径名表示的文件boolean canWrite() 测试应用程序是否可以修改此抽象路径名表示的文件int compareTo(File pathname) 按字母顺序比较两个抽象路径名boolean c

2020-07-02 00:05:02 232

原创 天池——街景字符编码识别 5

错误:UnidentifiedImageError Traceback (most recent call last)<ipython-input-18-86fde20dfa30> in <module>() 2 model.load_state_dict(torch.load('/content/drive/My Drive/model.pt')) 3 ----> 4 test_predict_label =

2020-06-02 23:19:00 252

原创 天池——街景字符编码识别 4

模型的训练与验证在前面选定了网络结构和训练方式后,我们就要开始训练我们的数据集。定义算法公式,也就是神经网络的前向算法。(前向算法的作用是计算输入层结点对隐藏层结点的影响,也就是说,把网络正向的走一遍:(输入层—->隐藏层—->输出层)计算每个结点对其下一层结点的影响。 )定义loss,选择优化器,来让loss最小对数据进行迭代训练,使loss到达最小在测试集或者验证集上对准确率进行评估baseline中的前向传播在模型中已经定义了########前向传播算法def forw

2020-05-30 17:03:08 323

原创 天池——街景字符编码识别 3

字符识别模型目前主流的模型有CNN(卷积神经网络),RCNN(region with CNN features),Fast-RCNN,Faster-RCNN,YOLO等等模型简介CNN : 卷积神经网络卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。是以卷积为核心的一大类网络。特点:由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化

2020-05-27 20:38:31 346

原创 天池——街景字符编码识别 2

比赛地址:https://tianchi.aliyun.com/competition/entrance/531795/introduction学习内容:https://github.com/datawhalechina/team-learning/tree/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%

2020-05-23 18:45:25 179

原创 天池——街景字符编码识别 1

比赛地址:https://tianchi.aliyun.com/competition/entrance/531795/introduction学习内容:https://github.com/datawhalechina/team-learning/tree/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%

2020-05-19 22:28:43 349 2

原创 NumPy入门笔记2

CSV文件CSV : 逗号分隔值CSV是一种常见的文件格式,用来储存批量数据。CSV文件写入数据np.savetxt(frame,array,fmt=’%.18e’,delimiter=None)frame:文件、字符串或产生器,可以是.gz或.bz2的压缩文件。array:存入文件的数组。fmt:写入文件的格式,例如:%d %.2f %.18e(自然计数法保留18位小数...

2020-03-14 21:50:01 170

原创 NumPy入门笔记

NumpyNumpy是一个开源的python科学计算基础库一个强大的N维数组对象ndarray广播功能函数整合C/C++/Fortran代码的工具线性代数、傅里叶变换、随机数生成等功能Numpy是SciPy、Pandas等数据处理或科学计算库的基础。Numpy的引用:Import numpy as npNdarrayN维数组对象:ndarray数据对象可以去掉元素...

2020-03-11 22:17:24 130

原创 简单了解XML

XML:可扩展标记语言使用简单的标记来描述数据编辑器:-记事本-Dreamwaver-XMLspy-eclipse格式良好的XML文档A)声明信息,用于描述xml的版本和编码方式<?xml version=”1.0” encoding=”UTF-8”?>B)xml有且仅有一个根元素(元素-由开始标签、元素内容和结束标签组成)C)标签大小写敏感D)属性值用...

2020-03-08 22:16:40 347

原创 动手深度学习 笔记9

Transformer模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。Transformer同样基于编码器-解码器架构,与seq2seq的区别在于:Transformer blocks:将seq2seq模型重的循环网络替换为了Transformer Blocks,该模...

2020-02-18 21:21:05 292

原创 动手深度学习 笔记 8

机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。数据预处理将数据集清洗、转化为神经网络的输入minbatch。数据预处理的过程中,我们首先需要对数据进行清洗。分词字符串—单词组成的列表。建立词典单词组成的列表—单词id组成...

2020-02-18 21:09:30 305

原创 动手深度学习 笔记 7

循环神经网络进阶GRU(门控循环单元)门控循环神经网络,为了更好地捕捉时间序列中时间步距离较大的依赖关系。其中,门控循环单元(gated recurrent unit,GRU)是一种常用的门控循环神经网络,它引入了重置门(reset gate)和更新门(update gate)的概念,从而修改了循环神经网络中隐藏状态的计算方式。Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(Xt...

2020-02-18 19:48:30 101

原创 动手深度学习 笔记 6

梯度消失和梯度爆炸当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为 L 的多层感知机的第 l 层 H(l) 的权重参数为 W(l) ,输出层 H(L) 的权重参数为 W(L) 。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping) ϕ(x)=x 。给定输入 X ,多层感知机的第 l 层的输出 H(l)=XW(1)W(2)…W(l)...

2020-02-18 19:36:25 78

原创 动手深度学习 笔记5

模型选择、欠拟合和过拟合训练误差(training error):指模型在训练数据集上表现出的误差。泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。机器学习模型应关注降低泛化误差。模型选择1.验证数据集我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集...

2020-02-18 18:32:21 68

原创 动手深度学习 笔记 4

1. 文本预先(1)读入文本(2)分词(3)建立字典字典其实与python学习到的字典类似,都是建立列表(token) 与索引(index)之间的映射。使用字典,我们可以将原文本中的句子从单词序列转换为索引序列(4)现有的分词工具spaCy 和 NLTK这两个都是较为成熟的2.语言模型(1)基于统计的语言模型、基于神经网络的语言模型(用于评估一段给定的序列是否合理)n元法:n元...

2020-02-14 21:35:29 85

原创 动手深度学习 笔记 3

多层感知机的基本知识多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。ReLU函数ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。可以看出,ReLU函数只保留正数元素,并将负数...

2020-02-14 21:31:45 101

原创 动手深度学习 笔记 2

softmax与分类模型softmax回归softmax回归同线性回归一样,也是一个单层神经网络。由于每个输出 o1,o2,o3 的计算都要依赖于所有的输入 x1,x2,x3,x4 ,softmax回归的输出层也是一个全连接层。softmax公式的得出方法大概解释可以解释为:首先假设样本与理论标准函数的误差(类似于线性回归那一章中生成数据时叠加上的高斯误差)服从正态分布(高斯分布),并且不...

2020-02-14 21:19:16 112

原创 动手深度学习 笔记 1

第一天多谢伯禹提供了这样一个公益课程,能让我们学到很多。希望在这段时间能够很好的提高自己!第一天的内容主要是 线性回归、softmax与分类模型、多层感知器。线性回归首先导入需要的库,定义初始值。import torchimport time# init variable a, b as 1000 dimension vectorn = 1000a = torch.ones(n...

2020-02-14 21:03:13 117

国内各大机构镜像源地址

国内各种机构的镜像源网址,-i为一次性使用。有腾讯云、阿里云、清华大学等

2020-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除