M.〽-CSDN博客

原创机器学习入门——线性模型（1）

文章目录线性模型基本形式本文根据西瓜书与查阅资料所写。如有错漏请指出。线性模型基本形式西瓜书上的定义：给定由d个属性描述的示例x=(x1;x2;x3;… ;xd)x=(x_1;x_2;x_3;\dots;x_d)x=(x1;x2;x3;…;xd)，其中xix_ixi是xxx在第iii个属性上的取值，线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数，即f(x)=w1x1+w2x2+w3x3+⋯+wdxd+bf(x)=w_1x_1+w_2x_2+w_3x_

2020-09-26 11:02:12 208

原创机器学习入门——简介

文章目录机器学习简介发展历程基本术语模型评估与选择经验误差与过拟合评估方法调参与最终模型性能度量本文根据西瓜书以及查阅资料所写。机器学习简介简单的说，就是使用各种数学知识，将人的一些行为用数学解释出来，再通过计算机去复现。其实机器学习就是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类，更具体的说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果。机器学习的目标是使学到的函数很好地适用于“新样本”，而不仅仅是在训练样本上表现很好。学到的函数适用于

2020-09-16 16:41:15 237

原创 Kaggle泰坦尼克号预测——Last

整理了一下全部流程，写成了一个ipynb文件导入数据集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')##载入数据集data_path = 'D:/Now/Titanic/'train_data = pd.read_csv(data_path + 'train.

2020-08-28 18:46:19 322

原创时间序列 —— task06

学习总结时间序列规则https://www.jianshu.com/p/31e20f00c26f（时间序列规则法快速入门）这篇文章的确较为清晰易懂。感觉规则就像是特征，提取的特征越好，越准确，预测的效果就会越好。就类似于做特征工程。时间序列模型这章学习的很痛苦，要求有一定程度的数理统计基础，虽然刚上完数理统计的课，但是对于模型的理解还是要不断地查资料。然而到现在还是没能搞懂全部模型，只能理解个大概。ARMA模型：学习这个模型，可以看看知乎作者Jack Lee的几篇文章，B站视频AR

2020-08-25 23:22:35 126

原创 Kaggle泰坦尼克号数据可视化

matplotlibpython优秀的数据可视化的第三方库matplotlib库由各种可视化类构成，内部结构复杂，受MATLAB启发。matplotlib.pyplot是绘制各类可视化图形的命令字库，相当于快捷方式。import matplotlib.pyplot as pltplt.plot() 当输入的参数只有一个列表时，会将这个列表当做Y轴处理。X轴是该列表的索引，自动生成。当有两个以上参数时，按照X轴和Y轴顺序绘制数据点。plt.savefig() 将输出图形存储为文件，默

2020-08-25 23:02:18 1361

原创时间序列 —— task04

特征工程基于数据分析与探索提取潜在有价值的特征特征工程的重要性特征越好，模型的性能越出色特征越好，构建的模型越简单特征越好，模型的灵活性越强特征提取基于数据分析与探索提取箱型图分析点线图分析离散型特征很重要可用于设计规则易于模型拟合，xgboost、lightgbm、catboost等都以决策树为基模型便于理解便于做特征组合在推荐系统等领域很常见简单粗暴的特征组合方式简单粗暴的进行加、减、乘、除、log、exp等运算易于生成大量特征，但会

2020-08-24 23:17:28 102

原创时间序列 —— task03

时间序列模型一、时间序列预测模型时间序列分解时间序列是指将同一统计量的数值按其发生的时间先后顺序排列而成的数列常用按时间顺序排列的一组随机变量X1,X2,⋯Xt,⋯表示一个随机事件的时间序列，简记为 {Xt}时间序列的各种变化都可以归纳成四大类因素的综合影响- 长期趋势(trend)：会导致序列出现明显的长期趋势- 循环波动(circle)：会导致序列呈现出周期性波动- 季节性变化(season)：会导致序列呈现出和季节变化相关的稳定的周期波动.- 随机波动(immedia

2020-08-23 21:40:12 256

原创时间序列 —— task02

资金流入流出预测时间序列规则与baseline赛题：资金流入流出预测赛题地址：https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281925.0.0.158c7137tNEr5N赛题数据：竞赛中使用的数据主要包含四个部分，分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。时间序列规则很多比赛都可基于对背景的理解和数据分析获得有用规则，通过“if A then B“等方式

2020-08-22 23:36:38 124

原创 Kaggle泰坦尼克号 —— task02

特征工程一、特征提取test原本无Survived列，将其补齐test加到train尾部#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)test['Survived'] = 0train_test = train.append(test)Pclasspandas.get_dummiesget_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档train_test = pd.get_dummies(train_test,

2020-08-21 23:42:57 199

原创时间序列 —— task01

数据探索与分析赛题：资金流入流出预测赛题地址：https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281925.0.0.158c7137tNEr5N赛题数据：竞赛中使用的数据主要包含四个部分，分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。用户信息表用户信息表： user_profile_table 。总共随机抽取了约 3 万用户，其中部分用户在 2014 年 9 月份

2020-08-20 21:53:48 338

原创 Kaggle泰坦尼克号 —— task01

数据加载及探索性数据分析数据及背景：从Kaggle泰坦尼克号项目页面下载数据：https://www.kaggle.com/c/titanic在这次项目中，先在Kaggle上下载所需要的训练数据集和测试数据集，通过训练数据集分析什么类型的人能在这场灾难中生存下来，建立机器学习的模型，再使用这个模型预测测试数据集中所有人的生存情况。本次项目属于一个典型的二分分类问题，可以采用逻辑回归的方法建立机器学习模型。数据加载有两种方法：pd.read_csv()，pd.read_table()pd.rea

2020-08-19 23:51:23 208

原创自然语言处理实践（新闻文本分类）——task06

基于深度学习的文本分类BERT训练BERT (Bidirectional Encoder Representations from Transformers)：可以用于问答系统，情感分析，垃圾邮件过滤，命名实体识别，文档聚类等任务中，作为这些任务的基础设施即语言模型。BERT 的创新点在于它将双向 Transformer 用于语言模型，之前的模型是从左向右输入一个文本序列，或者将 left-to-right 和 right-to-left 的训练结合起来。实验的结果表明，双向训练的语言模型对语境的

2020-08-04 21:10:00 271

原创自然语言处理实践（新闻文本分类）——task05

基于深度学习的文本分类Word2vec + TextCNNWord2vec:

2020-07-31 22:49:24 455

原创自然语言处理实践（新闻文本分类）——task04

基于深度学习的文本分类1FastTextFastText结构简图：fasttext.supervised 参数如下:参数作用input_file训练文件路径（必须）output输出文件路径（必须）label_prefix标签前缀 default labellr学习率 default 0.1lr_update_rate学习率更新速率 default 100dim词向量维度 default 100ws上下文窗口大小 default

2020-07-27 20:52:56 177

原创自然语言处理实践（新闻文本分类）——task03

基于机器学习的文本分类TF-IDFTF-IDF算法是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。TF-IDF实践步骤，也即是一般的文本处理和模型训练步骤：1.获取原始文本内容信息。2.转换成纯小写，按空格把文章分成独立的词组成的list。3.去除噪音符号： [""","=","\","/",":","-","(",")",",",".","\n"]等4.去除停用词5.提取词干，把相近的词转换为标准形式，比如把文章中的go,going,went,

2020-07-25 21:57:29 343

原创自然语言处理实践（新闻文本分类）——task02

数据分析句子长度分析由赛题题目得知，赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据，其中数据最长的句子有57921个单词，数据最短的句子仅有2个单词。画出直方图如下，可以看到大多句子数据在1500~3000左右新闻类别分布统计每类新闻的样本个数，画出直方图可以0标签的新闻数量最多，根据标签数字的大小依次递减，可以看出该数据集分布不均匀。字符分布统计统计整个数据集中每个字符所出现的次数。由于内存无法支持全部数据的

2020-07-22 22:30:15 253

原创自然语言处理实践（新闻文本分类）——task01

自然语言处理实践（新闻文本分类）自然语言处理( NLP )是信息时代最重要的技术之一，也是人工智能的重要组成部分。NLP的应用无处不在，因为人们几乎用语言交流一切：网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来，深度学习方法在许多不同的NLP任务中获得了非常高的性能，使用了不需要传统的、任务特定的特征工程的单个端到端神经模型。在本课程中，学生将全面了解NLP深度学习的前沿研究。通过讲座、作业和最终项目，学生将学习设计、实现和理解他们自己的神经网络模型的必要技能。赛题理解赛题数据根

2020-07-21 17:09:26 335

原创 File类的一些常用方法

方法------------------------------------------------------ 说明boolean canExecute() 测试应用程序是否可以执行此抽象路径名表示的文件boolean canRead() 测试应用程序是否可以读取此抽象路径名表示的文件boolean canWrite() 测试应用程序是否可以修改此抽象路径名表示的文件int compareTo(File pathname) 按字母顺序比较两个抽象路径名boolean c

2020-07-02 00:05:02 232

原创天池——街景字符编码识别 5

错误：UnidentifiedImageError Traceback (most recent call last)<ipython-input-18-86fde20dfa30> in <module>() 2 model.load_state_dict(torch.load('/content/drive/My Drive/model.pt')) 3 ----> 4 test_predict_label =

2020-06-02 23:19:00 252

原创天池——街景字符编码识别 4

模型的训练与验证在前面选定了网络结构和训练方式后，我们就要开始训练我们的数据集。定义算法公式，也就是神经网络的前向算法。（前向算法的作用是计算输入层结点对隐藏层结点的影响，也就是说，把网络正向的走一遍：（输入层—->隐藏层—->输出层）计算每个结点对其下一层结点的影响。）定义loss，选择优化器，来让loss最小对数据进行迭代训练，使loss到达最小在测试集或者验证集上对准确率进行评估baseline中的前向传播在模型中已经定义了########前向传播算法def forw

2020-05-30 17:03:08 323

原创天池——街景字符编码识别 3

字符识别模型目前主流的模型有CNN（卷积神经网络），RCNN（region with CNN features），Fast-RCNN，Faster-RCNN，YOLO等等模型简介CNN : 卷积神经网络卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。是以卷积为核心的一大类网络。特点：由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化

2020-05-27 20:38:31 346

原创天池——街景字符编码识别 2

比赛地址：https://tianchi.aliyun.com/competition/entrance/531795/introduction学习内容：https://github.com/datawhalechina/team-learning/tree/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%

2020-05-23 18:45:25 179

原创天池——街景字符编码识别 1

比赛地址：https://tianchi.aliyun.com/competition/entrance/531795/introduction学习内容：https://github.com/datawhalechina/team-learning/tree/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%

2020-05-19 22:28:43 349 2

weixin_43332422的博客

原创机器学习入门——线性模型（1）

原创机器学习入门——简介

原创 Kaggle泰坦尼克号预测——Last

原创时间序列 —— task06

原创 Kaggle泰坦尼克号数据可视化

原创时间序列 —— task04

原创时间序列 —— task03

原创时间序列 —— task02

原创 Kaggle泰坦尼克号 —— task02

原创时间序列 —— task01

原创 Kaggle泰坦尼克号 —— task01

原创自然语言处理实践（新闻文本分类）——task06

原创自然语言处理实践（新闻文本分类）——task05

原创自然语言处理实践（新闻文本分类）——task04

原创自然语言处理实践（新闻文本分类）——task03

原创自然语言处理实践（新闻文本分类）——task02

原创自然语言处理实践（新闻文本分类）——task01

原创 File类的一些常用方法

原创天池——街景字符编码识别 5

原创天池——街景字符编码识别 4

原创天池——街景字符编码识别 3

原创天池——街景字符编码识别 2

原创天池——街景字符编码识别 1

原创 NumPy入门笔记2

原创 NumPy入门笔记

原创简单了解XML

原创动手深度学习笔记9

原创动手深度学习笔记 8

原创动手深度学习笔记 7

原创动手深度学习笔记 6

原创动手深度学习笔记5

原创动手深度学习笔记 4

原创动手深度学习笔记 3

原创动手深度学习笔记 2

原创动手深度学习笔记 1

国内各大机构镜像源地址

空空如也