自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 NLP(二)文本生成 --VAE与GAN模型和迁移学习

NLP之文本生成原理(二)--VAE与GAN模型VAE与GAN模型1. Auto Encoder 自编码器1.1 结构1.2 核心思想1.3 损失函数1.4 Denoising Auto Encoder(降噪自编码器)2. Variational Auto Encoder (VAE)2.1 核心思想2.2 损失函数2.3 KL divergence(KL散度)3. GAN(generative adversarial networks)3.1 GAN结构与核心思想3.2 训练 GAN 的难点3.3 如何优化

2020-08-18 21:47:49 3489

原创 NLP(一)文本生成 --Sampling问题

NLP之文本生成原理(一)--Sampling问题NLP之文本生成原理(一)--Sampling问题1. Greedy Decoding1.1 Greedy Search1.2 Beam Search1.3 Greedy Decoding与Beam Search存在问题2. Sampling引入随机性2.1 随机Sampling(vocab(y~i~))2.2 随机Sampling存在问题2.3 top-k sampling2.4 Neucleus SamplingNLP之文本生成原理(一)–Sampli

2020-08-18 21:45:34 2964 1

原创 机器学习(十二)~条件随机场(CRF)

机器学习(十二)~条件随机场(CRF)机器学习(十二)~条件随机场(CRF)1. HMM要点1.1 两个假设1.2 三组参数2. MEMM要点2.1 核心思想2.2 存在问题3. 条件随机场(CRF)4. Liner-Chain CRF公式与解析5. CRF三大问题6. CRF应用机器学习(十二)~条件随机场(CRF)终于把CRF这关过了,查了好多资料,网上很多资料都模棱两可,看了还是不明就里,建议小伙伴们最好的方法还是老老实实啃论文、啃书,权威又有逻辑,条理清晰,看不进去书的小伙伴们,这篇博客希望可以

2020-08-16 16:10:54 555

原创 PyTorch实战(X) - - 神经网络常见细节技巧

神经网络常见细节技巧定义模型时:initrange = 0.5 / self.embed_size self.out_embed = nn.Embedding(self.vocab_size, self.embed_size, sparse=False) self.out_embed.weight.data.uniform_(-initrange, initrange) //权重初始化的一种方法torch.bmm()为batch间的矩阵相乘(b,n,m)*(b,m,

2020-08-14 11:45:45 797

原创 项目实战(十) - - GPT-2实现文本生成

项目实战(十) - - GPT-2实现文本生成GPT-2实现文本生成1. Result 呈现2. GPT-2 VS BERT3. Self-Attention VS Masked Self-Attention4. SamplingGPT-2实现文本生成由于GPT-2主要基于Transformer的Decoder模块,前两节笔记中已将大部分要点详细介绍,本节更多的关注GPT-2不同的部分1. Result 呈现GPT-2实现文本生成的成果展现,给定一个输入,模型会将后续向量依次输出,从而生成句子子,理

2020-08-14 11:44:29 3705 3

原创 项目实战(九) - - Transformer实现与分析

项目实战(九) - - Transformer实现与解读1. Transformer简介2. Encoder-Decoder整体结构2.1 Transformer Encoder2.2 Transformer Decoder3. 核心技巧与代码解析3.1 Positional Encoding3.2 Self Attention Mechanism3.3 Multi-Head Self Attention3.4 残差连接3.5 Layer Normalization4. Transformer VS Seq

2020-08-08 14:54:15 2035 1

原创 项目实战(八) - - BERT实现与Fine-tuning

项目实战(八) - - BERT解读与Fine-tuning1. BERT简介2. 两个语言模型任务:2.1 完形填空Masked Language Model2.2 Next Sentence Prediction3. 细节技巧3.1 LOSS计算3.2 激活函数GELU4. 代码实现与解析5. Fine-tuning1. BERT简介BERT 全称为 Bidirectional Encoder Representation from Transformer,是 Google 以无监督的方式利用大量无

2020-08-06 19:02:46 1496

原创 项目实战(七) - - 机器翻译(二)Seq2Seq+Attention

PyTorch实战 - - 机器翻译(二)Seq2Seq+Attention1. 任务概述2. 算法流程3. 代码实现与解析1. 任务概述在上篇Seq2Seq的文章中我们介绍了怎么用encoder-decoder框架实现机器翻译任务,现在加上注意力机制2. 算法流程Encoder(x,x_len):return encoder_output,encoder_hidContext=encoder_output,context_len=x_lenDecoder(Context,context_le

2020-08-03 09:13:57 680

原创 项目实战(六) - - 机器翻译(一)Seq2Seq

PyTorch实战(六) - - 机器翻译(一)Seq2Seq1. 任务概述2. 算法流程3. 代码实现与解析1. 任务概述实现英文句子翻译成中文句子,除了机器翻译,seq2seq其实可以用在很多地方,例如自动对话机器人,文档摘要自动生成,图片描述自动生成等任务2. 算法流程①读取数据(英文句子,中文句子)②构建单词表、词编码③构造batch:按长度排序,每个batch内句长相似,pad补齐④定义模型⑤定义损失与优化⑥训练与评估3. 代码实现与解析读入中英文数据:[‘BOS’]+[t

2020-08-02 22:29:51 1056

原创 项目实战(五) - - 用三种神经网络实现文本分类(AVG/RNN/CNN)

PyTorch实战(五) - - 文本分类1. 任务概述2. 算法步骤3. 代码实现与解析3.1 Word Averaging模型3.2 RNN模型3.3 CNN模型1. 任务概述2. 算法步骤3. 代码实现与解析导入相关包数据预处理(分词,语料库,词编码)TEXT=data.Field(tokenize=tokenizer)LABEL = data.LabelField(dtype=torch.float)train_data,test_data=datasets.IMDB.split

2020-08-02 18:04:46 761

原创 项目实战(四) - - LSTM实现语言模型

PyTorch实战(四) - - 语言模型1. 任务概述2. 算法步骤3. 代码实现与解析3.1 导入相关包3.2 构造训练数据集3.3 定义模型3.4 定义loss function和optimizer3.5 训练步骤3.6 测试3.7 句子生成1. 任务概述根据上下文语境基于概率预测下一个词,通过对网络训练一定程度后,最后的模型参数可当成词向量使用2. 算法步骤构造数据集定义模型Layers:Embedding,LSTM,Linear训练与评估Loss:CrossEntropyLoss

2020-08-02 17:43:33 811

原创 项目实战(三) - - 实现词向量模型Word2vec

PyTorch实战 - - 词向量Word2vec1. 词向量模型--Word2vec2. 两种网络结构2.1 CBOW2.1.1 算法任务2.1.2 算法步骤2.2 Skip-gram2.2.1 算法任务2.2.2 算法步骤3. 如何优化4. 代码实现与解析4.1 导入相关包4.2 数据预处理4.3 定义Dataset与DataLoader4.4 定义模型4.5 训练4.6 Evaluate4.7 test -- 求最相似的n个词5. Word2Vec存在的问题在自然语言处理应用中,词向量作为深度学习

2020-08-01 11:10:28 1059 1

原创 项目实战(二) - - 搭建简单神经网络

PyTorch实战(二) - - 搭建简单神经网络1. PyTorc项目流程:2. 项目代码及解析1. PyTorc项目流程:①数据读取、转换、加载②将批量数据传入网络③计算损失④梯度清零⑤反向传播计算梯度2. 项目代码及解析// 导入相关包import torchimport torch.nn as nn// 随机创建一些训练数据N,D_in,H,D_out=64,1000,100,10x=torch.randn(N,D_in)y=torch.randn(N,D_out)

2020-07-31 18:58:01 321

原创 项目实战(一) - - PyTorch简介

PyTorch实战(一) - - PyTorch简介1. 为什么选择选择PyTorch?2. PyTorch安装验证3. 常用PyTorch库:3.1. 常用网络层3.2. 常用激活函数3.3. 常用损失函数4. PyTorch项目流程5. CUDA简介6. 张量1. 为什么选择选择PyTorch?①用途: PyTorch的计算图是动态的,而其他框架通常是静态的,许多深度学习领域的前沿研究都需要动态图或从动态图中获益 (计算图是用于描绘神经网络中张量的函数操作,通常用于计算优化神经网络权重所需的导数)

2020-07-31 18:48:50 744

原创 常见笔试编程数据结构(二)~ 链表类

数据结构(二)~ 链表链表*EASY1. ADT2. 删除链表中的节点,除了末尾节点,只允许访问要被删的节点3. 判定一个链表是否存在环4. 寻找循环链表中环的开始节点5. 删除链表倒数第N个节点(leetcode19)6. 链表分半¶7. 合并两个排好序的链表(leetcode21)8. 寻找两个链表的交叉口(leetcode160)9. 链表的插入排序10. 链表归并排序O(n lgn)--MergeSort11. Partition--QuickSort的第一步12. 反转链表(leetcode206

2020-06-28 13:44:54 190

原创 常见笔试编程数据结构(一)~ 数组与矩阵类

数组、矩阵与链表1. 数组和矩阵* EASY(1) 挖雷游戏(2) 矩阵0变换(3) 旋转数组(4) 反转字符串(5) 最大数(6) Plus One(7) leecode189 旋转数组(8) leetcode283 移动零(9) leetcode 566 重塑矩阵(10) leetcode 485. 最大连续1的个数(11) leetcode 645. 错误的集合(12) leetcode 697. 数组的度(13) leetcode 766. 托普利茨矩阵* ADVANCED2. 链表* EASY*

2020-06-28 13:42:49 6993

原创 常见面试题(二)~模型评估

面试题(二)~模型评估模型评估1 模型评估的局限性* 准确率的局限性* 精确率与召回率的权衡* 平方根误差的“意外”2 ROC曲线* 什么是ROC曲线?* 如何计算AUC?* ROC曲线VS P-R曲线?3 余弦距离* 结合你的学习和研究经历,探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?* 余弦距离是否是一个严格定义的距离?4 A/B测试的陷阱* 在对模型进行过充分的离线评估后为什么还要进行在线A/B测试?* 如何进行线上A/B测试?* 如何划分实验组和对照组?5 模型评估的方法* 在模型评估中,

2020-06-27 20:51:36 562

原创 常见面试题(一)~特征工程

面试题(一)~特征工程特征工程1 归一化* 为什么需要对数值类型的特征做归一化?2 类别特征* 在对数据进行预处理时,应该怎样处理类别特征?3 组合特征* 什么是组合特征?如何处理高维组合特征?4 文本表示* 有哪些文本表示模型?它们各有什么优缺点?5 Word2Vec(常用词嵌入模型)* Word2Vec是如 何工作的?它和LDA有什么区别与联系?6 图像数据不足时的处理方法* 图像分类时训练样本不足会有什么问题?如何缓解?特征工程1 归一化* 为什么需要对数值类型的特征做归一化?答:消除数据特征

2020-06-27 20:49:22 506 1

原创 深度学习(八)~神经网络正则化方法

深度学习(八)~神经网络正则化方法神经网络正则化方法1. L1和L2正则化2. 权重衰减(Weight Decay)3. Early Stopping4. Dropout5. 数据增强(Data Augmentation)6. 标签平滑(Label Smoothing)神经网络正则化方法在传统的机器学习中,提高泛化能力的方法主要是限制模型复杂度,比如采用L1和L2正则化等方式。而在训练深度神经网络时,特别是在过度参数化时,L1和L2的效果往往不如浅层机器学习模型中显著。因此训练深度学习模型时,往往还会使

2020-06-23 08:26:43 631

原创 深度学习(七)~神经网络常见优化方法

深度学习(七)~神经网络常见优化方法神经网络常见优化方法1. 神经网络为什么要优化?2. 优化什么?3. 梯度下降的方法(1). 梯度下降(2). 随机梯度下降(也称增量梯度下降法)(3). 小批量梯度下降4. 批量大小的选择5. 自适应学习率调整(1). Adagrad算法(2). RMSprop算法(3). Adadelta算法6. 梯度估计修正(1). 动量法(2). Nesterov加速度(3). Adam算法(4). 梯度截断7. 常用优化算法小结神经网络常见优化方法1. 神经网络为什么要优化

2020-06-23 08:25:43 2324

原创 深度学习(六)~注意力机制

深度学习(七)~注意力机制注意力机制1. 为什么要引入注意力机制?2. 注意力分类3. 注意力机制计算步骤4. Encoder-Decoder框架(1). RNN-Encoder阶段(2). RNN-Decoder阶段(3). Attention-Decoder阶段5. 注意力机制实现形式(1). 软性注意力(2). 硬性注意力(3). 键值对注意力6. Self-Attention7. Self-Attention如何应用注意力机制1. 为什么要引入注意力机制?①计算能力的限制要记住更多信息,

2020-06-13 21:33:51 1569

原创 深度学习(五)~ LSTM 与 GRU

深度学习(六)~基于门控的循环神经网络基于门控的循环神经网络1. 长短期记忆神经网络(LSTM)1. RNN vs LSTM2. LSTM工作机制(1).【LSTM前向传播】(2).【LSTM反向传播】2. 门控循环单元网络(GRU)1. GRU工作机制基于门控的循环神经网络1. 长短期记忆神经网络(LSTM)1. RNN vs LSTM参数学习过程中连乘项可能发生极大或极小的情况,从而影响最终结果,也即梯度消失与梯度爆炸问题LSTM采用了累加形式解决这一问题,但它的实现较复杂.与传统的循环神经

2020-06-12 12:59:20 1208

原创 深度学习(四)~循环神经网络

深度学习(六)~循环神经网络循环神经网络1. RNN训练流程2. 参数学习(1)【RNN前向传播算法】(2)【随时间反向传播算法(BPTT)】(3) 随时间反向传播算法(BPTT) VS 实时循环学习算法(RTRL)3. RNN应用:(1). 序列到类别模式(2). 同步的序列到序列模式(3). 异步的序列到序列模式4. 长程依赖问题(1). 梯度消失(2). 梯度爆炸5. 改进方案-基于门控的循环神经网络(1) LSTM(2) GRU循环神经网络1. RNN训练流程【RNN训练过程】a. 前向计算

2020-06-11 21:22:40 1060

原创 深度学习(三)~卷积神经网络

深度学习(五)~卷积神经网络卷积神经网络1. 卷积神经网络简介2. 卷积方式3. 卷积神经网络的层级结构4. 参数学习5. 几种典型的卷积神经网络:(1) LeNet-5①网络结构(2) AlexNet①网络结构②突破点(3) Inception网络:①突破点(4) 残差网络(ResNet):卷积神经网络1. 卷积神经网络简介卷积神经网络是一种深层前馈神经网络,比全连接前馈网络参数更少特点:1.局部连接 2.权值共享 3.汇聚这些特点使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性CNN

2020-06-11 21:21:05 477

原创 深度学习(二)~常用神经网络结构

深度学习(二)~常用神经网络结构常用神经网络结构1. 前馈网络(1) 全连接神经网络(FNN)(2)卷积神经网络(CNN)2. 记忆网络(1) 循环神经网络(RNN)(2) LSTM(3) GRU3. 图网络常用神经网络结构1. 前馈网络特点: 每一层神经元接收前一层神经元的输出,相当于有向无环图实现方式:前馈网络包括全连接前馈网络和卷积神经网络(1) 全连接神经网络(FNN)**特点:**每一层是全连接层—即每一层的每个神经元与上一层所有神经元都有连接;作用:**a. ** 多个全连接层可

2020-06-11 21:18:49 788

原创 深度学习(一)~常见激活函数

深度学习(一)~常见激活函数常见激活函数1. Sigmoid型函数1. Logistic函数2. Tanh函数3. Hard-Logistic函数和Hard-Tanh函数2. ReLU函数(1). Leaky ReLU(2). 带参数的ReLU(即PReLU)(3). ELU函数(4). Softplus函数3. Swish函数4. GELU函数5. Maxout单元常见激活函数为了增强网络的表示能力和学习能力,激活函数须具备以下性质:(1) 连续并可导(允许少数点不可导)的非线性函数。可导的激活函数

2020-06-11 21:16:44 663

原创 机器学习(十一)~常见损失函数

常见损失函数1. 0-1损失函数2. 平方损失函数3. 交叉熵损失函数(负对数似然损失函数)4. Hinge损失函数5. 其他损失函数1. 0-1损失函数I(*)是指示函数评价:结果客观,但不连续且导数为0,难以优化2. 平方损失函数评价:一般不适用于分类问题3. 交叉熵损失函数(负对数似然损失函数)输出为各类别的条件概率分布交叉熵为:例如对于one-hot编码,一个样本的标签向量为y=[0,0,1]T,模型预测的标签分布为f(x;Θ)=[0.3,0.3,0.4]T,则交叉熵为

2020-06-08 21:15:02 311

原创 机器学习(十)~隐马尔科夫模型

隐马尔科夫模型1. 两个基本假设2. 三组参数3. 三个基本问题:4. 三类算法核心思路、区别与联系隐马尔科夫模型是关于时序的概率模型,通过隐藏状态→隐藏状态-观测的转移→观测,是生成模型1. 两个基本假设(1) 齐次马尔可夫性假设假设任意时刻的状态只依赖于前一时刻的状态,与其他时刻的状态无关,与时刻t无关(2) 观测独立性假设假设任意时刻的观测只依赖于该时刻的状态2. 三组参数初始状态概率矩阵π状态转移概率矩阵A输出观测概率矩阵B3. 三个基本问题:(1) 概率计算问题

2020-06-08 20:20:38 242

原创 机器学习(九)~聚类

机器学习(十三)~聚类1. 聚类1.1 相似度度量1.2 类特征1.3 类间距2. 原型聚类2.1 K-means2.2 学习向量量化2.3 高斯混合聚类3. 密度聚类4. 层次聚类4.1 三要素4.2 层次聚合聚类算法1. 聚类聚类既可用于发掘数据内在分布结构,又可作为其他学习任务的前驱过程(如提前探索有几种用户类型)1.1 相似度度量(1)闵可夫斯基距离(2)马哈拉诺比斯距离(3)相关系数(4)夹角余弦1.2 类特征类均值、类的直径、类的样本散布矩阵与样本协方差矩阵1.3 类间距

2020-06-02 21:23:51 180

原创 机器学习(八)~集成学习

机器学习(八)~集成学习1. 集成学习2. Boosting2.1 Boosting工作机制2.2 AdaBoost2.3 GBDT2.4 XgBoost2.5 小结3. Bagging3.1 自助采样法(Bootstrap)3.2 Bagging工作机制3.3 RandomForest3.4 小结4. 结合策略1. 集成学习集成学习通过将多个弱学习器结合,获得比单一学习器显著优越的泛化性能根据个体学习器的种类可分为同质集成与异质集成:同质集成: 同类型的个体学习器集成,例如“决策树集成”中全是

2020-05-27 07:45:31 244

原创 机器学习(七)~朴素贝叶斯

机器学习(七)~朴素贝叶斯1. 朴素贝叶斯模型2. 朴素贝叶斯法的参数估计2.1 极大似然估计2.2 朴素贝叶斯算法2.3 贝叶斯估计1. 朴素贝叶斯模型朴素贝叶斯是通过先验概率分布与条件概率分布学习到联合概率分布,从而计算后验概率分布,将后验概率最大的类作为类输出朴素贝叶斯法基本假设:条件独立性根据贝叶斯定理计算后验概率根据期望风险最小化准则得到后验概率最大化:优点: 高效,易于实现缺点: 条件独立性假设使算法简化,但分类性能不一定很高2. 朴素贝叶斯法的参数估计2.1 极大似

2020-05-27 07:15:49 176

原创 机器学习(六)~支持向量机模型

机器学习(六)~支持向量机1. 支持向量机模型2. 线性可分支持向量机2.1 原始问题2.2 对偶问题及求解2.3 线性可分支持向量机算法3. 线性支持向量机3.1 软间隔最大化3.2 对偶问题及求解3.3 线性支持向量机算法4. 非线性支持向量机4.1 核函数4.2 非线性支持向量机算法4.3 SMO(序列最小最优化算法)1. 支持向量机模型学习策略: 间隔最大化学习算法: 凸二次规划适用条件:当训练数据线性可分:线性可分支持向量机(硬间隔最大化)当训练数据近似线性可分:线性支持向量机(软间

2020-05-23 10:11:12 3029

原创 机器学习(五)~决策树算法

机器学习(五)~决策树算法机器学习(五)~决策树算法1. 决策树模型2.特征选择策略2.1 信息增益2.2 信息增益率2.3 基尼系数3.决策树算法3.1 决策树生成3.2 决策树剪枝3.3 CART算法机器学习(五)~决策树算法1. 决策树模型关键步骤: 特征选择、决策树的生成、决策树的修剪损失函数: 正则化的极大似然函数概率模型: 由于决策树表示一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型决策树的生成考虑局部最优,决策树的剪枝考虑全局最优常用算法: ID3、C4.

2020-05-18 18:28:01 645

原创 机器学习(四)~KNN算法

机器学习(四)~KNN算法1. KNN模型2.策略2.1 距离度量2.2 K值选择2.3 分类决策规则3.KNN算法3.1【构造KD树】3.2 【KD树的最近邻搜索】1. KNN模型KNN模型关键要素:k值的选取,距离度量的方式和分类决策规则思路: 对测试样本搜索训练集中最相似的K个样本进行多数表决法预测优点: 简单,没有训练过程,没有显式的学习过程缺点: 当特征空间的维度大和训练数据容量大时,线性搜索最近邻点的算法的时间效率很成问题解决办法: kd树实现、球树实现等(思路:使用特殊结构存储

2020-05-17 17:59:45 453

原创 机器学习(三)~感知机模型

机器学习(三)~感知机模型1. 感知机模型2. 感知机学习策略3. 感知机学习算法1)算法原始形式2)算法收敛性3)算法对偶形式1. 感知机模型感知机是一种线性分类模型,属于判别模型。2. 感知机学习策略适用条件: 数据集具有线性可分性当训练集线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡假设空间: 定义在特征空间中所有线性分类器,即函数集合{f|f(x)=w·x+b}损失函数:损失函数的自然选择是误分类点个数,但由于这样定义的损失函数不是关于w,b的连续可导函数,不易优化,因

2020-05-17 12:00:52 355

原创 机器学习(二)~模型分类与应用

机器学习(二)~模型分类与应用1. 监督学习、无监督学习与强化学习1.1 理解1.2 区别2.监督学习应用3.概率模型与非概率模型4.线性模型与非线性模型5.参数化模型与非参数化模型1. 监督学习、无监督学习与强化学习1.1 理解监督学习: 假设数据独立同分布,从标注数据中学习预测模型无监督学习: 输入数据没有被标记,也没有确定的结果。半监督学习: 利用少量标注样本和大量未标注样本辅助进行机器学习强化学习: 智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,它主要包含四个元素,agen

2020-05-17 10:17:18 818

原创 机器学习(一)~模型评估与选择 之 *正则化

机器学习(一)~模型评估与选择 之 *正则化目的: 正则化是为了防止过拟合,选择经验风险和模型复杂度同时较小的模型,进而增强泛化能力(能够很好的解释数据并且十分简单的模型就是最好的模型<奥卡姆剃刀原理>)在分析正则化之前,需要先了解下面两个问题:1)参数变稀疏有何优点?实现参数稀疏帮助模型进行特征选择,避免不重要特征对数据的干扰,增强泛化能力参数变少可以使整个模型获得更好的可解释性2)参数值变小变均匀有利于缓解过拟合吗?参数值较大,结果随特征变化敏感,会使得预测值在较小的空

2020-05-16 17:20:58 881

原创 机器学习(一)~模型评估与选择 之 *性能度量

机器学习(一)~模型评估与选择 之 *性能度量1.错误率与精度错误率和精度是分类任务中最常用的两种性能度量,既适用于二分类也适用于多分类错误率(error rate):分类错误的样本数占样本总数的比例准确率(accuracy):1 - 错误率例如:当损失函数是0-1损失时,测试误差/错误率etest 和准确率rtest 为:测试误差/错误率精度显然,etest + rtest = 12.查准率、查全率与F1错误率和精度虽常用,并不能满足所有任务需求,例如想知道挑出的多少瓜是好瓜

2020-05-15 13:20:11 398

原创 机器学习(一)~模型评估与选择 之 *数据集划分与调参

机器学习(一)~模型评估与选择 之 *数据集划分与调参1.训练集、测试集与验证集训练集: 模型训练数据测试集: 评估泛化能力验证集: 模型选择与调参为了研究对比不同算法的泛化性能,用测试集上的拟合效果来估计不同模型的泛化能力,而把训练集再分为训练集和验证集,基于验证集上的性能来进行模型选择和调参2.划分原则与方法原则: 训练集/测试集的划分应尽可能保持数据分布一致性,测试集应尽可能与训练集互斥,即未被同时用于训练,避免引入额外偏差影响最终结果留出法: 直接将数据集划分为两个互斥的集合,单

2020-05-15 11:20:21 1898 1

原创 机器学习(一)~模型评估与选择 之 *经验误差与过拟合

机器学习(一)~模型评估与选择 之 *经验误差与过拟合1. 错误率与准确率2. 泛化能力3. 偏差与方差4. 过拟合与欠拟合出现原因应对方案1. 错误率与准确率目的:得到泛化误差最小方法:由于测试集实现未知,只能通过经验误差来评估泛化误差错误率(error rate):分类错误的样本数占样本总数的比例准确率(accuracy):1 - 错误率例如:当损失函数是0-1损失时,测试误差/错误率etest 和准确率rtest 为:显然,etest + rtest = 12. 泛化能力误差

2020-05-14 22:42:10 436

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除