3 仰望星空的小狗

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 17w+

word2vec学习笔记之CBOW和skip-gram

文章目录1. Continuous Bag-of-Word Model(CBOW)1.1 One-word context(一个词的上下文)1.2 Multi-word context(多个词的上下文)2. Skip-gram model再上一篇学习笔记《word2vec学习笔记之概述》中介绍了word2vec提出的一些背景(当然,除了该篇文章中所说的一些向量化方法之外,在word2vec之后,...

2020-01-26 12:45:15

word2vec学习笔记之文本向量化概述

文章目录1. 文本向量化表示的发展历程1.1 one-hot1. 文本向量化表示的发展历程在NLP的处理中,我们需要讲文本输入到模型中处理,实现分类识别,文本生成或者翻译等工作。而模型是无法知道一个纯粹的文本是什么意思的,模型的输入只能是数字,比如连续型的小数或则离散的整数。而对于文本之类的无法直接用数字表示的数据可以通过一下几种方式处理。1.1 one-hot在机器学习中,我们经常使用该...

2020-01-25 14:59:53

决策树学习笔记

本文是学习周志华老师的《机器学习》以及其他相关博客之后进行概括和整理,以便自己将来能够快速回忆其决策树的相关内容。大家若想看更加详细的决策树相关知识,请参看《机器学习》总体概述本文通过脑图对决策树相关知识进行整理,目前整理了ID3,C4.5,CART以及决策树的剪枝处理等知识,而对于其他决策树的连续值和缺失值的处理以及多变量决策树的相关知识,后续再进行添加。ID3决策树是从根节点开始,...

2019-11-18 00:04:42

git学习笔记

之前学习git的时候都没有好好学,最近工作中逐渐需要使用git,因此打算稍微系统的学习一下。此次主要是学习廖雪峰老师的GIT教程并用xmind进行简单归纳0、知识点框架该廖雪峰的GIT教程中,主要按照以上几个内容进行讲解:创建版本库:介绍基础的创建版本库并提交文件的方法时光穿梭机:介绍如何版本的回退,撤销修改以及删除文件等方法远程仓库:介绍如何添加远程仓库以及从远程仓库克隆文件到本地...

2019-10-11 07:17:38

Google Python Style Guide学习笔记

最近发现一些规范的工作习惯真的太重要了,而规范的编码习惯对于程序员来说又是非常必要的,因此,对Google Python Style Guide进行学习并做一下笔记。python语言规则pylint工具pylint是一个好用的用于给python进行打分的工具,能够查找错误和代码风格问题。通过以下指令即可对py代码进行评分pylint test.py导入import在导入整个模块的时候...

2019-08-25 09:13:25

机器学习之模型评估指标学习笔记

前段时间工作中发现自己对模型评估指标中的AUC有点忘了,因此打算重新看一下然后写个博客记录一下。混淆矩阵和查全率,查准率首先简单介绍一下混淆矩阵,查全率(也叫做召回率,recall)和查准率(也叫做精确率,precesion)。在进行模型评估的时候,单单使用准确率accuracy(预测正确样本数/总样本数)有时候并不能很好的对模型进行评估。比如,在对日活或月活用户预测其购买商品概率并将比较有...

2019-05-03 15:22:00

矩阵乘法的几何理解

矩阵乘法对于一个向量aaaa=[−1,2]Ta=[-1,2]^{T}a=[−1,2]T当对向量aaa乘以一个矩阵BBB(4)B=[13−20] B=\begin{bmatrix} 1 & 3 \\ -2 & 0 \end{bmatrix} \tag{4}B=[1−2​30​](4)即(4)[13−20][−12]=[52]\begin{bma...

2019-05-03 08:35:30

python异常处理

在python程序执行过程中(在其他编程语言中也是一样),难免会由于各种意想不到的情况导致程序运行异常而报错。而这个时候就需要通过使用异常处理来对运行过程中出现的异常进行处理。try … except …try … except … 是异常处理中基本的模式。在正常的执行一段代码的过程中,当遇到异常的时候,程序就会报错而停止运行。如下a = 1b = 0c = a/bprint "fin...

2018-12-30 09:43:48

IRT模型学习小结

IRT模型学习小结关于IRT模型与IRT模型相对应的经典测量理论CCT。经典测量理论与项目反应理论在测量领域均占有重要地位。经典测量理论形成较早,但是经典测量理论却有一些难以克服的缺点:能力与观测分数之间的线性关系假设不合理。在经典测量理论中认为被试的能力与测试得到的分数是线性关系的,但是在实际情况中往往不程线性关系。比如我们在进行考试时,想要从50分考到60分很容易,但是想要从90分考...

2018-12-09 20:29:46

受限玻尔兹曼机与深度信念网络

1 受限玻尔兹曼机(RBM)1.1 RBM的结构RBM是无监督学习模型,有两个层的浅层神经网络,一个可见层,一个隐藏层,是一种用于降维、分类、回归、协同过滤、特征学习和主题建模的算法,它是组成深度置信网络的基础部件。 RBM的结构如下所示: 图1  RBM的前向运算图1  RBM的前向运算图1\space\space RBM的前向运算 ...

2018-03-05 11:02:00

批归一化Batch Normalization学习笔记

1 Batch Normalization(BN)的作用1.1 特征分布对神经网络训练的作用在神经网络的训练过程中,我们一般会将输入样本特征进行归一化处理,使数据变为均值为0,标准差为1的分布或者范围在0~1的分布。因为当我们没有将数据进行归一化的话,由于样本特征分布较散,可能会导致神经网络学习速度缓慢甚至难以学习。 用2维特征的样本做例子。如下两个图 上图中样本特征的分布为椭圆,...

2018-02-27 22:14:53

对抗生成网络(GAN)学习笔记

生成模型与判别模型判别模型:由数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型,即判别模型。判别方法关心的是对于给定的输入X,应该预测什么样的输出Y。 生成模型:由数据学习联合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作为预测的模型。该方法表示了给定输入X与产生输出Y的生成关系。如LR,SVM等均值直接根据输入样本的特...

2018-02-26 13:51:01

机器学习之损失函数学习总结

经验风险最小化与结构风险最小化经验风险最小化经验风险最小化模型如下: min1N∑i=1NL(yi,f(xi))" role="presentation">min1N∑i=1NL(yi,f(xi))min1N∑i=1NL(yi,f(xi))\min\dfrac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) 经验风险最小化的目标是使模型预测出来的结

2018-01-31 16:12:38

机器学习之优化算法学习总结

优化算法演化历程机器学习和深度学习中使用到的优化算法的演化历程如下: SGD –> Momentum –> Nesterov –> Adagrad –> Adadelta –> Adam –> Nadam 表1  优化算法演化过程及

2018-01-29 20:45:14

梯度下降法学习笔记

1 相关概念梯度——表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快。对于一元函数y=f(x),其梯度为∂y∂x,对于二元函数f(x,y),其梯度为(∂f∂x,∂f∂y)y=f(x),其梯度为\frac{\partial y}{\partial x},对于二元函数f(x,y),其梯度为(\frac{\partial f}{\partial x},

2017-11-18 21:56:40

语音识别的技术路线学习笔记

0 语音识别技术路线大致框图如上图所示,语音识别的大致过程可以分为以下几步: 1、语音输入——这个过程可以通过电脑上的声卡来获取麦克风中输入的音频信号,或者直接读取电脑中已经存在的音频文件; 2、音频信号特征提取——在得到音频信号之后,需要对音频信号进行预处理,然后对预处理之后的音频信号进程特征提取,MFCC是最常用的声学特征; 3、声学模型处理——把语音的声学特征分类对应到音素或字词这样的单

2017-10-27 00:56:13

模式识别——聚类分析 学习笔记

聚类分析相关概念聚类分析——对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类 聚类中,将样本根据相似程度进行分类,这个相似程度就是用样本特征之间的相似程度。把整个模式样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为模式相似性的测量依据,也就是将特征空间中距离较近的样本归为一类。 其中,特征的选择非常重要。当特征选少了,可能导致

2017-10-26 16:59:56

凸优化相关概念学习笔记

前言由于凸优化具有一些很好的性质,比如:凸问题中的局部最优解就是全局最优解凸优化理论中的拉格朗日对偶为凸优化算法的最优性与有效性提供了保证并且,在机器学习中的很多模型在先辈们的研究下,正好符合凸优化模型。在大多数优化问题中,只要转化为凸问题,那么基本上是可以解决的。凸优化问题中的基本概念与性质凸集的概念集合C内任意两点间的线段均在集合C内,则称集合C为凸集。任意x1,

2017-10-06 17:47:11

奇异值分解(SVD)学习笔记

在机器学习或数据分析中,有时样本数据会比较大,这样对计算机的内存会有很大的负担。此时,通过一些方法来提取数据中的主要成分,而忽略其中可以忽略不计的成分,将大大减少计算量。本文讲简单介绍奇异值分解(SVD)方法。

2017-09-30 15:51:00
勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。