Vico_Men-CSDN博客

原创 NLP最新进展之ELMo

文章目录词向量发展NNLMWord2vecGloveELMoELMo原理ELMo模型word embedding 和 word_char_embeddinghighway NetworkELMo源码ELMo应用　　说是NLP最新进展，其实已经是2018年的论文了。提出ELMo的论文《Deep contextualized word representations》获得NAACL 2018的bes...

2019-04-18 11:49:33 1739

原创数据结构之链表实现

　　本文基于Leetcode上Top Interview Questions、Top 100 Liked Questions中的链表部分和剑指offer上的链表算法题进行总结，同时大家也可以参考这篇博客，整理的很不错。1. Delete Node in a Linked List2. Linked List Cycle3. Linked List Cycle 24. Merg...

2018-05-02 10:46:03 673

转载 Tensorflow笔记系列基础用法

　　笔者在学习Tensorflow时，阅读了Tensorflow社区的教程和对应的github上的源码，下面的笔记是另外一位博主根据教程整理的笔记，值得推荐。　　由于Tensorflow也在不断的更新，里面的有些语法可能已经被抛弃，大家需要查看最新的写法。tensorflow笔记系列：（一） tensorflow笔记：流程，概念和简单代码注释（二） tensorflow笔记：多...

2018-04-25 16:20:37 468

原创 2018-暑期实习生-自然语言处理算法岗-面试题

　　随着三月初蚂蚁金服内推开启，整个暑期实习生招聘大幕也正式打开，这一场从三月初持续到之后五月的笔试面试过程，确实让笔者真真切切的感受到基础的重要性，面试和笔试不仅从机器学习，自然语言处理，数据结构与算法，高数概率论等方面考察，还包括智力题，逻辑题等。　　阿里巴巴一面： 1. 介绍项目（只针对自然语言处理项目询问，召回率、准确率如何）； 2. 深度学习如何提取query特征，如...

2018-04-21 12:19:04 14920 3

原创人机对话系统调研

　　随着人工智能的发展，人机对话系统在智能家居、智能助理等领域得到长足的发展。从前年开始，大量的智能音箱（天猫精灵，小米智能音箱等）开始出现在To C端，很多互联网公司将其视作新的入口不断布局，而在To B端，阿里小蜜、网易七鱼、微软的AI Solution等系统也在不断迭代完善。特别是近年来随着深度学习技术、自然语言处理技术和人工构造的知识库规模的提升，对话系统涌现出大量的研究成果和方法，本篇博...

2018-04-08 17:24:03 7016

原创浅析文本相似度

　　在自然语言处理(Natural Language Processing, NLP)中，经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中，如何度量句子或者短语之间的相似度尤为重要。为方便对知识的梳理，写下这篇博客对部分传统方法、词向量、深度学习方法进行总结，遗漏之处还请大家补充。　　度量文...

2018-03-17 22:12:29 39592 4

原创深度学习优化算法总结

　　本文基于目前深度学习中使用较多的优化学习算法进行总结。1 深度学习中的优化算法　　优化算法之前讨论两个问题：　　(1) 局部最小值问题　　在深度学习中，最优化问题其实并不容易困在局部最小值点。在高维度空间时（如20000维），局部最小值点需要在所有维度上都取得最小值，概率为2−200002−200002^{-20000}，相反更容易困在鞍点处。　　同时平稳端（plate...

2018-03-13 09:23:47 6124

原创从Machine Translation 到Sequence to Sequence(Seq2seq)、Attention、Pointer Network(prt network)

　　本文基于cs224n课程的Machine Translation部分和Michael Collins NLP的Machine Translation部分。从Tranditional MT介绍到SMT(statistical Machine Translation)，再到Sequence to Sequence 、Attention，并结合其中的几篇经典论文阐释，同时考虑到15年Google B...

2018-03-05 12:52:56 2077

原创理解RNN、LSTM、GRU和Gradient Vanishing

　　最近在学习cs224n: Natural Language Processing with Deep Learning课程时，对RNN、LSTM和GRU的原理有了更深一层的理解，对LSTM和GRU如何解决RNN中梯度消失（Gradient Vanishing）的问题也有了新的认识，于是写下本文。RNNGradient Vanishing减缓梯度消失防止梯度爆炸GRUL...

2018-03-02 15:02:04 11346

原创 NLP底层技术之语言模型

　　本文结合cs224n:Natural Language Processing with Deep Learning的Lecture 8、Lecture 9内容，从语言模型（Language Model）讲到N-Gram LM（N-Gram Language Model）再到RNN-LM（RNN-Language Model）。Language Model　　N-Gram Lang...

2018-03-01 20:46:04 1933

原创读《中美两位AI大师的“巅峰对话”：为何NLP领域难以出现“独角兽”？》

　　学习之余开设“自然语言处理杂谈”模块，一方面为了增加自然语言处理学习的兴趣；另一方面也为了了解一些业界的权威观点和实时的热点，并做以记录，以供日后回味。　　　　众所周知，在人工智能领域中，处于“感知智能”层面的计算机视觉和语音识别已经达到了新的高度，也在性能方面趋于饱和，而处于“认知智能”层面的语言理解却似乎没有达到这种高度，即使不考虑基础研究的困难，就算是现有的自然语言处理的基础研究...

2018-02-28 11:27:31 597

原创 NLP底层技术之句法分析

句法分析是自然语言处理（natural language processing, NLP）中的关键底层技术之一，其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。　　句法分析分为句法结构分析（syntactic structure parsing）和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析，被称为成分结构分析（co

2018-01-28 16:54:18 38937 3

原创深度学习相关总结

博客来源于本人在深度学习中的知识点总结，基于本人学习进度不定期更新。1、为什么相比于RNN，LSTM在梯度消失上表现更好？Reference： 1. http://blog.csdn.net/a635661820/article/details/45390671 2. http://blog.csdn.net/dark_scope/article/details/4705636

2018-01-14 12:17:12 1685

翻译基于Keras的LSTM多变量时间序列预测

本文翻译自Jason Brownlee的博客Multivariate Time Series Forecasting with LSTMs in Keras　　传统的线性模型难以解决多变量或多输入问题，而神经网络如LSTM则擅长于处理多个变量的问题，该特性使其有助于解决时间序列预测问题。　　　　在接下来的这篇博客中，你将学会如何利用深度学习库Keras搭建LSTM模型来处理多个变量的时...

2018-01-12 17:48:51 108024 117

原创深度学习第三课结构化机器学习项目第二周机器学习策略（二）笔记和作业

误差分析　　观察错误标记的例子，统计数量，并归纳出产生误差的类型，针对不同类型的问题和优先级进行分别处理。　　Incorrectly labeled examples. DL algorithm are quite robust to random errors in the training set. 　　深度学习对于训练集中随机误差具有较好的鲁棒性，但是不包括系统性的错误等。

2018-01-08 11:41:10 756

原创深度学习第三课结构化机器学习项目第一周机器学习策略（一）笔记和作业

ML的策略Example：搭建一个神经网络结构有很多可选择的ideas如何判断哪些ideas真的能起到效果判断系统性能优化指标大数据时代，测试集可以划分为更小的集合　　验证集和测试集的分布应该保持一致，因为在验证集上选取模型放在实际的应用上，需要在之间保持相关性，相反训练集和测试集之间存在分布不同并不是多大的问题，在一些情况下，对于数据集的划分，可以参考下图：

2018-01-08 11:32:08 525

原创深度学习第二课改善深层神经网络：超参数调试、正则化以及优化第三周超参数调试+Batch normalization笔记和作业

超参数调试处理策略超参数搜索的策略 1. 随机取值。　　网格搜索的问题在于：无法预先判断哪个参数是比较重要的，因此将浪费大量的运算在没有明细作用的变量上。 2. 精确搜索为超参数选取合适的范围　　对于如神经网络隐藏层数这类超参数可以采用平均取值，但是对于类似学习率和指数加权平均中的超参数β\beta 这类超参数需要采用对数平均取值。　　如对学习率取值时，学习率的

2018-01-05 17:18:06 1556

原创深度学习第二课改善深层神经网络：超参数调试、正则化以及优化第二周Ｍini_batch+优化算法笔记和作业

Mini-batch　　当采用mini-batch时，cost function持续减小，但是cost function减小的并不完全平坦，因为每个batch可能带来不同的下降方向和大小。　　当batch size 减小为1时，退化为SGD，此时将会丢失向量化处理的优势；　　当batch size增大到m时，此时为batch gradient descent，此时每次循环将会需要很

2018-01-05 16:47:44 1059

原创深度学习第二课改善深层神经网络：超参数调试、正则化以及优化第一周正则化笔记和作业

正则化通常而言，深度学习的Regularization 方法包括： 1. L2正则化 2. Dropout 3. Data Augmentation 4. Early stoppingL2 正则化“Weight decay” L2正则为什么会有效果，为什么会regularization？ 1. 当λ\lambda变大时，w[L]w^{[L]}变小，相当于很

2018-01-05 16:13:35 885

转载 (机器学习算法常用指标)准确率，召回率，F1 值、ROC，AUC、mse、mape评价指标

机器学习算法常用指标文章汇总（持续更新）：1、雪伦csdn：准确率，召回率，F1 值、ROC，AUC、mse,mape评价指标http://blog.csdn.net/a819825294/article/details/516992112、Poll的笔记：机器学习算法常用指标http://www.cnblogs.com/maybe2030/p/5375175.html...

2017-04-19 14:38:13 4195

原创 RF、GBDT、XGBoost面试级整理

由于本文是基于面试整理，因此不会过多的关注公式和推导，如果希望详细了解算法内容，敬请期待后文。　　　　RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。　　根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法

2017-04-17 10:01:40 62231 4

原创 PCA原理分析

无监督学习：数据没有附带任何标签，也即无监督学习的目标是找到数据的某种内在结构。降维：将数据从高维空间降低到低维，降维可见的优势包括：1、使得数据更容易使用；2、降低很多算法的计算开销；3、去除噪声（下面结合PCA再解释）；4、使得结果易懂。常见的降维方法包括但不限于： 1. PCA（Principal Compotent Analysis），主成分分析；2. 因子分析；3. 独立成分分析

2017-03-19 11:01:36 822

原创决策树算法汇总

针对最近学习的决策树模型的CART算法，做一个学习总结。1、CART、ID3和C4.5a) 以上三者都属于决策树模型　　决策树：一种基本的分类和回归的算法，以树形结构基于特征对实例进行分类的过程。　　决策树优点：1、决策树模型可读性好，有助于人工分析；2、效率高，只需一次构建就能反复使用。　　比较：决策树与朴素贝叶斯(NBC)是最为广泛使用的两种分类模型，朴素贝叶斯算法的基

2017-03-15 11:25:57 1127

原创线性回归的欠拟合、过拟合问题总结

针对最近在《机器学习实战》的线性回归中遇到的问题，做一个学习小结。一、欠拟合局部加权线性回归(LWLR)：1、在线性回归发生欠拟合的时候，在估计中引入一些偏差，降低预测的均方误差。2、我们给待预测的点附近的点一定的权重，而使得远离它的点权重较低3、非参数学习方法：（1）有参数学习方法是啥？eg：LR。在训练完所有数据之后得到一系列训练参数，然后根据训练参数来预测样本的值这时

2017-03-09 19:46:27 16573

原创机器学习-分类和逻辑回归

这里用到的数据是Andrew老师在coursera授课时作业中的数据，由于上传过程中公式格式有点乱，因此省掉了原理部分，具体的可以看Andrew老师的授课视频和讲义。两分类问题，特征值为学生的两门课考试成绩，y值0、1决定学生是否被学校录取。这里包含两端程序，都能实现功能。其中程序一没有采用matlab内建的fminunc函数，需要自己设定学习速率；程序二程序采用matlab内建的

2016-12-13 21:52:35 1885 3

原创数据结构与算法（单链表）

回忆线性表的定义，它就是一些元素的序列，维持着元素之间的一种线性关系。实现线性表的基本需要是：1、能够找到表中的首元素；2、从表里的任一元素出发，可以找到它的下一个元素。在上一篇中，把表元素保存在连续的存储区里（顺序表），自然可以满足这两点，其中元素间的顺序关联是隐含的。但是考虑到计算机内存的特点，为了满足以上两点，并不一定需要连续存储元素，基于对象之间的链接也可以看做一种顺序关联，基

2016-12-12 15:57:25 2709

原创数据结构与算法（线性表）

在程序中，经常需要将一组（通常是同为某个类型的）数据元素作为整体管理和使用，需要创建这种元素组，用变量记录它们，传入传出函数等。线性表就是这样一组元素（的序列）的抽象。一个线性表是某类元素的一个集合，还记录着元素之间的一种顺序关系。线性表是最基本的数据结构之一，在实际程序中应用非常广泛，它还经常被用作更复杂的数据结构的实现基础。Python语言的内置类型list和tuple都可以看做是线性表的

2016-12-08 09:37:53 742

原创数据结构与算法（绪论）

作为一个准程序员，在读本科的时候，就一直被老师不停的灌输数据机构与算法的重要性，但是好像我们从来就没遇到过真正棘手的需要通过数据结构去解决的问题，可能唯一再听到它的时候就是找工作实习的时候会被面试官提问，因此我们似乎觉得数据结构没那么重要，而且又因为各种编程语言，尤其是python，各种内建的数据结构好像是万能的，在运算量、内存占用等都没到一定程度的时候，好像所有的数据结构都能完成要求的功能。

2016-12-05 18:41:18 610 1

原创数据结构与算法（序）

博主在学习数据结构与算法时，参考的国内教材是裘宗燕老师的《数据结构与算法 python语言描述》，所以这系列的文章作为该书的学习笔记，将按照这本书的写作顺序，对其中重要的点摘写出来共同学习。

2016-12-04 22:18:32 540

原创序

犹豫了好久，终于决定开博客了！！真是普天同庆啊！！可是我最近看的就是数据机构与算法，天知道本科都没学好的这门课居然还拿来试水博客，真是贻笑大方！各位见笑了！写这篇文章之前，回想了一下本科四年，写过的唯一超过800字的文章大概发生在交入党申请材料的时候，太久没动笔写文章了，早已经没有高中作文信手拈来的排比和拟人，但是想想这些文章如果能够给日后的自己一点点学习的余味，同时也

2016-12-04 21:59:42 260

王琨的博客