• 等级
  • 168208 访问
  • 290 原创
  • 39 转发
  • 9325 排名
  • 27 评论
  • 33 获赞

最新自然语言处理(NLP)四步流程:Embed->Encode->Attend->Predict

过去半年以来,自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式,该模式分为:embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来,并且剖析它在两个实例中的用法。 人们在谈论机器学习带来的提升时,往往只想到了机器在效率和准确率方面带给人们的提升,然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性帖子,就把...

2018-11-14 17:03:34

难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)

翻译:https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21   【导语】机器学习工程师 Michael Nguyen 在其博文中发布了关于 LSTM 和 GRU 的详细图解指南。博文中,他先介绍了 LSTM 和 GRU 的本质, ...

2018-11-11 18:23:24

单点登录原理与简单实现

别人实现的  GitHub:https://github.com/sheefee/simple-sso 一、单系统登录机制 1、http无状态协议   web应用采用browser/server架构,http作为通信协议。http是无状态协议,浏览器的每一次请求,服务器会独立处理,不与之前或之后的请求产生关联,这个过程用下图说明,三次请求/响应对之间没有任何联系   但这也同时意味着,...

2018-11-09 01:29:29

线性判别分析(Linear Discriminant Analysis)

线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子...

2018-11-03 18:39:28

[Machine Learning & Algorithm] 随机森林(Random Forest)

阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容 回到顶部 1 什么是随机森林?   作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销...

2018-10-15 12:18:59

LCS算法

个人分类: DP之 LCS 刚刚开始看这个算法,真的不是很懂,不过看了一个牛牛的博客,http://blog.csdn.net/v_july_v/article/details/6695482,觉得写得挺好,可以看看。  程序员编程艺术第十一章:最长公共子序列(LCS)问题 0、前言     程序员编程艺术系列重新开始创作了(前十章,请参考程序员编程艺术第一~十章集锦与总结)。回...

2018-09-13 22:28:26

字符串相似度算法(编辑距离算法 Levenshtein Distance)

在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录。 据百度百科介绍: 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。   例如将kitten一字转成sit...

2018-09-13 22:25:18

数据挖掘中所需的概率论与数理统计知识

数据挖掘中所需的概率论与数理统计知识   (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,...

2018-09-04 21:03:34

最大熵模型中的数学推导

     最大熵模型中的数学推导   0 引言     写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班。     10月26日机器学习班第6次课,邹讲最大熵模型,从熵的概念,讲到为何要最大熵、...

2018-09-04 21:01:47

case when then else end

sql case when then else end 查询生成统计列表: SELECT a.managecom, a.subtype, count(*) loadsucc, sum(case when a.state in ('4', '5', '6', '7', '8', '9') then 1 else 0 end) recogsucc, ...

2018-09-04 20:05:37

数据衰减的一些方法和比较

数据衰减的一些方法和比较 在计算机视觉实时应用中,有时候需要向云台发送一些数据,比如说角度,使之运动到相应的角度。但是考虑到有时候如果直接发送目标的相对角度,可能角度比较大,从而导致云台运动过于剧烈,此时考虑将发送的数据做一个衰减。 一般直接想到对发送的数据做线性衰减,比如说发送数据yaw: yaw /= 10; 1 这样做能达到目的,但是对于所有数据都做了相同的衰减,对于很小的数,...

2018-08-28 19:10:20

统计模型之间的比较

       HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每...

2018-08-28 12:06:34

标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较

出处:http://blog.csdn.net/zhoubl668/article/details/7787690 路径1-1-1-1的概率:0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 而实际上,在上图中,状态1偏向于转移到状态2,而状态2总倾向于停留在状...

2018-08-22 18:54:24

隐马尔可夫模型 最大熵马尔可夫模型 条件随机场 区别和联系

  隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法主要思想如下: HMM模型是对转移概率和表现概率直接建模,统计共现概率。 ...

2018-08-22 18:52:00

hanlp中的N最短路径分词

N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。 根据算法思想,当我们拿到一个...

2018-08-22 18:26:51

nlp一些好的会议

国际上的文本领域会议: ACL:http://acl2017.org/ 加拿大温哥华 7.30-8.4 EMNLP:http://emnlp2017.net/ 丹麦哥本哈根 9.7-9.11 COLING 等 国内会议: CCKS http://www.ccks2017.com/index.php/att/ 成都 8月26-8月29 SMP http://www.cips-smp.or...

2018-08-22 17:28:09

初学者如何查阅自然语言处理(NLP)领域学术

原文地址:初学者如何查阅自然语言处理(NLP)领域学术    资料作者:刘知远THU   昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写...

2018-08-22 12:04:39

Python——数组重组(flatten、flat、ravel、reshape、resize)

一、numpy.flatten一、numpy.flatten <span style="color:#000000"><code>ndarray.flatten(<span style="color:#000088">order</span>=<span style="color:#009900">'C'&

2018-08-20 16:07:44

机器学习系列之EM算法

机器学习系列之EM算法 我讲EM算法的大概流程主要三部分:需要的预备知识、EM算法详解和对EM算法的改进。 一、EM算法的预备知识 1、极大似然估计 (1)举例说明:经典问题——学生身高问题   我们需要调查我们学校的男生和女生的身高分布。 假设你在校园里随便找了100个男生和100个女生。他们共200个人。将他们按照性别划分为两组,然后先统计抽样得到的100个男生的身高。假设他们的身高...

2018-08-11 16:48:18

极大似然估计

极大似然估计         以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:   贝叶斯决策         首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:           其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,...

2018-08-07 15:07:25

Terry_dong

关注
  • 计算机软件/学生
  • 中国 广西 南宁市
奖章
  • 持之以恒