1 zsffuture

尚未进行身份认证

如果你要做一件事,请不要炫耀也不要宣扬,只管安安静静的去做。因为那是你自己的事,别人不知道你的情况,也不可能帮你去实现。千万不要因为虚荣心而炫耀。也不要因为别人的一句评价而放弃自己的梦想。其实最好的状态,是坚持自己的梦想,值不值,时间是最好的证明。

等级
博文 108
排名 2w+

中文预处理过程(从原始数据到去特殊字符、分词、去停用词、词性标注、命名体识别、依存句法分析、语意角色标注)

这里使用的工具主要是pyltp,pyltp是语言技术平台(LanguageTechnologyPlatform,LTP)的Python封装。语言技术平台(LanguageTechnologyPlatform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效...

2019-06-24 20:17:55

正则表达式学习总结

importre'''re.match()函数原型:match(pattern,string,flags=0)pattern:匹配的正则表达式string:要匹配的字符串flags:标志位,用于控制正则表达式的匹配方式,值如下:re.I忽略大小写re.L做本地化识别re.M多行匹配,影响^和$元字符re.S是.匹配包括换行符在内的所有字符re.U...

2019-06-21 15:18:01

如何安装谷歌2019.6.7发布的TensorFlow 2.0 Alpha,这里贴出安装过程,并测试成功

前提需要大家翻墙的,安装好原来的TensorFlow,当然安装好conda。其实主要有三步:这里安装的cpu版本的,GPU类似的#CurrentstablereleaseforCPU-onlypipinstalltensorflow#PreviewnightlybuildforCPU-only(unstable)pipinstalltf-nigh...

2019-06-11 13:54:02

深入理解注意力机制(Attention Mechanism)和Seq2Seq

学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了。这篇文章整理有关注意力机制(AttentionMechanism)的知识,主要涉及以下几点内容:1、注意力机制是为了解决什么问题而提出来的?2、软性注意力机制的数学原理;3、软性注意力机制、Encoder-Decoder框架与Seq2Seq4...

2019-06-04 19:05:21

Keras中RNN、LSTM、GRU等输入形状batch_input_shape=(batch_size,time_steps,input_dim)及TimeseriesGenerator详解

最近在使用Keras进行项目实战时,在RNN这块迷惑了,迷惑就是这个输入数据的形状以及如何定义自己的输入数据,因此系统的学习了一下,把学习的总结一下,感觉会有很多人在这里迷惑,如果对你有帮助记得点赞哈。为了便于大家深入理解batch_input_shape=(batch_size,time_steps,input_dim)的意思,这里我们先从制作数据开始理解,这样效果更好,一旦这个学会,我们就...

2019-05-31 16:11:39

有序序列的二分查找、冒泡排序、归并排序算法实战解析

本节开始讲解一下几个简单的算法,原理都在那本书上,大家自己看吧,我就不做搬运工了,这里不同的是,我把vector接口函数单独拿出来进行测试了,深深的体会到算法的奥妙之处,等你深入理解了你会情不自禁拍案叫绝的,废话不多说,因为这都是前段时间自己的练习代码,有详细的注释,不理解的请好好思考和看书,这里就不细说了#include<iostream>#include...

2019-03-11 14:43:12

数据结构+算法+c++学习(写在前面)

本篇开始将开始更新算法方面的博客,其实应该是数据结构更多一些,我不知道大家是如何学习算法和数据结构的,就我目前的学习情况,简单的和大家说一下感受。本人研一时学校开设了算法这门课程,当时上这门课时也很用心的学习了,但是那时候的学习更多的是理解各个算法的原理,不懂数据结构方面的知识,更不会自己写算法,有时候遇到问题能想到可以使用某一个算法进行解决,但是就是自己写不出来,原因是没学数据结构,为什么这样说...

2019-03-07 10:09:00

2018年度总结和2019年度计划

回顾20182018这一年基本上按照2017年的预定计划完成了任务,制定的计划基本都完成了,少部分还在继续,期间收获了很多也失去了很多,得失在于自己的权衡,总体来说是收获的较多。2017年7月份开始系统学习AI方面的内容,之前一直在关注这个行业,因为和我的专业很相近,因此开始是从机器学习开始的,刚开始学习确实挺难的,这就需要个人的学习能力和理解能力以及学习安排了,同时也和个人的执行能力,自我管...

2019-01-06 15:37:40

2018年AI和ML(NLP,计算机视觉,强化学习)技术概述和2019年趋势

前面两篇主要介绍了基于深度学习的自然语言处理,这是去年以前的成果,下面这一篇是总结今年NLP的最新成果,大家可以看看,找到对应论文好好研究,当然这还是外国人写的,没办法,国内很少有人能总结的那么透彻,一是因为大多数都是学习者,而不是应用者,所以能全局把控整个AI界的研究动向并写出来的人很少,因此翻译过来供大家阅读参考:介绍在过去的几年里,人工智能爱好者和机器学习专业人员都在梦幻般地进行。...

2019-01-06 14:04:23

NLP--- 将改变你未来沟通方式的7种NLP技术(第二部分)

在第一部分中,我介绍了自然语言处理(NLP)领域以及为其提供支持的深度学习运动。我还向您介绍了NLP中的3个关键概念:文本嵌入(字符串的矢量表示),机器翻译(使用神经网络翻译语言),以及对话和对话(可以实时与人进行对话的技术)。在第2部分中,我将介绍另外4项重要的NLP技术,您应该注意这些技术,以跟上这一研究领域快速增长的步伐。技巧4:情绪分析人际交往不仅仅是文字及其明确的含义。相反,它是...

2019-01-05 14:38:41

NLP---将改变您在未来的沟通方式的7种 nlp 技术 (第一部分(附原始论文))

前面的那么多NLP算法大多数都是传统的自然语言处理的算法思想,还没和深度学习神经网络结合起来,本想打算开始更新一些基于深度学习的NLP处理方面的,在浏览国外博客时发现了一篇很好的文章,因此这里翻译一下,发到这里,大家先看看NLP是如何和深度学习结合在一起的,然后针对几个方向继续学习,后面也会简单介绍一下今年的NLP的进展,详细的细节本人打算在实战时在写,因为他的实用性太强了,单纯的讲解理论很乏味,...

2019-01-05 13:30:24

Word2Vec算法详解(CBOW和skip-gram算法详解)

这里发现了一篇很好的教程,因此就不写了,大家直接下载看就可以了,自己也偷偷懒,这篇文章对word2vec算法思想讲解的很透彻,很浅显易懂,这里对此表示感谢,当然你的英文比较好的情况下,可以直接看英文原文,这里大家百度即可,下面我上传这篇很好的中文详解的pdf文件:https://pan.baidu.com/s/1sK55jhd-VWc2vYORcVdbMw...

2019-01-04 13:51:41

Word2Vec算法详解(相关背景介绍)

本节开始将介绍几种比较前言的NLP算法,主要是和神经网络进行结合的,和深度学习进行结合的算法原理和思想,前面的NLP算法都是传统的经典NLP算法思想,都没有涉及到实战方面的,实战方面的我计划明年开始进行,所以这个系列的都是理论,本人一直很注重理论方面的学习,因为只有搞懂算法的原理你才有可能去改进去创新,本节开始讲解目前使用比较成熟效果比较好的算法即Word2Vec算法,这个算法,和神经网络很好的结...

2019-01-04 13:51:12

NLP ---文本情感分析

前面几节我们详细的研究了文本分析的相关算法,本节将简单介绍一下基于文本的情感分析方面的内容,本节更多是论述方面的内容,这个方向的算法基本都是我们前面学过的,原理就不详细的讲解了,如果有感兴趣的朋友可以自行查阅资料进行研究,这里就不在详细的讲解了,以后如果工作中遇到相关的在详细的研究一下,下面正式开始本节的内容:情感分析简述文本情感分析(SentimentAnalysis)是指利用自然语言...

2019-01-03 10:34:46

NLP ---句法分析

句法分析是在计算机系统的基础上进行发展的,常见的句法分析应用有:计算机的翻译、文字的注释、一对一的问答系统、信息的自然摘录以及自动搜索等。如果对句法分析这一词不了解,那么一定知道文法分析,这是该定义不同的两个说法。句法分析说白了就是在一定规则的语法中,进行句子以及句法单位的自动识别,并按照规定输出识别。常见的汉语理解是分几个步骤的,一般都会包含待翻译文章的输入、文章词句的切分、词语属性分析标注、...

2019-01-03 10:33:05

NLP --- 词性标注

上前几节我们简单介绍了命名体识别的算法,其实主要的方法就是HMM和CRF了,因为可以转换为标注问题,这里都可以使用HMM和CRF,本节我们将介绍另外一个重要的知识点即词性标注,同样的在宗老师的书里都有详细的讲解,这里就简单的讲解一下,那么我们下面就开始:Part-of-speech,是重要的基础性工作,为后续的句法分析等进一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”...

2019-01-02 11:07:24

NLP --- 文本分类(基于LDA的隐语意分析训练算法详解)

上一节详细介绍了什么是LDA,详细讲解了他的原理,大家应该好好理解,如果不理解,这一节就别看了,你是看不懂的,这里我在简单的叙述LDA的算法思想:首先我们只拥有很多篇文本和一个词典,那么我们就可以在此基础上建立基于基于文本和词向量联合概率(也可以理解为基于文本和词向量的矩阵,大家暂且这样理解),我们只知道这么多了,虽然知道了联合概率密度了,但是还是无法计算,因为我们的隐分类或者主题不知道啊,在...

2019-01-01 13:35:31

NLP --- 文本分类(基于LDA的隐语意分析详解)

前几节我们分析了向量空间模型(VSM)、基于奇异值分解(SVD)的潜语意分析(LSA)、基于概率的潜语意分析(PLSA)这些模型都是为了解决文本分类问题,他们各自有自己的优点和缺点,其中VSM模型简单方便但是容易造成维度爆炸和计算量慢的缺点,LSA是基于矩阵分解的原理进行分析的,优点是对VSM有效的降维,但是计算量还是很大,因此引入了PLSA,该优点是完全避开了PSA的矩阵分解的计算问题,把其完全...

2018-12-31 14:28:38

NLP --- 文本分类(基于概率的隐语意分析(PLSA)详解)

上一节我们详细的讲解了SVD的隐语意分析,一旦提到这个,大家脑海里应该立刻有如下的矩阵形式:我们通过矩阵的分解对文本数据进行压缩,压缩量很可观,尤其是原始的矩阵的维度很高时压缩的更可观,因为k通常要远远小于n。如上图等号左边的矩阵其实就是我们的文本的词向量组成的,我们知道一篇文章的词是很多的,而且还是稀疏的,如果一旦文章数也很多,那么整个矩阵的元素会很大很大,但是通过矩阵分解就会减少很多。...

2018-12-30 12:48:49

NLP --- 文本分类(基于SVD的隐语意分析(LSA))

上一节我们详细的讲解了基于VSM的文本分类,这种分类在很早就出现了,虽然是文本分类中有效的分类手段,但是因为建立的向量是很多维的,因此容造成维度灾难,同时VSM的没有能力处理一词多义和一义多词问题,例如同义词也分别被表示成独立的一维,计算向量的余弦相似度时会低估用户期望的相似度;而某个词项有多个词义时,始终对应同一维度,因此计算的结果会高估用户期望的相似度。汉语用户倾向于频繁使用近义词显示“辞藻丰...

2018-12-29 13:06:16
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。