6 Scofield_Phil

尚未进行身份认证

RxNLP.

等级
TA的排名 1w+

概率图模型学习笔记:HMM、MEMM、CRF

概率图模型学习笔记:HMM、MEMM、CRF原创博客,转载请注明出处。From Scofield. RxNLP一、Preface二、Prerequisite    2.1 概率图         2.1.1 概览         2.1.2 有向图 vs. 无向图         2.1.3 马尔科夫假设&马尔科夫性     2.2 判别式模型 vs.

2018-01-29 15:00:57

各框架下(tensorflow, pytorch, theano, keras)实现几个基础结构神经网络(mlp, autoencoder, CNNs, recurrent, recursive)

学习笔记:各大神经网络框架下(tensorflow, pytorch, theano, keras)实现几个基础结构神经网络(mlp, autoencoder, CNNs, recurrentNN, recursiveNN)several basic neural networks[mlp, autoencoder, CNNs, recurrentNN, recursiveNN] impl

2018-01-19 16:09:43

scrapy爬取酒店评论数据

scrapy爬取酒店评论数据代码 here:GitHub:scrapy_hotel_review采用scrapy爬取酒店评论数据。总共有28W条记录。做某NLP任务,需要一些hotel reviews, 选择从www.booking.com搞一点数据来。 根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论

2018-01-19 15:35:08

NLP 工具包 大调查 自然语言处理工具包合集

NLP 工具包 大调查 自然语言处理工具包合集                可以想一想,如何你把NLP领域的所有的工具都能掌握的数如家珍,是不是很NB?必然的。                只用过这里面的一部分。。。                这份调查是基于使用语言差别来归纳的,别问我什么这么分类哈。。。一、多语言多环境编译1、THULA

2017-06-07 23:06:18

NLP 主题抽取 Topic LDA代码实践 gensim包 代码

NLP 主题抽取Topic LDA代码实践 gensim包 代码        分享一个代码实践:用gensim包的LDA模型实践NLP的一个典型任务,主题抽取。        顺带提一点,对于NLP任务,最好的方式就是先在代码上跑通起来,然后再进行理论深究,最后自己实现DIY学习模型算法框架。        顺带再提一点,跑通NLP或者ML任务,推荐在Python下用

2017-06-07 22:49:13

数据挖掘 NLP 之 文本挖掘 文本处理 通用流程

数据挖掘 NLP 之 文本挖掘 文本处理 通用流程  数据挖掘中的文本挖掘不论是对于企业应用,还是研究者工作,或者是参与数据竞赛项目,都是基础的工作。通过前面的一些实践工作,现总结出文本挖掘文本处理的通用流程。注意,这里的文本挖掘任务主要指的是如文本分类、文本聚类、信息抽取、情感分类等等的常规NLP问题。一、获取语料获取文本语料通

2017-06-07 22:18:52

从不同角度看机器学习的几种学习方式

从不同角度看机器学习的几种学习方式:1、在线学习与离线学习offline learning and online learning. In offline learning, the whole training data must be available at the time of model training. Only when training is c

2017-04-27 20:11:22

机器学习 数据挖掘 数据集划分 训练集 验证集 测试集

机器学习之数据集划分: 训练集 验证集 测试集Q:将数据集划分为测试数据集和训练数据集的常用套路是什么呢?A:three ways shown as follow:1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数:默认是把数据集的75%作为训练集,把数据集的25%作为测试集。2.交叉验证(一般取十折交叉验证:10-fold

2017-04-10 12:40:59

《数学之美》知识点详细总结

《数学之美》知识点详细总结From`RxNLP`Scofield未完待续         《数学之美》这本书在本科期间电子版上偶尔进行了翻阅,后来有时间了就完整的进行了阅读。出于老习惯,看完一本书后总会去总结书本的知识点层次框架,以更好地融入到原有的框架中。尤其是现入坑NLP,作为入门书,更应是好好吸收下。        评价:1、整本书的知识广度大于深度,

2017-04-05 17:15:32

DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)

DeepNLP的表示学习·词嵌入来龙去脉·深度学习(DeepLearning)·自然语言处理(NLP)·表示(Representation)词向量、wordembedding、分布式表示、word2vec、glove术语解释!自然语言处理表示学习词向量、word2vec无门槛理解!其实顺便分享下,在我个人的方法论思维中,一个带有完整上下文以及结构构建良好的知识框架,在某种程度上,比一些细枝末节的详细知识点来的重要的多了!因为,一旦构建了一个完备的知识结构框架,那么剩下你要做的是将一些零零碎

2017-04-04 20:48:33

[转发]机器学习资源大全

机器学习资源大全本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。

2017-04-03 11:05:28

pycharm 2017激活码 有效

pycharm 2017激活码 有效大家都知道,2016版的pycharm激活码都已经失效了,现在贴出2017版的激活码,亲测有效!43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpb

2017-03-18 21:43:49

python机器学习包 Windows下 pip安装 scikit-learn numpy scipy

python机器学习包 Windows10下 pip安装 scikit-learn numpy scipyrequirements:` windows10` python2.7` pip9.0.1` numpy` scipy` sklearn1  pip的安装1.1  下载pip下载地址是:https://pypi.python.

2017-03-18 21:21:33

自然语言处理(NLP)四步流程:Embed->Encode->Attend->Predict

过去半年以来,自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式,该模式分为:embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来,并且剖析它在两个实例中的用法。人们在谈论机器学习带来的提升时,往往只想到了机器在效率和准确率方面带给人们的提升,然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性帖

2017-03-14 19:42:53

python 函数参数:必选参数、默认参数、可变参数、关键字参数 和 命名关键字参数

python 函数参数:必选参数、默认参数、可变参数、关键字参数 和 命名关键字参数在 Python 中定义函数,可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数 5种参数形式。这 5 种参数都可以组合起来使用,但是注意,参数定义的顺序必须是:必选参数、默认参数、可变参数/命名关键字参数和关键字参数。def f1(a,b,c=0,*args,**kw)

2017-03-04 23:38:02

来扯扯分布式数据库系统DDBS设计啊

我来扯扯分布式数据库系统DDBS的设计注明:本文只是在完成一个高级数据库作业的文章,不能算是正儿八经登堂入室的paper,所以,不负责任哈,带坏小朋友不要找我哦 ^_~转载注明出处:Scofield's blog[  http://blog.csdn.net/scotfield_msn  ]一、   引入目前本人所确定的研究方向是自然语言处理、文本挖掘,实际

2017-03-04 21:01:41

TensorFlow RNN深度学习 BiLSTM+CRF 实现 sequence labeling 序列标注 源码

在TensorFlow(RNN)深度学习下BiLSTM+CRF跑sequencelabeling 双向LSTM+CRF跑序列标注问题去年底样子一直在做NLP相关task,是个关于序列标注问题。这 sequencelabeling属于NLP的经典问题了,开始尝试用HMM,哦不,用CRF做baseline,bytheway,用的CRF++。关于CRF的理论就不再啰

2017-03-04 20:32:54

python pandas 报错:TypeError: parser_f() got an unexpected keyword argument 'skip_blank_lines'

pythonpandas报错:TypeError:parser_f()gotanunexpectedkeywordargument'skip_blank_lines'在用pandas读取csv数据进行处理时,报了个错:pd.read_csv(train_path,delimiter='\t',quoting=csv.QUOTE_NONE,skip_bla

2017-03-04 19:24:16

ubuntu下 tensorflow 升级到 新版本 0.11.0版本

ubuntu 升级 tensorflow 到 0.11.0版本之前在ubuntu上安装的比较早的0.8版本的TensorFlow,现在遇到一些库的不兼容问题,所以得升级下tf包。1:确认最可升级的最高版本【https://www.tensorflow.org/versions/】,注意两点:a).你的平台是cpu 还是gpu    b).官方对应的版本有没有你的cp

2017-03-04 17:19:58

NLP 语料库 大全

此语料库清单包括了中文与英文,大家且看且珍惜……国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注

2017-03-04 16:46:42

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!