阿满子-CSDN博客

原创中文词库

开源中文词库THUOCL：清华大学开放中文词库

2017-08-08 08:41:42 4212

原创 RedHat安装tensorflow

安装过程中遇到了一些坑，简单记录一下。环境：Red hat Linux 6.4（之前安装了yum，基于操作系统自带的python2.6） tensorflow版本：tensorflow-0.12.0rc0-cp27-none-linux_x86_64.whl 1、yum安装 openssl、openssl-devel 2、安装zlib（zlib-1.2.8.tar.gz） 3、安装set

2016-11-02 09:09:31 3923

原创机器学习/深度学习数据集

MNIST创建人： Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Microsoft Research, Redmond 类型：手写数字数据库，深度学习入门级经典数据集数据量：60000，含10000条测试网站：http://yann.

2016-11-01 09:27:28 776

原创 Keras学习（一）

看见知乎上说Keras不错，基于Python的，后台是基于Theano或Tensorflow。安装环境：ubuntu14.04 首先，安装python环境、theano和kerassudo apt-get install python-numpy python-scipy python-dev python-pip python-nose g++ libopenblas-dev gitsudo

2016-10-20 16:33:08 3406

原创深度学习的一些演示项目

tensorflow http://playground.tensorflow.org/ ConvnetJS demo http://cs.stanford.edu/people/karpathy/convnetjs/ Neural Networks, Manifolds, and Topology http://colah.github.io/posts/2014-03-NN-Manif

2016-10-17 14:51:44 2224 1

原创 Tensorflow学习(一)

由于GFW的缘故，直接安装Tensorflow需要翻墙，选择了docker安装的方式，感谢国内极客学院提供了编译好的docker镜像，也可以下载另一个地方的docker镜像。1、安装tensorflow环境：ubuntu14.04+Docker1.6.2 第一步，安装ubuntu虚拟机。一定要安装14.04版本的。第二步，配置ubuntu的源，使用阿里云的源。sudo cp /etc/apt/

2016-10-14 09:48:41 567

原创深度学习框架PaddlePdddle学习( 二）

本篇文章将学习paddlepaddle一个sentiment analysis的例子。主要分为几步：一、下载imdb数据集并进行数据拷贝运行get_imdb.sh脚本。在虚拟机中用wget方式下载太慢了，我是直接在本机下载后，ftp上传到虚拟机的，稍微修改一下脚本即可。其中imdb是一个著名的互联网电影数据库，这里下载的是Stanford大学提供的数据语料。二、imdb数据集目录

2016-09-23 14:42:37 2097 2

原创深度学习框架PaddlePdddle学习( 一）

PaddlePaddle是百度开源的一个深度学习框架，按照其官网的文档进行了使用学习。这篇文章介绍其安装。 - 操作系统官网文档使用的操作系统是ubunt14.04，我使用的是VMware Workstation 12 Player安装的Ubuntu虚拟机，它与Redhat有一些不同，但配置比较麻烦，DNS配置及解析参考了一些资料。其实也可以使用Redhat安装，但其依赖包的安装非常麻

2016-09-23 14:07:08 4712

原创金融路演产品的几点理解

“路演”(Roadshow)是一个舶来词，是早期华尔街股票经纪人在马路边吆喝，兜售自己手中的债券，就像这样的情景：路演人要做的工作是，如何向别人推介产品，并尽量把产品卖出去。我们经常提到的路演集中在金融领域，特别是阿里巴巴在美国上市，马云做的路演吸引了亿万人的目光。若金融领域路演不好理解的话，可以看下面这个场景：虽然只是娱乐节目，但《非诚勿扰》就是一个典型的路演场

2016-05-11 15:38:15 6122

原创语料库

思路： -语料库有什么用，在统计机器学习中的地位，用图说明 -语料库的一些基本概念。如熟语料、生语料等。 -有哪些著名的语料库。人民日报语料库、WordNet等。 -如何构建语料库。主要是成本、规范。

2016-04-29 10:19:39 4764 1

原创当人工智能遇见金融财经

先写一下大致思路吧： -简述日常生活中的（弱）人工智能 -简要回顾人工智能的发展史，参考《人工智能狂潮》 -人工智能的子学科，参考文因互联的公众号文章 -金融财经领域，现在有哪些应用了。想象一下未来的情形。 -思考如何做准备

2016-04-29 10:15:32 875

原创 N-Gram语言模型

一、n-gram是什么wikipedia上有关n-gram的定义： n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item可以是音素（语音识别应用）、字符（输入法应用）、词（分词应用）或碱基对（基因信息）。一般来讲，可以从大规模文本或音频语料库生成n-gram模型。习惯上，1-gram叫unigram，2-gram称为bigram，3-gr

2016-04-28 13:07:53 46597 1

对于搞自然语言处理的人来说，google的word2vec是比较流行的词向量生成工具。一些开源框架，也集成了它，如JAVA语言的deeplearning4j,Python语言的gensim。对于大规模文字语料经word2vec训练后，可以得到wordvectors，即词向量，它用多维空间的点来表示一个词，因而可以通过计算向量的空间距离(Cosine )来衡量词的（语义）距离，如，与词“暴跌”语义相近

2016-04-27 13:49:05 1337

原创几款第三方分词工具

清华大学：THULAC[THULAC]（http://thulac.thunlp.org/），是由清华大学自然语言处理与社会人文计算实验室（该实验室带头人：孙茂松、刘知远、刘洋）研制推出的一套中文词法分析工具包。安装了其C++版，对北京大学语料进行了分词，如果不选择词性分析的话，单纯分词，需0.5s，同时利用打分脚本进行评测：=== SUMMARY:=== TOTAL INSERTIONS:

2016-04-22 17:15:22 8257

原创最短路径分词

最短路径分词的原理是：首先，对句子进行原子切分，然后根据大词典，构造一个有向无环图，俗称DAG(Directed Acyclic Graph)，每个可能分词对应DAG的一条边，每条边有一定的权重。因此，分词问题转化成了求DAG中起点到终点的最短路径问题。根据DAG边的权重特点，有两类分词方式：一种是，基于规则的，假设所有边的权重都一样（据说是汉语最少词表达出来的句子最合理，但缺乏严谨依据），

2016-04-21 16:10:31 3777

原创统计中分分词(CRF)

下面利用条件随机场的统计分词算法。第一步：工具包准备利用CRF++工具包，下载编译安装。同时，在其python目录下执行python包安装。第二步：语料准备还是利用backoff2005的熟语料进行加工，成为CRF++需要的语料格式，如： “ S 人 B 们 E 常 S 说 S 生 B 活 E 是 S 一 S 部 S ” 这里加工北京大学提供的训练语料(icwb2-data\

2016-04-21 14:37:16 1699

原创统计中文分词（最大熵）

在机器学习中，序列标注(Sequence labeling)是一种常见的模式识别任务，它用来给一组可观察对象打上状态（类别）标签。它可以解决NLP中的分词(Word Segement)、词性标注（Part-Of-Speech Tagging）、命名实体识别(Named Entity Recognition )等问题。常见的统计算法模型有：HMM、MEMM、CRF。下面介绍利用最大熵统计算法进行分

2016-04-08 09:31:05 3749

翻译 NLTK vs Sklearn vs Gensim

Generally, - NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.) - Sklearn is used primarily for machine learn...

2016-04-05 16:43:35 2620

ahmanz的博客