自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ahmanz的博客

AI in Finance

  • 博客(18)
  • 问答 (4)
  • 收藏
  • 关注

原创 中文词库

开源中文词库THUOCL:清华大学开放中文词库

2017-08-08 08:41:42 4212

原创 RedHat安装tensorflow

安装过程中遇到了一些坑,简单记录一下。 环境:Red hat Linux 6.4(之前安装了yum,基于操作系统自带的python2.6) tensorflow版本:tensorflow-0.12.0rc0-cp27-none-linux_x86_64.whl 1、yum安装 openssl、openssl-devel 2、安装zlib(zlib-1.2.8.tar.gz) 3、安装set

2016-11-02 09:09:31 3923

原创 机器学习/深度学习数据集

MNIST创建人: Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Microsoft Research, Redmond 类型:手写数字数据库,深度学习入门级经典数据集 数据量:60000,含10000条测试 网站:http://yann.

2016-11-01 09:27:28 776

原创 Keras学习(一)

看见知乎上说Keras不错,基于Python的,后台是基于Theano或Tensorflow。安装环境:ubuntu14.04 首先,安装python环境、theano和kerassudo apt-get install python-numpy python-scipy python-dev python-pip python-nose g++ libopenblas-dev gitsudo

2016-10-20 16:33:08 3406

原创 深度学习的一些演示项目

tensorflow http://playground.tensorflow.org/ ConvnetJS demo http://cs.stanford.edu/people/karpathy/convnetjs/ Neural Networks, Manifolds, and Topology http://colah.github.io/posts/2014-03-NN-Manif

2016-10-17 14:51:44 2224 1

原创 Tensorflow学习(一)

由于GFW的缘故,直接安装Tensorflow需要翻墙,选择了docker安装的方式,感谢国内极客学院提供了编译好的docker镜像,也可以下载另一个地方的docker镜像。1、安装tensorflow环境:ubuntu14.04+Docker1.6.2 第一步,安装ubuntu虚拟机。一定要安装14.04版本的。 第二步,配置ubuntu的源,使用阿里云的源。sudo cp /etc/apt/

2016-10-14 09:48:41 567

原创 深度学习框架PaddlePdddle学习( 二)

本篇文章将学习paddlepaddle一个sentiment analysis的例子。 主要分为几步: 一、下载imdb数据集并进行数据拷贝 运行get_imdb.sh脚本。在虚拟机中用wget方式下载太慢了,我是直接在本机下载后,ftp上传到虚拟机的,稍微修改一下脚本即可。其中imdb是一个著名的互联网电影数据库,这里下载的是Stanford大学提供的数据语料。 二、imdb数据集目录

2016-09-23 14:42:37 2097 2

原创 深度学习框架PaddlePdddle学习( 一)

PaddlePaddle是百度开源的一个深度学习框架,按照其官网的文档进行了使用学习。 这篇文章介绍其安装。 - 操作系统 官网文档使用的操作系统是ubunt14.04,我使用的是VMware Workstation 12 Player安装的Ubuntu虚拟机,它与Redhat有一些不同,但配置比较麻烦,DNS配置及解析参考了一些资料。其实也可以使用Redhat安装,但其依赖包的安装非常麻

2016-09-23 14:07:08 4712

原创 金融路演产品的几点理解

“路演”(Roadshow)是一个舶来词,是早期华尔街股票经纪人在马路边吆喝,兜售自己手中的债券,就像这样的情景: 路演人要做的工作是,如何向别人推介产品,并尽量把产品卖出去。我们经常提到的路演集中在金融领域,特别是阿里巴巴在美国上市,马云做的路演吸引了亿万人的目光。若金融领域路演不好理解的话,可以看下面这个场景: 虽然只是娱乐节目,但《非诚勿扰》就是一个典型的路演场

2016-05-11 15:38:15 6122

原创 语料库

思路: -语料库有什么用,在统计机器学习中的地位,用图说明 -语料库的一些基本概念。如熟语料、生语料等。 -有哪些著名的语料库。人民日报语料库、WordNet等。 -如何构建语料库。主要是成本、规范。

2016-04-29 10:19:39 4764 1

原创 当人工智能遇见金融财经

先写一下大致思路吧: -简述日常生活中的(弱)人工智能 -简要回顾人工智能的发展史,参考《人工智能狂潮》 -人工智能的子学科,参考文因互联的公众号文章 -金融财经领域,现在有哪些应用了。想象一下未来的情形。 -思考如何做准备

2016-04-29 10:15:32 875

原创 N-Gram语言模型

一、n-gram是什么wikipedia上有关n-gram的定义: n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gr

2016-04-28 13:07:53 46597 1

原创 “词”向量应用的一些思考

对于搞自然语言处理的人来说,google的word2vec是比较流行的词向量生成工具。一些开源框架,也集成了它,如JAVA语言的deeplearning4j,Python语言的gensim。对于大规模文字语料经word2vec训练后,可以得到wordvectors,即词向量,它用多维空间的点来表示一个词,因而可以通过计算向量的空间距离(Cosine )来衡量词的(语义)距离,如,与词“暴跌”语义相近

2016-04-27 13:49:05 1337

原创 几款第三方分词工具

清华大学:THULAC[THULAC](http://thulac.thunlp.org/),是由清华大学自然语言处理与社会人文计算实验室(该实验室带头人:孙茂松、刘知远、刘洋)研制推出的一套中文词法分析工具包。 安装了其C++版,对北京大学语料进行了分词,如果不选择词性分析的话,单纯分词,需0.5s,同时利用打分脚本进行评测:=== SUMMARY:=== TOTAL INSERTIONS:

2016-04-22 17:15:22 8257

原创 最短路径分词

最短路径分词的原理是:首先,对句子进行原子切分,然后根据大词典,构造一个有向无环图,俗称DAG(Directed Acyclic Graph),每个可能分词对应DAG的一条边,每条边有一定的权重。因此,分词问题转化成了求DAG中起点到终点的最短路径问题。 根据DAG边的权重特点,有两类分词方式: 一种是,基于规则的,假设所有边的权重都一样(据说是汉语最少词表达出来的句子最合理,但缺乏严谨依据),

2016-04-21 16:10:31 3777

原创 统计中分分词(CRF)

下面利用条件随机场的统计分词算法。第一步:工具包准备利用CRF++工具包,下载编译安装。同时,在其python目录下执行python包安装。第二步:语料准备还是利用backoff2005的熟语料进行加工,成为CRF++需要的语料格式,如: “ S 人 B 们 E 常 S 说 S 生 B 活 E 是 S 一 S 部 S ” 这里加工北京大学提供的训练语料(icwb2-data\

2016-04-21 14:37:16 1699

原创 统计中文分词(最大熵)

在机器学习中,序列标注(Sequence labeling)是一种常见的模式识别任务,它用来给一组可观察对象打上状态(类别)标签。它可以解决NLP中的分词(Word Segement)、词性标注(Part-Of-Speech Tagging)、命名实体识别(Named Entity Recognition )等问题。常见的统计算法模型有:HMM、MEMM、CRF。 下面介绍利用最大熵统计算法进行分

2016-04-08 09:31:05 3749

翻译 NLTK vs Sklearn vs Gensim

Generally, - NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.) - Sklearn is used primarily for machine learn...

2016-04-05 16:43:35 2620

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除