自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 理解卷及神经网络应用在自然语言处理的学习笔记

博客地址:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/首先申明本人的英语很搓,看英文非常吃力,只能用这种笨办法来方便下次阅读。有理解错误的地方,请别喷我。CNN怎么应用到NLP什么是卷积和什么是卷积神经网络就不讲了,自行google。从在自然语言处理的应用开始(SO, HOW D

2016-05-13 16:07:59 8011

原创 ubuntu下安装anaconda

1、 到官网http://continuum.io/downloads下载anaconda。 选择linux64-bit-python2.7 2、 安装anaconda,在终端输入:cd ~/Downloads;bash Anaconda-2.2.0-linux-x86_64.sh 回车后,是许可文件,接收许可,anaconda将安装在~/anaconda下:

2015-06-15 13:12:14 60400 3

原创 HMM模型之前向算法

1、介绍 向前算法是用于HMM模型的评估问题。评估问题:对于一个观察序列和通过不同系统得到的HMM模型,怎么判断哪一个HMM模型是最有可能产生这个观察序列。 HMM模型三元组(π\pi,A,B),其中π\pi表示初始向量,A表示状态转移矩阵,B表示混合矩阵,实例可以参看《HMM模型之viterbi算法》。 2、实现 要得到对于观察序列在当前HMM模型下

2015-06-04 15:58:08 1249

原创 HMM模型之viterbi算法

1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解决三大问题:评估、解码和学习。viterbi用于解决解码问题,在自然语言处理中用于解决划分问题,分词是对于句子的划分,viterbi是很好的分词算法。推荐参看的是《HMM学习最佳范例》。这里的术语将参照《HMM最佳学习范例》。关于HMM模型中的数值引用于结巴分词中的源代码。2、初始向量 这里sta

2015-06-01 13:40:07 2589

原创 结巴分词源代码解析(二)

本篇分两部分,一、补充说明动态规划求最大概率路径的过程;二、使用viterbi算法处理未登录词。一、动态规划求最大概率路径补充从全模式中看出一句话有多种划分方式,那么哪一种是好的划分方式,最大概率路径认为,如果某个路径下词的联合概率最大,那么这个路径为最好的划分方式。(个人认为这种思想是有缺陷的,我们知道每一个词的出现频率是一个较小的小数,小数相乘结果会受到小数的个数较大影响,

2015-05-31 17:22:43 2280

原创 结巴分词1.8.2版本源代码解析(一)

概要说明:结巴分词是基于python的开源分词工具。在其根目录下的结构为.|--analyse|--finalseg|--posseg|--__init__.py|--__main__.py|--_compat.py|--dict.txt其中analyse是对分词结果进行分析的文件夹,提供了TF-IDF算法和textrank算法。finalseg提供了vertb

2015-05-27 15:27:26 2511

原创 人民日报语料库抓取python实现(二)--多线程

由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包含30个page)。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon

2015-05-22 16:11:11 2468

转载 python 提高效率的几个小技巧

1.1. 最常见一个最常见的速度陷坑(至少是俺在没看到网上这篇介绍时陷进去过好些次的) 是: 许多短字串并成长字串时, 大家通常会用:Toggle line numbers   1 shortStrs = [ str0, str1, ..., strN]   2 #N+1个字串所组成的数列   3 longStr = ”   4 for s in shortStrs:

2015-05-21 10:37:25 892

原创 人民日报语料库抓取python实现

最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。在windows下运行的同学,请把程序中文件夹和文件名

2015-05-20 10:54:01 8382 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除