• 等级
  • 10846 访问
  • 36 原创
  • 1 转发
  • 120964 排名
  • 6 评论
  • 3 获赞

机器学习中的信息论

自信息量   一个事件的自信息量是该事件发生概率的负对数,事件发生的概率越大,自信息量越少,反之自信息量越多。也称不确定性函数,具有可加性。定义自信息量I(x)I(x)I(x): I(x)=log(1p(x))I(x)=log⁡(1p(x)) I(x)=\log\left(\frac{1}{p(x)}\right) 信息熵   熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义...

2018-09-16 09:44:25

【搜索引擎】Whoosh——Schema介绍

关于Schema和Field Schema指明了需要索引的文档的域(field)。 每个文档都可以有多个field,例如标题,正文,url,日期等。 有些field可以被索引,有些field可以和文档一起存储,这样field的值可以在搜索结果中展示出来,有些索引即可以被索引也可以被存储。 schema是文档中所有field的集合,每一个文档可能只拥有schema中一个field子集。 F...

2018-08-15 16:43:40

【搜索引擎】Whoosh 快速上手教程

Whoosh Whoosh是一个索引文本和搜索文本的类库,可以为你提供搜索文本的服务。 构建Schema 使用Whoosh首先要构造一个index对象,并在构造的同时为index指定schema,schema指明了index涉及到的field。 field指构造索引的文档的某一部分内容,例如文档的标题或者正文。例如以下schema拥有title和content两个field。 from...

2018-08-15 11:17:05

【Pytorch】CIFAR-10分类任务

CIFAR-10数据集共有60000张32*32彩色图片,分为10类,每类有6000张图片。其中50000张用于训练,构成5个训练batch,每一批次10000张图片,其余10000张图片用于测试。 CIFAR-10数据集下载地址:点击下载 数据读取,这里选择下载python版本的数据集,解压后得到如下文件: 其中data_batch_1~data_batch_5为训练集的5个批次,...

2018-07-16 16:23:36

【算法】树的编辑距离

字符串编辑距离定义了一个从字符串转换到另一个字符串最少需要的操作次数,操作次数越少,则从侧面证明两个字符串较为相似,它从新的角度定义了两个事物相似度的计算方法,这种事物并不仅限于字符串,也可以是其他结构比如树。树的编辑操作同样有三种:1.插入:向一颗树中插入一个节点;2.删除:从一棵树中删除一个节点;3.转换:将一棵树中的节点转换为其他的节点。计算树的编辑距离就是求从一棵树转换为另一棵树所需要树的...

2018-07-15 10:05:08

【算法】字符串编辑距离

    字符串的编辑距离即Levenshtein距离,指在两个字符串之间由其中一个字符串通过插入、删除、替换的编辑操作转换为另一个字符串的最小代价,可以当作距离一样来衡量两个字符串之间的相似程度,距离越大则相似程度越低,距离越小则相似程度越高。比如求takers和lakers之间的编辑距离,设插入和删除的代价是1,替换等于删除并插入,故替换的代价是2,takers经过删除t和插入l两步操作可以转换...

2018-07-14 09:30:45

【环境配置】配置压缩包版MySQL

解压mysql-xx.xx-winx64.zip至合适目录,将MySQL根目录下的bin文件夹添加至系统环境变量path中:D:\MajorProgram\MySQL\mysql-5.7.21\bin编辑my.ini配置文件,存放在MYSQL根目录下,my.ini下载地址。将配置文件中的basedir和datadir修改成自己的路径,如:# basedir = D:\MajorProgram\My...

2018-06-22 20:01:47

【Tensorflow】Tensorboard使用笔记

Tensorboard通过读取Tensorflow的事件文件来运行,以图表的形式展示汇总数据(summary data)。首先,创建想要汇总数据的Tensorflow图,然后选择想在哪个节点进行汇总(summary)操作。使用tf.summary.scalar记录标量使用tf.summary.histogram记录数据的直方图,比如展示层中激活的分布,或梯度权重的分布。使用tf.summary.d...

2018-06-22 14:30:46

【Tensorflow】模型保存与读取

Tensorflow模型结构Meta graph:保存网络图结构,包括计算图中的变量,操作,集合,文件扩展名为.meta。.data和.index文件:保存训练好的参数。Checkpoint file:记录最新的模型。保存模型# 定义saver类 # 指定max_to_keep参数来选择保存最新的几个模型 # 设置keep_checkpoint_every_n_hours来指定每几个小时保存一次模...

2018-06-21 15:02:44

【Tensorflow】使用笔记

tf.dynamic_rnnsequence_length:这个参数用来指定每个example的长度,比如上面的例子中,我们令 sequence_length为[20,13],表示第一个example有效长度为20,第二个example有效长度为13,当我们传入这个参数的时候,对于第二个example,TensorFlow对于13以后的padding就不计算了,其last_states将重复第13...

2018-06-21 11:03:00

【Tensorflow】Bi-LSTM文本分类

用于训练的计算图#训练图 train_graph = tf.Graph() with train_graph.as_default(): #输入文本维度为[time_step,batch_size,embedding_size] encoder_inputs = tf.placeholder(shape=[None,None,input_size], dtype=tf.float3...

2018-06-07 10:50:01

【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

论文链接   本文针对NMT任务使用的attention机制提出两种结构,global attention将attention作用于全部输入序列,local attention每个时间步将attention作用于输入序列的不同子集。前者被称为soft attention,其原理和论文1一样,后者是hard attention和soft attention的结合,该文通过context vector...

2018-05-31 13:49:53

【论文笔记】SPPnet

论文链接               CNN模型在识别图片前需要将图片预处理(如裁剪,扭曲)成同样大小尺寸,流程如下图所示。这一步骤不仅繁琐而且由于尺寸变化可能会影响识别精度。        事实上卷积层、池化层、激活层可以适应任意尺寸图片,但用于分类的全连接层需要固定尺寸的输入。为了解决这一问题,SPPnet在特征提取层和全连接层中间添加了金字塔池化层 (SPP layer),使得任意尺寸的图片...

2018-05-31 10:55:57

【论文笔记】neural machine translation by jointly learning to align and translate

1.neural machine translation by jointly learning to align and translate   这篇文章是将attention机制应用于机器翻译上,普通的seq2seq模型要将输入文本的信息编码至固定长度的隐向量中,当面对长文本时会损失许多信息,那么就要利用attention对输入文本的不同片段根据其重要程度分配不同的权重,使得信息被更有效地编码...

2018-05-30 14:31:24

【Tensorflow】文本自编码器

使用文本序列的word2vec词向量作为seq2seq模型的输入和输出,训练得到中间层的文本特征表示,可进一步进行分类任务等,encoder和decoder都使用LSTM。import tensorflow as tf import numpy as np import re from gensim.models import Word2Vec import pandas as pd import...

2018-05-30 09:57:18

【论文笔记】Bag of Tricks for Efficient Text Classification

    这篇文章写的是Facebook推出的FastText,能够快速在海量文本数据上进行分类任务和表示学习,可以用一个普通的多线程CPU在十分钟内训练百万级的语料,一分钟内将五十万文本分类到三十万个类别中。    最近几年深度学习在NLP任务上虽取得了显著地成就,但此类模型无论是训练还是测试阶段都因过长的时间消耗很难应用在更大的语料数据上。与此同时一些简单的线性模型在保持速度效率的同时也有不俗的...

2018-05-25 10:22:33

【论文笔记】GloVe: Global Vectors forWord Representation

摘要    词向量的成功捕捉到了细粒度的语义信息和语法规则,本文提出的方法融合了主流模型的优点:全局矩阵分解(LSA)和局部内容窗口(Word2vec),充分利用统计信息使用词共现矩阵中频率非零的元素来训练模型。引言    使用向量空间来表示自然语言可以做为许多NLP任务(文本分类,信息检索......)的特征输入,主流的两种方法是基于全局矩阵分解的LSA和局部窗口信息的Word2vec。LSA虽...

2018-05-22 21:06:38

基于doc2vec的文本聚类

    使用gensim包中doc2vec工具预训练好的文档向量可以进行文本聚类,使用sklearn的KMeans工具载入预训练好的的文档向量设定簇数进行k-means聚类。from sklearn.cluster import KMeans from sklearn.externals import joblib from gensim.models.doc2vec import Doc2Vec...

2018-05-16 14:29:08

使用gensim的doc2vec生成文档向量

doc2vec是word2vec的延伸,同样使用无监督方法利用上下文对词语和文档向量进行训练。doc2vec的输入是TaggedDocument向量,它包括word_list和tags两部分,word_list是文档的分词列表,如['火箭','是','总冠军',]。tags是文档的标签列表。比如可以用如下代码将自己的数据读入内存:def get_dataset(): data = pd.r...

2018-05-09 16:15:52

【论文笔记】文本分类(text classification)论文整理

Distributed Representations of Sentences and Documents这篇文章借鉴了word2vec的方法来训练长文本向量,如句子,段落,文档。首先随机初始化文本向量和文本中词的词向量,利用skip-gram和CBOW模型(在文中称为PV_DM和PV_DBOW模型)一起训练词向量和文本向量。论文链接:https://cs.stanford.edu/~quocl...

2018-05-04 16:49:23

theoreoeater

关注
  • 计算机软件/学生
  • 中国 北京 朝阳区
奖章
  • 持之以恒