4 zxhohai

尚未进行身份认证

学生党,学习提升ing

等级
TA的排名 2w+

层次主题模型——Hierarchical LDA

在LDA主题模型提出后,其在很多领域都取得了很成功的应用,如生物信息、信息检索和计算机视觉等。但是诸如LDA之类的主题模型,将文档主题视为一组“flat”概率分布,一个主题与另一个主题之间没有直接关系,因此它们能够用于挖掘语料中蕴含的主题,但是无法发现主题之间的关联和层次。对于每一篇文档,主题层次是显而易见的,是一个由粗到细,由宽泛到具体逐渐层层递进,逐渐细化。于是,LDA的作者Blei教授在LD...

2019-07-05 12:07:45

主题模型(4)——LDA模型及其Gibbs Sample求解

之前关于主题模型整理了《文本建模之UnigramModel,PLSA与LDA》与《再看LDA主题模型》两篇博客,以及针对PLSA的求解整理了博客《主题模型(3)——PLSA模型及其EM算法求解》,这一篇博客将继续整理LDA(LatentDirichletAllocation)模型的GibbsSample求解方法。LDA回顾同样,首先回归下LDA模型的文档生成过程。我们知道,LDA在PL...

2019-05-19 16:32:16

不依靠第三方库(除了numpy)实现一个神经网络

现在各种机器学习、深度学习第三方库都有非常成熟高效的神经网络实现,借助这些第三方库,短短几行代码就能实现一个神经网络。但是对于一个机器学习/深度学习的入门者来说,这些代码封装得太过彻底,往往一行代码就能实现BP算法或者梯度下降算法,这导致很多初学者即使掌握了繁复的数学推导后,依旧对神经网络的工作流程没有一个直观的认知。在我看来,自己动手实现一个神经网络,包括BP算法,梯度下降算法等,是将理论应用于...

2019-05-07 22:05:04

Jupyter Notebook配置多个IPython Kernel详细过程记录(IPython与Jupyter Notebook介绍、IPython、Jupyter安装配置)

JupyterNotebook是一款非常好用的基于浏览器的交互式的代码编写、运行测试以及富媒体(richmedia)输出的工具。JupyterNotebook本质上是一个notebook,并不具备代码执行能力,需要借助其他代码执行内核才能完成代码执行,如执行Python代码的IPython。因此,我们自然而然会想能不能为JupyterNotebook配置多个kernel呢?本篇博客将从IP...

2019-04-28 20:24:26

机器学习系列(九)之——模型参数估计(最小二乘估计、最大似然估计、最大后验估计)

给定模型与参数,我们就能对样本空间进行描述。大家很自然地会问,这个描述是不是最不好的呢?我们用什么评价标准判断这个描述的好坏呢?这篇博客将一起探讨这个问题。在统计学中,根据从总体中抽取的随机样本来估计模型未知参数的过程被称为参数估计(parameterestimation)。常用的参数估计方法有:最小二乘估计,最大似然估计和最大后验估计,其中最小二乘估计用于函数模型的参数估计,最大似然估计和...

2019-04-05 20:03:57

表示学习(Representation Learning)之局部表示(Local Representation)与分布式表示(Distributed Representation)

一个良好的表示是内容充分高效表达的基础,作为沟通计算机与现实世界的桥梁,计算机行业人员每时每刻都在研究事物的表示。比如:编程语言,早期的机器语言和现在的高级程序语言可以看作是指令的两种不同表示方式,从可读性方面评价,两者的表达能力相差甚远。再比如:数据结构,其研究的正是数据在计算机中的高效表达与存储,如下图所示,我们可以采用链表和红黑树两种不同的数据结构对有序表进行存储。在对有序表进...

2019-03-25 23:10:50

主题模型(3)——PLSA模型及其EM算法求解

之前整理过两篇关于主题模型的博客《文本建模之UnigramModel,PLSA与LDA》和《再看LDA主题模型》,主要是整理了主题模型的由来和推导过程,关于模型参数怎么计算没有过多涉及,因此接下来将分两篇博客,分别整理PLSA模型和EM算法求解,LDA模型和GibbsSample求解。PLSA首先回顾下PLSA,作为生成模型,其在文本生成过程中,引入主题的概念,即先从KKK个主题中选定一个...

2019-03-01 22:01:02

字符串匹配KMP算法

新年第一篇博客也是第一次写关于算法的博客。这两天帮同学看《算法与数据结构》试题,其中涉及到字符串匹配KMP算法,借机重新温习整理了一下,也算有了新的体会与感悟,希望能够讲得清楚。从字符串匹配讲起我们都说KMP算法是一种高效的字符串匹配算法,所以首先先定义下字符串匹配问题:给定一个文本串T(也叫主串S),和一个模式串P,现在要找出S中与P匹配的子串,如果存在就返回匹配位置,否则返回-1。暴力...

2019-02-25 22:28:50

在GitHub上搭建个人主页

最近因为项目组统一要求,在GitHub上搭建了一个个人主页,也就是个人简历页面。过程中遇到了一些问题,特记录下来与大家分享。首先大家需要在GitHub上注册一个账号,注册账号过程就不在此赘述了,注册好账号后并登入将进入如下页面:选择“Startaproject”或者“Newrepository”创建一个新的仓库,输入Repositoryname,其格式是“username。git...

2018-12-18 18:59:35

肖仰华老师《基于知识图谱的机器语言认知》

本周五参加CCFYOCSEF专题探讨班《知识图谱》讲座上有幸听到了肖仰华老师关于《基于知识图谱的机器语言认知》的分享。下面将整理肖老师分享的主要内容。知识图谱不单单是人类对世界认知的结果,不单单是各个行业知识沉淀的结果。有了这些结果,使得机器理解我们人类世界,理解我们人类的自然语言成为可能。正是这个可能性,各行各业的数据、文档的价值有可能被挖掘出来,各行各业现在都在利用各行业知识图谱实现...

2018-12-17 16:13:48

Gensim简介

Gensim(generatesimilarity)是一个简单高效的自然语言处理Python库,用于抽取文档的语义主题(semantictopics)。Gensim的输入是原始的、无结构的数字文本(纯文本),内置的算法包括Word2Vec,FastText,潜在语义分析(LatentSemanticAnalysis,LSA),潜在狄利克雷分布(LatentDirichletAlloca...

2018-11-30 21:50:12

CCF ADL97《图计算》整理

万物皆关联。作为表达和处理关联关系的最佳方式,图和图计算已经成为人们的关注重点和研究热点,广泛应用于金融分析、社交分析、智慧交通等诸多领域。作为大数据处理的一种典型模式,图计算不仅对计算机体系结构提出了严峻的挑战,也对系统软件、数据管理和处理模式提出了重大挑战。11.17-18有幸在武汉参加了CCF组织的ADL97《图计算》讲座,一共7位学术界和工业界的著名学者围绕大图处理的系统架构、表达存储方式...

2018-11-21 21:35:33

再看LDA主题模型

之前学习文本挖掘时已经写过一篇关于主题模型的博客《文本建模之UnigramModel,PLSA与LDA》,前几天小组讨论主题模型时,又重新理解了一遍LDA,有了更深刻的认识,特记录一下。1、UnigramModelUnigrammodel是最简单的文本模型,其直接将文本的生成过程看作是从一个词汇表中重复取词的过程。因此只要知道每个词的产生概率,就能计算出一篇文档的产生概率。假设一篇文档由...

2018-11-13 21:13:14

关联规则挖掘概述

在网上购物时,系统会主动推荐一些商品,赠送一些优惠券,并且这些推荐的商品和赠送的优惠券往往都能直抵我们的需求,诱导我们消费。这背后主要使用使用了关联分析技术,通过分析哪些商品经常一起购买,可以帮助商家了解用户的购买行为。从大规模数据中挖掘对象之间的隐含关系被称为关联分析(associateanalysis)或者关联规则学习(associateruleslearning),其可以揭示数据中隐藏...

2018-11-08 17:14:16

自动文摘(Automatic document summarization)方法综述(四)——基于神经网络的(neural summarization)方法

前三篇博客(一)、(二)、(三)总结了抽取式自动文摘的一些经典方法,传统抽取式自动文摘方法将文档简单地看作是一组文本单元(短语、句子等)的集合,忽略了文档所表达的全局语义,难免“断章取义”。随着算力的提升,深度学习在很多应用中非常的火热也取得了state-of-the-art的性能,因此,将神经网络模型引入自动文摘任务是理所当然的,将文档用神经网络模型进行表示被称为神经文档模型(neuraldo...

2018-10-31 22:21:45

CNCC 2018技术论坛——知识图谱赋能数字经济

本周五报名参加了在杭州举办的CNCC2018大会,听取了关于知识图谱的技术论坛——知识图谱赋能数字经济。共有6位专家讲者带来了精彩的主题报告,以及一个小时的Panel环节。本博客将整理总结分享专家的报告,共大家参考。1、周傲英:数据是催生数字经济的新动能——兼谈知识图谱的作用数字经济是什么?新动能是什么?数字经济最早在20年前提出,代表的是数字化,2016年G20峰会上,数字经济被再次提出...

2018-10-27 22:38:54

word2vec之CBOW模型与skip-gram模型

在对自然语言进行处理时,首先需要面对文本单元表示问题。单词(words)作为常考虑的最小文本单元,因而,如何将单词表示成恰当的词向量(wordvector)成为了研究者们研究的重点。最简单直观的方法是one-hotrepresentation,也称1-of-Nrepresentation,这种方式将每个单词表示成一个词汇表(vocabulary)大小的向量,其中绝大部分元素都是0,只有一个维...

2018-10-11 22:40:06

自动文摘(Automatic document summarization)方法综述(三)——基于次模函数(submodular function)最大化的方法

自动文摘(Automaticdocumentsummarization)方法综述的第一篇文章(一)总结了基于中心的(Centroid-based)方法和基于图的(graph-based)方法,第二篇文章(二)总结了基于最优化的(optimization-based)的方法。这篇博客将依旧整理基于最优化方法选取文本单元的方法,更确切的说,这篇博客将聚焦在次模函数(submodularfunct...

2018-10-04 21:05:49

概率图之马尔可夫随机场(Markov Random Field,MRF)

现实生活中,许多任务涉及多个因素(变量),并且因素之间存在依赖关系。概率图模型(ProbabilisticGraphicalModel,PGM)为表示、学习这种依赖关系提供了一个强大的框架,概率图模型在形式上由图结构组成,一个节点(node)表示一个或一组随机变量,节点之间的边(edge)表示变量之间的关系。根据图是有向还是无向,概率图模型可以分为两类:第一类使用有向无环图表示变量之间的因果关...

2018-09-27 22:58:13

Attention机制

在sequence-to-sequence学习中,输入和输出都是序列,通常采用Encoder-Decoder的框架进行处理。这种结构首先通过编码器(如CNN/RNN/LSTM等)将输入序列编码成一个固定长度的中间向量,然后将该向量作为解码器(如DNN/CNN/RNN/LSTM)的输入进行解码得到最终结果。以机器翻译为例,其Encoder-Decoder结构如下:上图中,Encoder和De...

2018-09-24 22:30:51

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。