4 黄鑫huangxin

尚未进行身份认证

深度学习,多媒体分析与理解 知乎专栏:https://www.zhihu.com/people/mu-xi-jin-39/columns Github: https://github.com/BonnieHuangxin

等级
TA的排名 4w+

文本相似度算法总结

文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。一、传统模型基于字面匹配字面距离:字符串有字符构成,只要比较两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。...

2019-06-04 20:12:06

ICMR 19:Temporal Activity Localization by Language

介绍一下我之前在校,独立完成的一项工作,已被ACMICMR2019接收为oralpaper论文:《Cross-ModalVideoMomentRetrievalwithSpatialandLanguage-TemporalAttention》代码:https://github.com/BonnieHuangxin/SLTA一、论文任务Examples:...

2019-06-04 19:56:46

TextRank算法提取文本关键词

TextRank算法是由Google搜索的核心网页排序算法PageRank改编而来,利用图模型来提取文章中的关键词,首先介绍一下PageRank排序算法一、PageRank算法PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。根据重要性传递的思想,如果一个大型网站A含有一个超...

2019-06-04 19:38:02

自然语言预训练模型总结(PPT版)

这是我个人的总结,参考了张俊林这篇很好的文章,请感兴趣看以下链接~张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较一、简介自然语言处理中的预训练技术发展历程——从WordEmbedding到Bert Neurallanguagemodels WordEmbedding Pretrainedl...

2019-06-04 19:33:00

中文分词综述

一、中文分词根据实现原理和特点,主要分为以下2个类别:1、基于词典分词算法(字符串匹配分词算法) 按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别该词。 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。 2、基于统计的分词方法 基于统计的分词方法是在给定大量已经分...

2019-06-04 19:22:59

Letcode刷题(python)

题目出自《程序员代码面试指南》1.1最小栈设计一个支持push,pop,top操作,并能在常数时间内检索到最小元素的栈。 push(x)--将元素x推入栈中。 pop()--删除栈顶的元素。 top()--获取栈顶元素。 getMin()--检索栈中的最小元素。 python内的list来实现栈classMinS...

2019-04-26 11:19:48

AAAI 2018: 基于强化学习的文本分类

看这篇论文前,建议先了解一下policygradientRL,就更很容易理解论文思想了。论文:《LearningStructuredRepresentationforTextClassificationviaReinforcementLearning》代码:http://coai.cs.tsinghua.edu.cn/publications/一、论文原理这...

2019-04-26 11:10:55

【NLP】OpenAI GPT算法理解

论文《ImprovingLanguageUnderstandingbyGenerativePre-Training》Pytorch代码实现:huggingface/pytorch-openai-transformer-lm一、论文原理GPT的核心思想是先通过无标签的文本去训练生成语言模型,再根据具体的NLP任务(如文本蕴涵、QA、文本分类等),来通过有标签的数据对模型进行...

2019-04-23 19:18:08

Pytorch的模型结构可视化(tensorboard)

在pytorch中,可以导入tensorboard模块,可视化网络结构及训练流程。下面通过“CNN训练MNIST手写数字分类”的小例子来学习一些可视化工具的用法,只需要加少量代码。一、tensorboardX的安装pipinstalltensorboardpipinstalltensorflowpipinstalltensorboardX二、导入tensorboa...

2019-03-12 00:19:50

计算机类学术论文写作中提高效率的小工具

作为一个学术论文写作新手,分享在论文写作过程中发现的提高效率的小工具。1.在线写作工具——Overleaf在线latex写作,自动保存。在写的过程中可以随时编译,并且下载为pdf格式。网址:https://www.overleaf.com2.检查语法错误以及单词拼写——Grammarly粘贴论文中的句子,检测句子是否有语法错误或者单词拼写错误。总的来说,可以标注出简单的小错...

2019-03-10 23:12:38

Flask入门

最近接触到pythonweb中的Flask,需要学习一下基本用法,这里做一个记录。安装Flaskpipinstallflask一、HelloWorld接下来实现一个简单的‘Hello,World!',代码如下:fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defindex():...

2019-03-10 22:41:33

Pytorch在NLP中的简单应用

因为之前在项目中一直使用Tensorflow,最近需要处理NLP问题,对Pytorch框架还比较陌生,所以特地再学习一下pytorch在自然语言处理问题中的简单使用,这里做一个记录。一、Pytorch基础首先,第一步是导入pytorch的一系列包importtorchimporttorch.autogradasautograd#Autograd为Tensor...

2019-03-07 12:22:43

CoNLL 2018:基于人类注意力的序列分类

论文《Sequenceclassificationwithhumanattention》代码:https://github.com/coastalcph/Sequence_classification_with_human_attention这篇论文提出利用视觉跟踪语料库中的人类注意力,作为训练注意力模型时的一个归纳偏置(Inductivebias),也就是用humanatte...

2019-03-06 19:51:32

map()函数报错解决

1.在python3中执行下列代码map(lambdax:x*2,range(1,10))报错:<mapat0x248ea822550>2.原因在python3里面,map()的返回值已经不是list,而是iterators,所以想要使用map()函数,需要将iterator转换成list即可,即list(map())list(map(...

2019-03-06 13:36:49

基于Pytorch的MLP模块实现

MLP分类效果一般好于线性分类器,即将特征输入MLP中再经过softmax来进行分类。具体实现为将原先线性分类模块:self.classifier=nn.Linear(config.hidden_size,num_labels)替换为:self.classifier=MLP(config.hidden_size,num_labels)并且添加MLP模块:...

2019-03-04 12:06:06

Python实现Excel改为txt格式

将excel存储的数据改为txt格式的数据集importxlrdfileName="9类情感-筛选语料2.28.xlsx"fileHandler=xlrd.open_workbook(fileName)sheet_name1=u'Sheet1'page=fileHandler.sheet_by_name(sheet_name1)col1=page.co...

2019-03-01 23:51:24

《Rethinking ImageNet Pre-training》理解

论文:何恺明《RethinkingImageNetPre-training》在许多计算机视觉任务中,包括目标检测、图像分割、行为检测等,一般使用在ImageNet上预训练再进行微调。而在这篇论文中,作者任务在ImageNet上预训练是并不必要的,随机初始化也可以达到同样的效果,只需要:1)使用合适的正则化优化方法2)足够长的训练时间,即多次迭代训练论文中的走势图,我们可以观察到...

2018-12-18 14:20:39

Google BERT理解

论文:《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》一、模型介绍BERT采用了双向TransformerEncoder来作为语言模型(《Attentionisallyouneed》论文中的transformer结构),采用了两种预训练方法:1)MaskedL...

2018-12-18 14:02:54

ELMo模型的理解与实践(2)

预训练好的词向量已经released,这里介绍一下,如何直接获取ELMo词向量。在pytorch里可以通过AlenNLP包使用ELMo。一、环境配置1)在conda中创建allennlp环境:condacreate-nallennlppython=3.62)安装allennlppipinstallallennlp二、下载训练好的参数和模型参数下载:...

2018-12-18 13:59:56

ELMo模型的理解与实践(1)

论文:2018NAACL《DeepContextualizedWordRepresentations》一、优点1.学习单词的复杂特征,包括语法、语义2.学习在不同上下文下的一词多义二、模型1.Bidirectionallanguagemodels(BLM)首先给定N个单词的序列,1)前向语言模型,已知前k-1个单词,预测第k个单词 的概率:2...

2018-12-18 13:56:43

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。