3 村头陶员外

尚未进行身份认证

我要认证

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!!

等级
TA的排名 1w+

论文分享 -- NLP -- grid beam search

本篇博文主要总结论文 Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search,论文链接 gbs,参考的实现代码 codes。首先不得不说,对于初学者来说,beamsearch是一种稍微难理解的算法,而在此算法上衍生的grid beam search就更复杂了,因此本论文读起来有一定的难度。论文动机普通的beamsearch是由动态规划的方法找到最优的生成序列,但是这种方法在交互翻译场景可能并不适用,

2020-07-15 20:51:49

论文分享 -- >Graph Embedding -- >struc2vec

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!本次要总结和分享的论文是struc2vec,参考的代码code,不同于以往根据顶点在图中位置以及与其他顶点距离关系来学习顶点的表示,本论文提出的一种独立于顶点位置,属性的方法来捕捉顶点的stronger notions of structural identity,...

2020-03-22 20:12:28

论文分享 -- >Graph Embedding -- >Structural Deep Network Embedding

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!本次要分享的论文是来自KDD2016的工作,论文链接Structural Deep Network Embedding,(简称SDNE)参考的代码链接 CODE。本篇论文同样致力于利用图结构,获取节点的embedding representation,定义了与 LI...

2020-03-08 19:40:48

Spark性能优化 -- > Joins (SQL and Core)

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!本博文将总结和讨论下spark中join操作的优化操作。简介Join操作是spark中比较重要和常用的操作,无论是Spark Core还是Spark SQL都支持一些基础的join操作。但是join操作需要特殊的性能考虑,因为他们需要较大的网络传输,甚至会创建出...

2020-02-09 23:15:10

Spark性能优化 -- > Spark SQL、DataFrame、Dataset

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!本博文将详细分析和总结Spark SQL及其DataFrame、Dataset的相关原理和优化过程。Spark SQL简介Spark SQL是Spark中 具有 大规模关系查询的结构化数据处理 模块。spark sql支持大规模的分布式内存计算,并且模糊了RD...

2020-01-31 23:37:41

spark性能优化 -- > spark工作原理

从本篇文章开始,将开启spark学习和总结之旅,专门针对如何提高spark性能进行总结,力图总结出一些干货。无论你是从事算法工程师,还是数据分析又或是其他与数据相关工作,利用spark进行海量数据处理和建模都是非常重要和必须掌握的一门技术,我感觉编写spark代码是比较简单的,特别是利用Spark SQL下的DataFrame接口进行数据处理,只要有python基础都是非常容易入门的,但是在性能...

2020-01-12 22:51:54

论文分享 -- > NLP -- > FreeLB

本次要总结和分享的是正在ICLR2020审稿的,关于NLU对抗学习的论文:FreeLB: Enhanced Adversarial Training for Language Understanding,论文链接 FreeLB,感觉该论文方法创新和实验效果均还不错,由于本人在对抗学习领域上水平有限,在此就对本篇论文进行一个浅显的解读,如有错误还望指正。论文动机对抗训练的初衷:目前人工智能技术...

2019-12-15 20:09:37

论文分享 -- >Graph Embedding -- > LINE: Large-scale Information Network Embedding

本次要总结和分享的论文是 LINE: Large-scale Information Network Embedding,其链接 论文,所参考的实现代码 code,这篇论文某些细节读起来有点晦涩难懂,不易理解,下面好好分析下。论文动机和创新点information network 在现实世界中无处不在,例如最常见的社交网络图。而这种网络通常包含 百万以上的节点和数以十亿记的边,如果能将这种...

2019-10-19 12:23:02

论文分享-- >Graph Embedding-- > DeepWalk: Online learning of Social Representations

本次要分享的论文是14年论文DeepWalk: Online learning of Social Representations, 论文链接DeepWalk,参考的代码CODE,本论文是图表示学习领域内的一篇较早的文章,是学习本图表示学习绕不过的一篇文章,虽然整体难度不大,但是文章所提出的方法个人感觉非常独到和有趣。论文动机和创新点在自然语言处理领域,word2vec是一个非常基础和著名...

2019-10-01 17:56:52

论文分享-- >异常检测-- >Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection

本文将总结分享ICLR2018论文 Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection,论文链接 DAGMM,参考的代码链接 CODE,本论文旨在将神经网络、EM与GMM有机结合起来,做无监督的异常检测,并且取得了不错的效果。论文动机和创新点异常检测的本质是通过密度估计找出离群点过程。...

2019-08-25 17:25:35

论文分享-- >序列挖掘-- > DEEP TEMPORAL CLUSTERING: FULLY UNSUPERVISED LEARNING OF TIME-DOMAIN FEATURES

因为业务需求,私下学习了些序列数据的处理算法,本文将总结ICLR2018论文:DEEP TEMPORAL CLUSTERING: FULLY UNSUPERVISED LEARNING OF TIME-DOMAIN FEATURES,论文链接DTC,参考的论文代码 DeepTemporalClustering,本论文方法是完全针对时序数据的无监督聚类算法,是第一次提出在无标签的时序数据上,建立了一...

2019-07-04 00:26:02

论文分享 -- > NLP -- > Neural machine Translation of Rare Words with Subword Units

本次分享的是一篇16年的关于NLP中分词操作的论文,论文链接Subword,参考的实现代码subword-nmt,许多论文方法(例如BERT等)都将该方法应用到分词处理上,相对于word-level和character-level,该方法取得了不错的效果。动机和创新点机器翻译中,通常使用固定大小的词表,而在实际翻译场景中,应当是open-vocabulary。这就使得翻译数据集中的稀有词变得...

2019-06-09 18:09:46

论文分享 -- > NLP -- > Language Models are Unsupervised Multitask Learners

本次要总结和分享的论文是GPT2,参考的实现代码model。本论文方法是在openAI-GPT的基础上进行了一些微小的修改得到的,从模型的角度来讲,几乎没有修改,只是去掉了fine-tune过程,无论是在预训练和预测阶段都是完全的无监督,这点有点不可思议,但是的确做到了,而且效果还不错。网上对这篇论文的讲解非常多,这里本人就讲下自己浅薄的见解。本篇论文的核心思想并不难,但是我个人感觉论文读起来比...

2019-06-01 01:32:05

深度学习-- > NLP -- > improving multi-task deep neural networks via knowledge distillation for natural

本次总结和分享一篇大佬推荐看的论文improving multi-task deep neural networks via knowledge distillation for natural language understanding, 论文链接MT-DNN-KD动机和创新点集成学习的方法对提高模型的泛化能力在众多自然语言理解任务上已经得到了验证但是对于多个深度模型集成而成的集成模型...

2019-05-22 21:09:25

深度学习 -- > NLP-- > BERT

本次分享和总结自己所读的论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,也就是大名鼎鼎的BERT,网上对这篇论文的解读非常多,在此就提下自己浅薄的见解。论文链接 BERT论文动机以及创新点语言模型的预训练已经在自然语言处理的各项任务上取得了有目共睹的效果。目前有两种途...

2019-05-18 17:37:13

深度学习 -- > NLP -- >Improving Language Understanding by Generative Pre-Training

本文要分享总结的是论文Improving Language Understanding by Generative Pre-Training,论文链接openAI-GPT.论文动机以及创新点现实世界中,无标签的文本语料库非常巨大,而带有标签的数据则显得十分匮乏,如何有效利用无标签的原始文本,对缓解自然语言处理相关任务对有监督学习方式的依赖显得至关重要。有效的从无标签文本中利用超单词级...

2019-05-07 17:23:05

深度学习 -- >NLP -- > Deep contextualized word representations(ELMo)

本文将分享发表在2018年的NAACL上,outstanding paper。论文链接ELMo。该论文旨在提出一种新的词表征方法,并且超越以往的方法,例如word2vec、glove等。论文贡献点能捕捉到更复杂的语法、语义信息。能更好的结合上下文内容,对多义词做更好的表征。(以往的词表征方法,例如word2vec等可能无法很好的解决这个问题)能非常容易的将这种词表征方法整合进现有的模型中...

2019-04-29 20:44:17

论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach

本篇博文分享和总结下论文Learning to Rank:From Pairwise Approach&nbsp

2018-09-20 19:39:42

论文分享-- >From RankNet to LambdaRank to LambdaMART: An Overview

严格来说,这并不是一篇论文,只是一个reportreportreport ,里面系统的介绍了三个比较著名的排序模型RankNet、LambdaRank、LambdaMARTRankNet、LambdaRank、LambdaMARTRankNet、LambdaRank、LambdaMART ,链接 Rank本篇博文将分析总结下前两个排序模型RankNet、LambdaRankRankNet、La...

2018-09-20 19:39:27

机器学习-- > 隐马尔科夫模型(HMM)

本篇博文将详细总结隐马模型相关知识,理解该模型有一定的难度,在此浅薄的谈下自己的理解。HMM定义HMMHMMHMM 是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。隐马尔科夫模型随机生成的状态随机序列,称为状态序列;每个状态生成一个观测,由此产生的观测随机序列,称为观测序列。序列的每个位置可看做是一个时刻。上图中的...

2018-06-10 14:19:15

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。