18 数据娃掘

尚未进行身份认证

我要认证

人生何需久睡,死后自会长眠

等级
TA的排名 1k+

kaggle 首战拿金牌总结

kaggle 首战拿金牌总结这篇文章是我对自己第一次参加 kaggle 竞赛并获得金牌(14/4129)的一个总结,谈不上太多经验,涉及到的一些比赛规则和小技巧希望能对刚刚开始打 kaggle 比赛的小伙伴起到一些帮助。1. 平台简介kaggle 是全球首屈一指的数据科学、机器学习竞赛和分享平台。很多大公司作为出题方,会将问题和相关数据放在平台上形成一个竞赛,所有的 kaggle ...

2020-03-06 14:57:25

知识蒸馏,teacher—student模型的思考

知识蒸馏,teacher—student模型的思考这个方向的学术源头是Rich Caruana2014年的作品《Do Deep Nets Really Need to be Deep?》,后来经过Hinton的《Distilling the Knowledge in a Neural Network》发扬光大。实用价值:可以对大型神经网络进行瘦身以便部署到用户端;理论价值:引发对深度网络的思考:...

2020-02-25 06:39:09

2020人工智能顶会-混乱未分级分领域

CVPR 2020: IEEE Conference on Computer Vision and Pattern RecognitionNeurIPS 2020: Neural Information Processing SystemsECCV 2020: European Conference on Computer VisionICML 2020: International Con...

2020-02-15 10:57:28

ACM论文投稿时常用的几项操作

一、我们发现ACM的latex模板中会有ACM Reference Format信息,如下:投稿时,可以使用如下的方法将其去掉,在 \documentclass[sigconf]{acmart}下面直接添加这几行即可去掉\settopmatter{printacmref=false} % Removes citation information below abstract\re...

2020-02-11 19:42:40

The State of Transfer Learning in NLP [18 AUGUST 2019]

This post expands on theNAACL 2019 tutorial on Transfer Learning in NLP.The tutorial was organized by Matthew Peters, Swabha Swayamdipta, Thomas Wolf, and me. In this post, I highlight key insights...

2020-01-27 21:55:24

Latex常用积累

1.latex中把公式中一部分斜体变为直体2.Loss Function的这个符号LaTeX 里怎么打? 实际上,就是手写体的L,Latex中这样引用就行:\mathcal{L}3.常用数学符号的 LaTeX 表示方法 http://mohu.org/info/symbols/symbols.htm4.如何打印出带编号的公式,并且自己来定义...

2019-12-30 00:48:33

IBM 提出基于语言模型的数据增强新方法

作者:张之栋(InfoQ) 2019年11月15日18:45VentureBeat 消息,IBM Research 的研究人员在近期发表的一篇论文中,提出了一种文本分类任务的数据扩充新方法。该方法被研究人员称为基于语言模型的数据增强 (LAMBADA),原理是使用一个预先训练过的机器学习模型来合成文本分类任务所需要的标记数据。IBM 研究人员声称,LAMBADA 可以提高分类器在各种数...

2019-11-17 08:50:02

微软提出 DNN 并行训练新方法 PipeDream,比传统方法快四倍

作者:Amar Phanishayee译者:夏夜发布时间:2019 年 11 月 15 日 10:00本文介绍了微软新提出的 PipeDream,旨在使深度学习网络训练并行化水平更高,进而提高训练效率。深度神经网络(DNNs:Deep Neural Networks)已经在大量应用中取得了巨大进展,这些应用包括图像分类、翻译、语言建模以及视频字幕等。但 DNN 训练极其耗时,需...

2019-11-17 08:59:02

Star-Transformer

【精简Transformer】Star-Transformer本文是复旦大学发表于NAACL 2019的工作。文章的主要贡献在于精简transformer,增强了在modestly size datasets上的表现。精简思路非常清晰且具有可解释性质,消解实验和对比实验也很有针对性。摘要虽然transformer在很多NLP任务上都取得了很大的成功,但是它的结构很重,注意力连接...

2019-10-11 11:11:56

How do they apply BERT in the clinical domain?【BERT in clinical domain】

This story is published in bothDev.toand Medium.Contextual word embeddings is proven that have dramatically improved NLP model performance viaELMo(Peters et al., 2018),BERT(Devlin et al., 2018...

2019-08-01 19:32:24

Some examples of applying BERT in specific domain【Applying BERT in specific domain】

Several new pre-trained contextualized embeddings are released in 2018. New state-of-the-art results is changing every month.BERTis one of the famous model. In this story, we will extend BERT to see...

2019-08-01 19:25:20

19 entities for 104 languages: A new era of NER with the DeepPavlov multilingual BERT

There’s hardly anyone left in the world data science community who wouldn’t agree that the release ofBERTwas the most exciting event in the NLP field.For those who still haven’t heard: BERT is a...

2019-08-01 18:57:37

BERT for unsupervised text tasks

This post discusses how we use BERT and similar self-attention architectures to address various text crunching tasks atEther Labs.Self-attention architectures have caught the attention of NLP pract...

2019-08-01 18:49:27

Multi-Task Deep Neural Networks for Natural Language Understanding【MT-DNN模型】

背景机构:微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)作者:Xiaodong Liu、Pengcheng He发布地方:arxiv面向任务:自然语言理解任务(NLU)的学习表示论文地址:https://arxiv.org/abs/1901.11504论文代码:https://github.com/namisan/mt-dnn更多代码版本参见:https://...

2019-06-02 05:41:01

问题生成(QG)总结

问题生成(QG)总结 (2018.8) 背景: 为什么要研究QG? 从人的经验看,好的学习者一定是擅长提问的。机器知识库作为“学习者”,也许可以利用主动提问来高效构建或者补充知识库,扩充数据集等等。 现在的一些应用场景:在教育领域,帮助学生来提问;在对话领域,作为冷启动来开始一个话题或者通过提问来获得反馈;在医药领域,可以用于自动问诊系统,作为一种辅助工具等等,可以看到应用场景还是...

2019-02-23 20:55:23

论文阅读 QA与QG联合学习

详细:https://blog.csdn.net/thormas1996/article/details/81081529https://blog.csdn.net/thormas1996/article/details/81537657https://blog.csdn.net/aprilvkuo/article/details/78681862https://blog.csdn...

2019-02-13 12:09:55

《A Survey on Transfer Learning》中文版翻译《迁移学习研究综述》

首先感谢(http://blog.csdn.net/magic_leg/article/details/73957331)这篇博客首次将《A Survey on Transfer Learning》这篇文章翻译成中文版,给予我们很大的参考。但上述作者翻译的内容有很多不准确的词语、省略了很多内容、工作略显粗糙,因此本文将给出一篇完整近乎准确的中文版《A Survey on Transfer Le...

2018-10-19 17:38:48

【收藏】各种乘法的区别 “点积、外积、数乘...等”

I've seen several conventions, including ⋅⋅, ∘∘, ∗∗, ⊗⊗, and ⊙⊙. However, most of these have overloaded meanings (see http://en.wikipedia.org/wiki/List_of_mathematical_symbols).Thus, in my persona...

2018-09-18 10:39:33

迁移学习和多任务学习

迁移学习总结一下,什么时候迁移学习是有意义的?如果你想从任务A学习并迁移一些知识到任务B,那么当任务A和任务B都有同样的输入时,迁移学习是有意义的。在第一个例子中,A和B的输入都是图像,在第二个例子中,两者输入都是音频。当任务A的数据比任务多得多时,迁移学习意义更大。所有这些假设的前提都是,你希望提高任务B的性能,因为任务B每个数据更有价值,对任务A来说通常任务的数据量必须大得多,才有帮助,因...

2018-09-04 17:58:34

【ICML2018见闻】 迁移学习、多任务学习领域的进展

【导读】如今 ICML(International Conference on Machine Learning,国际机器学习大会)已经成为有巨大影响力的会议,每年都会为我们带来很多关于机器学习趋势与发展方向等有意义的分享。今年的 ICML 有三个讨论会都重点讨论了迁移学习和多任务学习。本文的作者(Isaac Godfried)也是对这两个领域的研究内容非常感兴趣,接下来 AI科技大本营将把 ...

2018-09-04 17:57:07

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。