自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 词语embedding的可视化

在可视化我找到了一个宝藏网站http://projector.tensorflow.org/使用方法点击load载入自己的数据数据需要tsv格式,第一个文件是embedding结果,第二个是标签,按照提示格式载入在下面还可以选择向量降维的模式最后结果...

2020-07-01 10:25:58 369 1

原创 bert和xlnet对关键词embedding

bert的原理我在第一篇论文介绍了,不赘述下面写一下我对bert embedding 和XLNet embedding的理解与两者之间的不同bert embedding可选择的预,L表示的是transformer的层数,H表示输出的维度,A表示mutil-head attention的个数训练模型,每一层transformer的输出值,理论上来说都可以作为句向量,但是到底应该取哪一层呢,根据hanxiao大神的实验数据,最佳结果是取倒数第二层,最后一层的值太接近于目标,前面几层的值可能语义还未充分的学

2020-07-01 10:20:26 561 2

原创 使用pke包提取关键词遇到的依赖问题

按照pke官方文档说明使用pke需要以下几个依赖但是因为是外网资源下载不下俩老是报错,去官网直接下载:https://github.com/nltk/nltk_data1.放入报错提示的任一文件夹下就OK,oh,记得这里将 packages 重命名成 nltk_data。2.找到 nltk-data 中 punkt 所在目录,这里要进入 punkt.zip 将 punkt 文件拖出来,与 punkt.zip 同级,然后 punkt.zip 就可以删掉啦,于是才大功告成3.第三个语句会报OSErr

2020-06-30 22:55:38 497

原创 关键词的相似度计算

关键词的相似度刚开始采用的是杰卡德相似度,但是会出现非常多0的情况,这个情况不太利于区分关键词之间的相似度。所以进行改进变为向量化关键词后算embedding的余弦相似度。ELMO原理尝试ELMO模型进行单词向量化ELMO模型的基本组成单元为lstm,输入门、遗忘门、输出门等计算公式如下图ELMO是双向lstm语言模型,第一个是使用了多层LSTM,第二个是增加了后向语言模型,不仅可以前文预测后文,也增加了后文预测前文的内容。elmo使用的双向lstm语言模型,论文中简称biLM。作者将公式结

2020-06-30 22:46:12 1697

原创 textrank算法的关键词提取

textrank虽然没有用在任务中提取关键词,但是还是做了来对比一下其他两个关键词算法的效果,在这里也简单说一下。思想1.如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要2.一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高3.通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边,迭代计算公式如下实现

2020-06-30 21:38:25 884

原创 WINGNUS算法提取关键词

WINGNUS算法提取关键词WINGNUS我觉得可以视为kea算法的改进版本,他研究了语言逻辑,不止关注了文章全局信息也关注了局部重要的信息WINGNUS算法论文写到经过统计发现一般句子比较重要的部分都出现在句首,标题等地方,所以不使用整个文档文本作为输入,而是从完整到最小的不同层次上缩减了输入文本,注重重要的地方。1.和kea讲到的一样首先根据规则选取候选词2.提取关键词特征,在tf-idf特征的基础上添加了单词偏移,字体属性,单词短语长度等特征3.通过朴素贝叶斯模型计算关键词主要代码1

2020-06-30 00:36:23 153

原创 kea算法提取关键词

kea算法提取关键词上一篇文章讲到基于bert的关键词提取,关键字出来的太少,需要一些其他方法增加关键词,我首先选择了kea算法kea算法Kea使用词法方法识别候选关键词,为每个候选关键词计算特征值,并使用机器学习算法预测哪些候选关键词是好的关键词。1.首先基于一定的规则选出候选关键词,作者在文章中提出三个规则:(1) Candidate phrases are limited to a certain maximum length (usually three words).(2)Candid

2020-06-29 21:12:20 961

原创 Colaboratory的使用

Colaboratory的使用Colaboratory介绍Colaboratory是Google的一个研究项目,旨在提供开发者一个云端训练神经网络的工具。它是Jupyter一个笔记本环境,不用做任何配置,完全运行在云端。Colaboratory存储在Google Drive中,可以进行共享。Colaboratory向开发者提供了免费的Tesla K80 GPU使用。使用1.打开https://colab.research.google.com,注册一个Google Drive账号,注册成功后将获得1

2020-06-26 12:17:00 600

原创 面向子空间基于规则嵌入的论文相似性比较

面向子空间基于规则嵌入的论文相似性比较-ysl创新实训个人过程记录

2020-06-26 12:01:56 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除