qq_41824131-CSDN博客

原创词语embedding的可视化

在可视化我找到了一个宝藏网站http://projector.tensorflow.org/使用方法点击load载入自己的数据数据需要tsv格式，第一个文件是embedding结果，第二个是标签，按照提示格式载入在下面还可以选择向量降维的模式最后结果...

2020-07-01 10:25:58 369 1

bert的原理我在第一篇论文介绍了，不赘述下面写一下我对bert embedding 和XLNet embedding的理解与两者之间的不同bert embedding可选择的预，L表示的是transformer的层数，H表示输出的维度，A表示mutil-head attention的个数训练模型，每一层transformer的输出值，理论上来说都可以作为句向量，但是到底应该取哪一层呢，根据hanxiao大神的实验数据，最佳结果是取倒数第二层，最后一层的值太接近于目标，前面几层的值可能语义还未充分的学

2020-07-01 10:20:26 561 2

原创使用pke包提取关键词遇到的依赖问题

按照pke官方文档说明使用pke需要以下几个依赖但是因为是外网资源下载不下俩老是报错，去官网直接下载：https://github.com/nltk/nltk_data1.放入报错提示的任一文件夹下就OK，oh，记得这里将 packages 重命名成 nltk_data。2.找到 nltk-data 中 punkt 所在目录，这里要进入 punkt.zip 将 punkt 文件拖出来，与 punkt.zip 同级，然后 punkt.zip 就可以删掉啦，于是才大功告成3.第三个语句会报OSErr

2020-06-30 22:55:38 497

原创关键词的相似度计算

关键词的相似度刚开始采用的是杰卡德相似度，但是会出现非常多0的情况，这个情况不太利于区分关键词之间的相似度。所以进行改进变为向量化关键词后算embedding的余弦相似度。ELMO原理尝试ELMO模型进行单词向量化ELMO模型的基本组成单元为lstm，输入门、遗忘门、输出门等计算公式如下图ELMO是双向lstm语言模型，第一个是使用了多层LSTM，第二个是增加了后向语言模型，不仅可以前文预测后文，也增加了后文预测前文的内容。elmo使用的双向lstm语言模型，论文中简称biLM。作者将公式结

2020-06-30 22:46:12 1697

原创 textrank算法的关键词提取

textrank虽然没有用在任务中提取关键词，但是还是做了来对比一下其他两个关键词算法的效果，在这里也简单说一下。思想1.如果一个单词出现在很多单词后面的话，那么说明这个单词比较重要2.一个TextRank值很高的单词后面跟着的一个单词，那么这个单词的TextRank值会相应地因此而提高3.通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题，网页之间的链接关系即为图的边，迭代计算公式如下实现

2020-06-30 21:38:25 884

原创 WINGNUS算法提取关键词

WINGNUS算法提取关键词WINGNUS我觉得可以视为kea算法的改进版本，他研究了语言逻辑，不止关注了文章全局信息也关注了局部重要的信息WINGNUS算法论文写到经过统计发现一般句子比较重要的部分都出现在句首，标题等地方，所以不使用整个文档文本作为输入，而是从完整到最小的不同层次上缩减了输入文本，注重重要的地方。1.和kea讲到的一样首先根据规则选取候选词2.提取关键词特征，在tf-idf特征的基础上添加了单词偏移，字体属性，单词短语长度等特征3.通过朴素贝叶斯模型计算关键词主要代码1

2020-06-30 00:36:23 153

原创 kea算法提取关键词

kea算法提取关键词上一篇文章讲到基于bert的关键词提取，关键字出来的太少，需要一些其他方法增加关键词，我首先选择了kea算法kea算法Kea使用词法方法识别候选关键词，为每个候选关键词计算特征值，并使用机器学习算法预测哪些候选关键词是好的关键词。1.首先基于一定的规则选出候选关键词，作者在文章中提出三个规则：（1） Candidate phrases are limited to a certain maximum length (usually three words).（2）Candid

2020-06-29 21:12:20 961

原创 Colaboratory的使用

Colaboratory的使用Colaboratory介绍Colaboratory是Google的一个研究项目，旨在提供开发者一个云端训练神经网络的工具。它是Jupyter一个笔记本环境，不用做任何配置，完全运行在云端。Colaboratory存储在Google Drive中，可以进行共享。Colaboratory向开发者提供了免费的Tesla K80 GPU使用。使用1.打开https://colab.research.google.com，注册一个Google Drive账号，注册成功后将获得1

2020-06-26 12:17:00 600

原创面向子空间基于规则嵌入的论文相似性比较

面向子空间基于规则嵌入的论文相似性比较-ysl创新实训个人过程记录

2020-06-26 12:01:56 214

qq_41824131的博客