AI小波哥-CSDN博客

原创知识图谱问答系列文档（七）——从零开始搭建一个通用知识图谱问答【实体连接与消歧】

（六）实体链接与消歧由于通用知识图谱知识量比较庞大（1.4亿条），会存在大量的实体重名，此时需要进行实体消歧，在实体识别得到结果后，还需要对其进行实体链接，将其链接为知识图谱中的对应实体。实体链接实体链接就是将一段文本中的某些字符串映射到知识图谱中对应的实体上。实体链接包过指称识别，大多数研究者通过建立指称-实体字典，进行实体链接。由于通用知识图谱问答具有数据量庞大、知识内容繁多、问题种类复杂等特点，无法通过完全建立指称-实体字典的形式完成实体链接，本文借助ownthink知识库中自带实体的歧义

2020-08-18 10:19:16 1250 3

原创知识图谱问答系列文档（九）——从零开始搭建一个通用知识图谱问答【相似推荐、模型部署上线】

（八）相似实体本文使用word2vec获取实体的词向量，并查找与实体相似的实体名，返回给用户（word2vec使用方法）。（九）问题推荐问题推荐包含热门问题和后端生成两部分，分别如下：热门问题热门问题推荐20条，包含五种功能类型，涉及人物、机构、省市、作品等，问题具有一定的规范性，与训练样本格式上相似。后端生成随机选取实体的其他五种属性，每种实体+属性的组合，使用simbert（examples/simbert_base.py）生成5个相似问题，再随机选取一条作为问题推荐，最终选取五条

2020-08-18 09:52:27 913 4

原创知识图谱问答系列文档（八）——从零开始搭建一个通用知识图谱问答【问答流程】

（八）问答流程对于输入的自然语言问句，问答系统分别进行实体属性识别、意图分类、图谱查询、相似度计算、答案筛选和结果返回六个部分，下面就每个部分的功能和逻辑进行说明，具体代码部分请参考主程序。实体属性识别NER识别问题中的实体、属性，返回SENT、PROP和OENT，先对SENT、OENT进行实体映射（如果字典中存在，就映射，否则，不做映射），再将其结果送给图谱查询。意图分类使用已训练模型对问答意图进行分类，将问题分类为SP->O、SPP->O、PO->S、OP->S

2020-08-18 09:43:09 952 2

原创知识图谱问答系列文档（六）——从零开始搭建一个通用知识图谱问答【问答意图分类】

（五）问答意图分类本文研究了SP->O、SPP->O、PO->S、OP->S、SO->P五种类型的问答，使用bert4keras中的情感分类task_sentiment_albert.py，加载ALBERT模型训练，经测试，可以较好识别问答意图。意图分类需要做训练集标注和模型训练，具体如下。训练集标注在问题训练集生成部分，已经得到五种类型的数据，只需要对其分别标注为0,1,2,3,4即可(对应意图：[‘SP_O’,‘SPP_O’,‘SO_P’,‘PO_S’,‘OP_

2020-08-18 09:39:40 828 2

原创知识图谱问答系列文档（五）——从零开始搭建一个通用知识图谱问答【命名实体属性识别】

（四）命名实体属性识别命名实体识别有多种方法，大多数问答系统只识别实体，本文使用bert4keras做实体、属性的识别，使用BIO数据标注方式，识别SENT、PROP、OENT（句子中的主谓宾）的模型，在测试集上达到了的f1值达到了99.5%，能够快速识别问题中的实体和属性。命名实体属性识别模型分为数据标注和训练两个部分，具体如下。数据标注数据标注使用BIO数据标注，标注标签为：[‘O’,‘B-SENT’,‘I-SENT’,‘B-PROP’,‘I-PROP’,‘B-OENT’,‘I-OENT’]，

2020-08-18 09:37:14 1314 1

原创知识图谱问答系列文档（四）——从零开始搭建一个通用知识图谱问答【问题训练集生成】

（三）问题训练集生成问题类型在构建问题训练集时，首先应当确定通用问答要实现的问答功能，再就各项功能分别生成对应的训练集，本文所构建的问答分为一下五种场景：SP->O（实体的属性值问答，例如：姚明的女儿叫啥？，姚明有多高？）SPP->O（多跳问答，例如：姚明的女儿出生在哪里？，华东理工大学的校长毕业于哪？）PO->S（根据属性和属性值回答主语，例如：谁的女儿是姚沁蕾？，有哪些人是娱乐人物？）OP->S（根据属性和属性值回答主语，例如：王安顺是哪个城市的市长来着？，叶莉

2020-08-18 09:34:19 1518 1

原创知识图谱问答系列文档（三）——从零开始搭建一个通用知识图谱问答【构建知识图谱】

（二）构建知识图谱知识图谱构建使用neo4j作为图谱数据库，因数据量庞大(4572万个实体,1.41亿条关系)，需使用neo4j-admin import工具导入，导入前需准备节点和关系的文件。节点数据格式neo4j节点数据使用以下数据格式，本文统一给实体增加Entity标签，便于检索。id:IDname:LABEL1姚明Entity2姚沁蕾Entity3中国Entity说明:此处id应唯一,一一对应相关实体.关系数据格式neo4j

2020-08-18 09:30:05 1430 1

原创知识图谱问答系列文档（二）——从零开始搭建一个通用知识图谱问答【数据预处理】

本文将介绍如何从零开始搭建知识图谱问答

2020-08-18 09:27:51 1903 2

原创知识图谱问答系列文档（一）——思知机器人简介

思知项目介绍思知机器人项目简介知识图谱对话机器人思知机器人项目简介思知项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。知识图谱融合了两千五百多万的实体，拥有亿级别的实体属性关系，机器人采用了基于知识图谱的语义感知与理解，致力于最强认知大脑。自然语言处理工具包的功能有：中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。开放的项目有： - 知识图谱 - 对话机器人 - 语义理解 - 自然语言处理知识图谱ownthink提供了1.4亿条知识图谱数据，而且

2020-08-18 09:20:48 2835 1

原创基于动态规划思想的编辑距离计算

编辑距离：给定两文本或句子，计算需要多少步操作能够从一个句子转换为另外一个句子，允许操作有增加、删除和替换。距离越小，说明二者越相似，距离与大，说明二者差距越大。对于已经映射后的实体、属性，利用编辑距离计算文本相似度，准确率高、计算量小。利用动态规划计算编辑距离，其模型如下：对于两个字符串a和b，计算两个字符串的相似度，即计算两个字符串的编辑距离，相当于计算它们字串的编辑距离，再加上从子串到...

2020-02-25 20:41:08 339

原创 python实现冒泡排序、插入排序以及快速排序算法

最近参加实习面试，面试官提到了有关排序算法的问题，现将冒泡排序、插入排序和快速排序算法的思想及python3实现的代码，具体如下：# -*- coding: utf-8 -*-"""Created on Thu Dec 19 11:10:42 2019@author: Boge"""arr_1= [6,3,9,15,4,2]arr_2 = [7,1,4,8,26,43,2,3]...

2020-01-06 20:34:25 616 2

华理小波哥