7 simmerchan

尚未进行身份认证

暂无相关简介

等级
TA的排名 4w+

实践篇(五):KBQA Demo

作为实践篇的最后一篇,我们将介绍如何用Python完成一个简易的问答程序。下图是demo的展示效果:查询结果为空,回答“I don’t know.”;不能理解问句,回答“I can’t understand.”。本实现参考了王昊奋老师发布在OpenKG上的demo“基于REfO的KBQA实现及示例”,读者也可以参考此示例,来完成本demo。下面谈谈本demo的流程。一、基本流程

2018-01-28 11:25:43

实践篇(四):Apache jena SPARQL endpoint及推理

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。在上一篇我们学习了如何利用D2RQ来开启endpoint服务,但它有两个缺点: 1. 不支持直接将RDF数据通过endpoint发布到网络上。 2. 不支持推理。这次我们介绍的Apache jena能够解决上面两个问题。一、Apache Jena简介Apache Jena(后文

2018-01-28 11:24:08

(分享)2017云栖大会知识图谱专场

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。今天和大家分享一下阿里2017云栖大会知识图谱专场的内容,一共有六场报告。知识图谱在阿里的发展。清华大学李涓子老师从知识工程的角度讲解机器智能。新加坡资讯通信研究院的苏俭老师分享了他们在在自然语言处理方面的工作。浙江大学陈华均老师介绍了中文知识图谱概况。狗尾草CTO王昊奋结合他们的产

2018-01-18 21:21:32

实践篇(三):D2RQ SPARQL endpoint与两种交互方式

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。这次我们介绍利用D2RQ开启SPARQL endpoint服务和两种交互方式:在浏览器中进行查询或者编写python脚本进行交互。跳过之前实践篇练习的读者,需要做的准备有:导入数据到Mysql,下载mapping文件(项目地址)。一、SPARQL endpoint前一篇介绍SPARQL

2018-01-18 21:13:25

RDF查询语言SPARQL

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。前面我们已经介绍过了语义网技术栈中的RDF,RDFS/OWL。这次我们介绍最后一个核心技术标准——SPARQL(RDF,OWL和SPARQL称为语义网的三大核心技术)。RDF本质上是一种数据模型,那么我们如何在RDF上进行查询呢?类似使用SQL查询关系数据库,我们使用SPARQL查询RDF格式的数

2018-01-07 13:24:45

实践篇(二):关系数据库到RDF

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。上一篇文章介绍了我们所使用的数据。其实,知识图谱数据的来源主要有三个:结构化数据、半结构化数据和非结构化的数据。我们所使用的电影数据就是结构化的数据。半结构化的数据指的是数据有一定的组织形式,但较结构化数据而言更松散(属性名和属性值具有多样性,比如“生日”就有“出生日期”、“诞辰”等多种表达方式)

2018-01-06 14:07:41

实践篇(一):数据准备和本体建模

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。通过前面几篇文章的介绍,读者应该对知识图谱,其相关概念,以及语义网技术栈中的RDF,RDFS/OWL有了一定的了解。然而,之前我们都是在介绍一些概念性的东西。实践才出真知,理论掌握得再好,不能解决实际问题也只是纸上谈兵。因此,笔者准备开一个实践篇,结合理论篇,让读者能够从无到有构建一个领域知识图谱,并在

2017-12-27 13:09:41

知识图谱基础之RDF,RDFS与OWL

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。看过之前两篇文章(1,2)的读者应该对RDF有了一个大致的认识和理解。本文将结合实例,对RDF和RDFS/OWL,这两种知识图谱基础技术作进一步的介绍。其实,RDF、RDFS/OWL是类语义网概念背后通用的基本技术,而知识图谱是其中最广为人知的概念。一、知识图谱的基石:RDFRDF表现形式RDF(Re

2017-12-18 15:56:07

语义网络,语义网,链接数据和知识图谱

前一篇文章“为什么需要知识图谱?什么是知识图谱?——KG的前世今生”提及了和知识图谱相关的一些早期概念。为了让读者能够更好地区分这些概念,以及更好地在整体上把握知识谱图发展过程,本文将对这些概念作一个更为详细的介绍。一、语义网络(Semantic Network)对于初学者来讲,这个概念很容易和语义网(Semantic Web)相混淆。为了行文

2017-12-09 20:26:23

为什么需要知识图谱?什么是知识图谱?——KG的前世今生

我的知乎专栏,对知识图谱感兴趣的朋友可以关注。标题的命名顺序可能让有的读者不太习惯。通常在介绍一个陌生事物的应用前,我们先给出其定义。之所以换个顺序,是为了不让读者一开始就接触比较冰冷生硬的概念刻板描述(后面我尽量用更具体、准确的例子来表达),另一方面也是为了通过现实生活中的例子自然的引入知识图谱的概念。希望通过这种方式加深读者的印象和理解。为了减轻读者理解的负担,我尽可能地避免引入过多的概念和技术

2017-12-06 18:59:47

利用mongo-connector将mongodb数据同步到elasticsearch的流程以及会遇到的坑

原文地址 mongodb虽然也提供索引功能,但是功能比较简单,在某些场景下速度相当慢(比如模糊查询的时候)。数据量小的时候也许体现不出来,当数据量达到1000W条记录,所占硬盘大小为10G左右的时候,你就会开始为mongodb提供的查询功能感到头疼。这个时候我们一般采用一款搜索服务器作为查询的后端。我的实际需求是对存储在mongodb中的1000W条百科数据记录进行查询,一次查询包括全匹配、部分匹

2017-05-12 14:34:37

LeetCode:3. Longest Substring Without Repeating Characters

原文链接QuestionGiven a string, find the length of the longest substring without repeating characters.Examples:Given "abcabcbb", the answer is "abc", which the length is 3.Given "bbbbb", the answer is "b",

2017-03-14 22:24:08

LeetCode:2. Add Two Numbers

原文链接QuestionYou are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and each of their nodes contain a single digit. Add the two nu

2017-03-14 16:51:34

LeetCode:1. Two Sum

原文链接QuestionGiven an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may

2017-03-14 16:50:45

爬虫网页编码及网页内容乱码处理

更多内容请查看原文  在处理爬虫获取的网页之前,我们需要知道爬取网页的编码格式,然后才能正确的对其进行解码,编码成目标格式保存或者进行后续的文本处理。特别在是多语种环境下,正确获取网页编码格式尤为重要。 我们可以通过人工的方式查看网页源代码中的meta标签下的content属性,其中的charset表示网页的编码格式。所谓爬虫,其本质是自动化程序,那么怎么自动获取网页的编码格式?python的ur

2016-03-01 21:35:24

Markdown解析器不同引起的html转换问题

我们知道markdown作为一门标记语言,解析器将md文件转换为html文件后,浏览器才能正确显示其内容。虽说不同的解析器,如:kramdown、maruku,都支持标准的markdown格式,但在某些格式上还是有一些区别的。   最近在使用github pages搭建博客,利用jykell本地调试时,md文件中的headers显示正常,也就是说,解析后的html文件是没有问题的。如下: #h

2016-02-20 14:04:14

LeetCode:solution of shell problems

LeetCode problems下的shell题目(截止发文日期,共有4个shell problem)主要是考察对文本处理命令的熟练程度、具体应用,也涉及到正则表达式的一些知识。1.Tenth LineDescription: How would you print just the 10th line of a file? For example, assume that file.txt h

2015-08-24 20:24:35

《鸟哥的Linux私房菜》读书笔记:X window介绍及启动流程

X Window System简介X Window System是跨网络和操作系统的,其是一个软件。1.主要组件X Server:硬件管理、屏幕绘制和提供字型功能。X Client:负责 X Server要求的事件处理。X Client最重要的工作就是处理来自X Server的动作,将该动作处理成为绘图数据, 再将这些绘图数据传回给X Server。客户端用的是什么操作系统在Linux主机端是不

2015-06-11 23:02:45

《鸟哥的Linux私房菜》读书笔记:Linux内核编译和管理

1.内核简介与获取内核源代码1.1 什么是内核kernel:内核(kernel)是整个操作系统的最底层,他负责了整个硬件的驱动,以及提供各种系统所需的内核功能,包含防火墙机制、是否支持LVM或Quota等文件系统。若你的内核不能识别某个最新的硬件,那该硬件也就无法被驱动,你当然也就无法使用该硬件。其实内核就是系统上面的一个档案而已, 这个档案包含了驱动主机各项硬件的侦测程序和驱动模块。内核档案一般

2015-06-11 23:01:11

《鸟哥的Linux私房菜》读书笔记:软件安装:RPM,SRPM和YUM功能

1.软件管理简介1.1 Linux界的两大主流: RPM和DPKGRPM(RedHat Package Manager):这个机制最早是由Red Hat开发出来的,后来发现它很好用,因此很多发行版就使用这个机制来作为软件安装的管理方式。包括Fedora, CentOS, SuSE等等知名的开发商都是在用它。通过在线升级机制YUM(指令yum)来解决软件的依赖问题。DPKG(Debian Pack

2015-05-28 22:09:04

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!