自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (5)
  • 收藏
  • 关注

原创 实践篇(五):KBQA Demo

作为实践篇的最后一篇,我们将介绍如何用Python完成一个简易的问答程序。下图是demo的展示效果:查询结果为空,回答“I don’t know.”;不能理解问句,回答“I can’t understand.”。本实现参考了王昊奋老师发布在OpenKG上的demo“基于REfO的KBQA实现及示例”,读者也可以参考此示例,来完成本demo。下面谈谈本demo的流程。一、基本流程

2018-01-28 11:25:43 6057 1

原创 实践篇(四):Apache jena SPARQL endpoint及推理

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。在上一篇我们学习了如何利用D2RQ来开启endpoint服务,但它有两个缺点: 1. 不支持直接将RDF数据通过endpoint发布到网络上。 2. 不支持推理。这次我们介绍的Apache jena能够解决上面两个问题。一、Apache Jena简介Apache Jena(后文

2018-01-28 11:24:08 6404 7

原创 (分享)2017云栖大会知识图谱专场

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。今天和大家分享一下阿里2017云栖大会知识图谱专场的内容,一共有六场报告。知识图谱在阿里的发展。清华大学李涓子老师从知识工程的角度讲解机器智能。新加坡资讯通信研究院的苏俭老师分享了他们在在自然语言处理方面的工作。浙江大学陈华均老师介绍了中文知识图谱概况。狗尾草CTO王昊奋结合他们的产

2018-01-18 21:21:32 5144 3

原创 实践篇(三):D2RQ SPARQL endpoint与两种交互方式

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。这次我们介绍利用D2RQ开启SPARQL endpoint服务和两种交互方式:在浏览器中进行查询或者编写python脚本进行交互。跳过之前实践篇练习的读者,需要做的准备有:导入数据到Mysql,下载mapping文件(项目地址)。一、SPARQL endpoint前一篇介绍SPARQL

2018-01-18 21:13:25 4383 7

原创 RDF查询语言SPARQL

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。前面我们已经介绍过了语义网技术栈中的RDF,RDFS/OWL。这次我们介绍最后一个核心技术标准——SPARQL(RDF,OWL和SPARQL称为语义网的三大核心技术)。RDF本质上是一种数据模型,那么我们如何在RDF上进行查询呢?类似使用SQL查询关系数据库,我们使用SPARQL查询RDF格式的数

2018-01-07 13:24:45 13814 4

原创 实践篇(二):关系数据库到RDF

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。上一篇文章介绍了我们所使用的数据。其实,知识图谱数据的来源主要有三个:结构化数据、半结构化数据和非结构化的数据。我们所使用的电影数据就是结构化的数据。半结构化的数据指的是数据有一定的组织形式,但较结构化数据而言更松散(属性名和属性值具有多样性,比如“生日”就有“出生日期”、“诞辰”等多种表达方式)

2018-01-06 14:07:41 14501 3

原创 实践篇(一):数据准备和本体建模

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。通过前面几篇文章的介绍,读者应该对知识图谱,其相关概念,以及语义网技术栈中的RDF,RDFS/OWL有了一定的了解。然而,之前我们都是在介绍一些概念性的东西。实践才出真知,理论掌握得再好,不能解决实际问题也只是纸上谈兵。因此,笔者准备开一个实践篇,结合理论篇,让读者能够从无到有构建一个领域知识图谱,并在

2017-12-27 13:09:41 22926 6

原创 知识图谱基础之RDF,RDFS与OWL

对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。看过之前两篇文章(1, 2)的读者应该对RDF有了一个大致的认识和理解。本文将结合实例,对RDF和RDFS/OWL,这两种知识图谱基础技术作进一步的介绍。其实,RDF、RDFS/OWL是类语义网概念背后通用的基本技术,而知识图谱是其中最广为人知的概念。一、知识图谱的基石:RDFRDF表现形式RDF(Re

2017-12-18 15:56:07 63261 11

原创 语义网络,语义网,链接数据和知识图谱

前一篇文章“为什么需要知识图谱?什么是知识图谱?——KG的前世今生”提及了和知识图谱相关的一些早期概念。为了让读者能够更好地区分这些概念,以及更好地在整体上把握知识谱图发展过程,本文将对这些概念作一个更为详细的介绍。一、语义网络(Semantic Network)对于初学者来讲,这个概念很容易和语义网(Semantic Web)相混淆。为了行文

2017-12-09 20:26:23 18945 1

原创 为什么需要知识图谱?什么是知识图谱?——KG的前世今生

我的知乎专栏,对知识图谱感兴趣的朋友可以关注。标题的命名顺序可能让有的读者不太习惯。通常在介绍一个陌生事物的应用前,我们先给出其定义。之所以换个顺序,是为了不让读者一开始就接触比较冰冷生硬的概念刻板描述(后面我尽量用更具体、准确的例子来表达),另一方面也是为了通过现实生活中的例子自然的引入知识图谱的概念。希望通过这种方式加深读者的印象和理解。为了减轻读者理解的负担,我尽可能地避免引入过多的概念和技术

2017-12-06 18:59:47 85557 13

原创 利用mongo-connector将mongodb数据同步到elasticsearch的流程以及会遇到的坑

原文地址 mongodb虽然也提供索引功能,但是功能比较简单,在某些场景下速度相当慢(比如模糊查询的时候)。数据量小的时候也许体现不出来,当数据量达到1000W条记录,所占硬盘大小为10G左右的时候,你就会开始为mongodb提供的查询功能感到头疼。这个时候我们一般采用一款搜索服务器作为查询的后端。我的实际需求是对存储在mongodb中的1000W条百科数据记录进行查询,一次查询包括全匹配、部分匹

2017-05-12 14:34:37 5947

原创 LeetCode:3. Longest Substring Without Repeating Characters

原文链接QuestionGiven a string, find the length of the longest substring without repeating characters.Examples:Given "abcabcbb", the answer is "abc", which the length is 3.Given "bbbbb", the answer is "b",

2017-03-14 22:24:08 395

原创 LeetCode:2. Add Two Numbers

原文链接QuestionYou are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and each of their nodes contain a single digit. Add the two nu

2017-03-14 16:51:34 375

原创 LeetCode:1. Two Sum

原文链接QuestionGiven an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may

2017-03-14 16:50:45 310

原创 爬虫网页编码及网页内容乱码处理

更多内容请查看原文  在处理爬虫获取的网页之前,我们需要知道爬取网页的编码格式,然后才能正确的对其进行解码,编码成目标格式保存或者进行后续的文本处理。特别在是多语种环境下,正确获取网页编码格式尤为重要。 我们可以通过人工的方式查看网页源代码中的meta标签下的content属性,其中的charset表示网页的编码格式。所谓爬虫,其本质是自动化程序,那么怎么自动获取网页的编码格式?python的ur

2016-03-01 21:35:24 7973 1

原创 Markdown解析器不同引起的html转换问题

我们知道markdown作为一门标记语言,解析器将md文件转换为html文件后,浏览器才能正确显示其内容。虽说不同的解析器,如:kramdown、maruku,都支持标准的markdown格式,但在某些格式上还是有一些区别的。   最近在使用github pages搭建博客,利用jykell本地调试时,md文件中的headers显示正常,也就是说,解析后的html文件是没有问题的。如下: #h

2016-02-20 14:04:14 2275 1

原创 LeetCode:solution of shell problems

LeetCode problems下的shell题目(截止发文日期,共有4个shell problem)主要是考察对文本处理命令的熟练程度、具体应用,也涉及到正则表达式的一些知识。1.Tenth LineDescription: How would you print just the 10th line of a file? For example, assume that file.txt h

2015-08-24 20:24:35 628

原创 《鸟哥的Linux私房菜》读书笔记:X window介绍及启动流程

X Window System简介X Window System是跨网络和操作系统的,其是一个软件。1.主要组件X Server:硬件管理、屏幕绘制和提供字型功能。X Client:负责 X Server要求的事件处理。X Client最重要的工作就是处理来自X Server的动作,将该动作处理成为绘图数据, 再将这些绘图数据传回给X Server。客户端用的是什么操作系统在Linux主机端是不

2015-06-11 23:02:45 897

原创 《鸟哥的Linux私房菜》读书笔记:Linux内核编译和管理

1.内核简介与获取内核源代码1.1 什么是内核kernel:内核(kernel)是整个操作系统的最底层,他负责了整个硬件的驱动,以及提供各种系统所需的内核功能,包含防火墙机制、是否支持LVM或Quota等文件系统。若你的内核不能识别某个最新的硬件,那该硬件也就无法被驱动,你当然也就无法使用该硬件。其实内核就是系统上面的一个档案而已, 这个档案包含了驱动主机各项硬件的侦测程序和驱动模块。内核档案一般

2015-06-11 23:01:11 1375

原创 《鸟哥的Linux私房菜》读书笔记:软件安装:RPM,SRPM和YUM功能

1.软件管理简介1.1 Linux界的两大主流: RPM和DPKGRPM(RedHat Package Manager):这个机制最早是由Red Hat开发出来的,后来发现它很好用,因此很多发行版就使用这个机制来作为软件安装的管理方式。包括Fedora, CentOS, SuSE等等知名的开发商都是在用它。通过在线升级机制YUM(指令yum)来解决软件的依赖问题。DPKG(Debian Pack

2015-05-28 22:09:04 645

原创 《鸟哥的Linux私房菜》读书笔记:软件安装——源代码与Tarball

1.开源的软件安装与升级简介1.1什么是开放源码、编译程序和可执行文件可执行文件:经过编译程序变成二进制程序后,机器能识别,可以执行的档案。开放源码:就是程序代码,写给人类看的程序语言,但机器不能识别,所以无法执行。编译程序:将程序代码转译成为机器看的懂得语言,就类似翻译者的角色1.2什么是函数库函数库:类似子程序的角色,可以被调用来执行的一段功能函数。1.3什么是make和config

2015-05-23 14:11:15 593

原创 《鸟哥的Linux私房菜》读书笔记:开机流程、模块管理与Loader

Linux开机流程,模块管理与boot loader

2015-05-19 21:58:08 753

原创 《鸟哥的Linux私房菜》读书笔记:登录文件(log)及其分析

登录文件的介绍登录文件记录了系统的活动信息,通过对这些信息进行分析,我们能够解决系统方面的错误、网络方面的问题。

2015-05-13 23:49:07 797

原创 《鸟哥的Linux私房菜》读书笔记:daemon(service)

daemon简介依据启动和管理方式,daemon分为stand alone与super daemon两类,两种方式可以同时存在。 stand alone:自启动服务,不必通过其他机制的管理,启动加载到内存后一直占用内存和资源,在内存中持续提供服务,对于客户端的要求响应速度快。常见的服务有httpd、vsftpdsuper daemon:一个特殊的daemon统一管理,其常驻内存,负责唤醒各项服

2015-05-11 21:09:57 569

原创 inode的作用在软硬链接备份策略中的体现

背景知识:在Unix like系统中(实测系统为linux),软链接(亦称符号链接,Symbolic Link)与其指向的文件的inode号不同,从概念上说明两者为不同的档案,我理解为软链接通过指向的文件找到档案(类似双重指针);硬链接(亦称实体链接,Hard Link)与其关联文件的inode号相同,从概念上表明两者为同一份档案,我理解为同一文件的不同入口,两者没有必然联系、约束,互不影响(有点类

2015-05-07 21:52:20 761

原创 《鸟哥的Linux私房菜》读书笔记:crontab、at命令详解

一、cron例行性,隔一定周期循环执行crontab指令依靠服务crond的支持,除了指令,也可以编辑/etc/crontab配置文件来执行crontab。所要执行的任务记录在/var/spool/cron/中,且以账号作判别。任务执行的日志记录在/var/log/cron中安全方面,通过修改/etc目录下的cron.allow与cron.deny来设定用户能进行cron工作安排与否,如果档案不

2015-05-07 21:48:59 834 1

原创 Windows下ACL权限介绍

Windows访问控制概述: Windows访问控制中最主要的部分:访问令牌(Access Token)和安全描述符(Security Descriptor),window通过查看访问者AT与被访问对象SD中的内容来确定访问者是否能访问对象。Windows访问控制概念介绍: ① SID:Secure Identifier(安全标识符),每个用户和账户组都有一个唯一的SID(通常情况下唯一)。

2015-05-07 21:43:47 12062

原创 《鸟哥的Linux私房菜》读书笔记:Linux中的ACL权限设定

在linux权限设置中,我们会遇见这样的情况:用户user属于group群组,假设group的权限是770,但我们不希望user修改group中的数据。这时候传统的权限设置就有局限性,无法定制个性化设置。所以我们要使用ACL机制。ACL(access control list)可以针对单一使用者、单一档案或目录来进行r,w,x的权限设定,对于需要特殊权限的使用状况非常有帮助。ACL主要可以针对以下三

2015-05-07 21:26:03 586 2

原创 《鸟哥的Linux私房菜》读书笔记:Linux磁盘配额命令quota详解

quota使用的前提条件: ①仅能针对整个FileSystem。 ②Linux核心必须支持quota。 ③quota的记录文件aquota.user,aquota.group。 ④仅对一般用户有效(root无效)。quota可以设定的项目: ①block&inode: block可以限制用户磁盘使用空间。 inode可以限制用户文件创建数量。②soft&hard 用来限制block与

2015-05-07 21:24:34 2055 1

原创 Java中,关于在子类构造函数中调用父类构造函数完成对象创建的简单分析

在使用new进行对象创建时,其实是调用了其相关类的构造方法。也就是说,对象创建时,最先执行的是构造方法。若在构造方法中没有对其类中的成员变量进行初始化,则在构造方法执行完之前,即对象还没有创建完毕,其成员变量是不存在的(此处不存在指的是内存中没有此变量)。下面通过一个小例子来说明这种情况

2014-12-13 22:33:11 2995

scrapy框架搭建所需软件

scrapy环境的搭建依赖其他很多的包,本资源提供scrapy安装所需的所有工具,亲测有效。window10, 64bit环境。

2015-12-19

X window介绍及启动流程

对Linux操作系统的桌面环境软件X window的介绍及启动流程

2015-06-02

网络通信的六种方式示例代码

网络通信的六种方式示例代码 android socket编程实例 ServletTest1 SoapAndroidTeset sserEx09 StrAnd WebAndroid WebAndroidClient

2014-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除