2 山阴少年

尚未进行身份认证

个人微信公众号:Python爬虫与算法(微信号为:easy_web_scrape)

等级
TA的排名 1w+

NLP(十六)轻松上手文本分类

背景介绍  文本分类是NLP中的常见的重要任务之一,它的主要功能就是将输入的文本以及文本的类别训练出一个模型,使之具有一定的泛化能力,能够对新文本进行较好地预测。它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。  现阶段的文本分类模型频出,种类繁多,花样百变,既有机器学习中的朴素贝叶斯模型、SVM等,也有深度学习中的各种模型,比如经典的CNN,RNN,以及...

2019-08-14 01:31:22

NLP(十五)让模型来告诉你文本中的时间

背景介绍  在文章NLP入门(十一)从文本中提取时间中,笔者演示了如何利用分词、词性标注的方法从文本中获取时间。当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别效果并不太好。比如以下的两个例子:原文1:苏北大量农村住房建于上世纪80年代之前。去年9月,江苏省决定全面改善苏北农民住房条件,计划3年内改善30万户,作为决胜全面建成小康社会补短板的重要举措。...

2019-08-13 15:15:37

NLP(十四)自制序列标注平台

背景介绍  在平时的NLP任务中,我们经常用到命名实体识别(NER),常用的识别实体类型为人名、地名、组织机构名,但是我们往往也会有识别其它实体的需求,比如时间、品牌名等。在利用算法做实体识别的时候,我们一般采用序列标注算法,这就对标注的文本格式有一定的要求,因此,一个好的序列标注的平台必不可少,将会大大减少我们标注的工作量,有效提升算法的更新迭代速度。  本文将介绍笔者的一个工作:自制的序列...

2019-08-09 00:07:08

NLP(十三)中文分词工具的使用尝试

  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。  首先我们先准备好环境,即需要安装三个模块:pyltp,jieba,pkuseg以及LTP的分型模型cws.model。在用户字典中添加以下5个词语:经少安贺凤英F-35战斗机埃达尔·阿勒坎  测试的Python代码如下:#-*-coding:utf-8-*-...

2019-08-03 17:22:20

NLP(十二)依存句法分析的可视化及图分析

  依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。  我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,需要事件下载pos.model和parser.model文件。  本文使用的示例句子为:2...

2019-07-29 23:05:34

NLP入门(十一)从文本中提取时间

  在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间。  举个简单的例子,我们需要从下面的文本中提取时间:6月28日,杭州市统计局权威公布《2019年5月月报》,杭州市医保参保人数达到1006万,相比于2月份的989万,三个月暴涨16万人参保,傲视新一线城市。我们可以从文本有提取6月28日,2019年5月,2月份这三个有效...

2019-07-14 19:43:13

Docker入门(四)——MySQL镜像中的数据库可视化

  在详细介绍这篇文章的内容前,需要说明下笔者写这篇文章的意图:笔者在现有的开发中,前后端联调的方式为Docker镜像对接,数据库使用MySQL镜像,开发环境为远程服务器,因此,笔者迫切需要一种能将远程服务器端的MySQL镜像中的数据库进行可视化。如何使用MySQL镜像?  利用dockersearchmysql命令可以搜索关于MySQL的Docker镜像,利用dockerpullmy...

2019-07-07 22:08:13

利用关系抽取构建知识图谱的一次尝试

关系抽取  信息抽取(InformationExtraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取(RelationExtraction,RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系,是自然语言处理(NLP)中的一项基本任务。比如,我们可以从下面的一段话中,鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主...

2019-06-29 17:39:58

Python中的测试工具

  当我们在写程序的时候,我们需要通过测试来验证程序是否出错或者存在问题,但是,编写大量的测试来确保程序的每个细节都没问题会显得很繁琐。在Python中,我们可以借助一些标准模块来帮助我们自动完成测试过程,比如:unittest:一个通用的测试框架;doctest:一个更简单的模块,是为检查文档而设计的,但也非常适合用来编写单元测试。  下面,笔者将会简单介绍这两个模块在测试中的应用...

2019-06-09 11:38:14

BERT的几个可能的应用

  BERT是谷歌公司于2018年11月发布的一款新模型,它一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。一经公布,它便引爆了整个NLP界,其在11个主流NLP任务中都取得优异的结果,因此成为NLP领域最吸引人的一个模型。简单来说,BERT就是在训练了大量的文本语料(无监督)之后,能够在对英语中的单词(或中文的汉字)给...

2019-06-07 11:12:40

NLP入门(十)使用LSTM进行文本情感分析

情感分析简介  文本情感分析(SentimentAnalysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。  本文将介绍情感分析中的情感极性(倾向)分析。所谓情感极性分析,指的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶...

2019-05-18 15:55:56

Python之将Python字符串生成PDF

  笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF。比如,需要把Python字符串‘这是测试文件’生成为PDF,该PDF中含有文字‘这是测试文件’。  经过一番检索,笔者决定采用wkhtmltopdf这个软件,它可以将HTML转化为PDF。wkhtmltopdf的访问网址为:https://wkhtmltopdf.org/downloads.html,读者可根据...

2019-05-17 13:30:33

SPARQL入门(二)使用Java操作ARQ

  在文章SPARQL入门(一)SPARQL简介与简单使用中,我们了解了RDF、SPARQL以及基于Java编写的SPARQL处理器ARQ。在本文中,笔者将会如何使用Java来操作ARQ。  注意到在Jena的官网http://jena.apache.org/download/index.cgi说明中,有关于Maven的使用方法介绍:因此可以使用Maven,然后再用Java来操作ARQ,J...

2019-05-15 14:02:03

SPARQL入门(一)SPARQL简介与简单使用

  知识图谱(KnowledgeGraph)是当前互联网最炙手可热的技术之一,它的典型应用场景就是搜索引擎,比如Google搜索,百度搜索。我们在百度搜索中输入问题“中国银行的总部在哪”,搜索的结果如下:这便是知识图谱的典型应用,能够直接输出问题的答案。借助知识图谱,能够让搜索引擎更加高效,搜索结果更加精准,给用户带来更好的搜索体验和乐趣。  关于知识图谱的知识点和工具数不胜数,我们在学习...

2019-05-14 23:32:31

NLP入门(九)词义消岐(WSD)的简介与实现

词义消岐简介  词义消岐,英文名称为WordSenseDisambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。  那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,但人通过学习又是可以正确地区分出来的。  以**“小米”**这个词为例,如果仅仅只是说“小米”这个词...

2019-05-12 00:01:15

利用百度文字识别API识别图像中的文字

  本文将会介绍如何使用百度AI开放平台中的文字识别服务来识别图片中的文字。百度AI开放平台的访问网址为:http://ai.baidu.com/,为了能够使用该平台提供的AI服务,你需要事先注册一个百度账号。创建百度AI文字识别应用  在百度AI开放平台中,登录自己的百度账号,点击**“文字识别”服务中的“通用场景文字识别”,选择“创建应用”**,填好应用名称,选择应用类型,填好应用描述,这...

2019-05-11 22:02:00

NLP入门(八)使用CRF++实现命名实体识别(NER)

CRF与NER简介  CRF,英文全称为conditionalrandomfield,中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。  较为简单的条件随机场是定义在线性链上的条件随机场,称为线性链条件随机场(linearchainconditionalrandomfield).线...

2019-04-30 12:57:57

Cayley图数据库的可视化(Visualize)

引入  在文章Cayley图数据库的简介及使用中,我们已经了解了Cayley图数据库的安装、数据导入以及进行查询等。  Cayley图数据库是Google开发的开源图数据库,虽然功能还没有Neo4J来得那么强大,但也有很多新的功能等待着我们去探索。本文将继续上篇文章的旅程,给读者介绍如何在Cayley图数据库中实现查询结果的可视化。  下面,让我们一起来探究Cayley的奥秘吧~查询结果可...

2019-04-09 10:12:36

Cayley图数据库的简介及使用

图数据库  在如今数据库群雄逐鹿的时代中,非关系型数据库(NoSQL)已经占据了半壁江山,而图数据库(GraphDatabase)更是攻城略地,成为其中的佼佼者。  所谓图数据库,它应用图理论(GraphTheory)可以存储实体的相关属性以及它们之间的关系信息。最常见例子就是社会网络中人与人之间的关系。相比于关系型数据库(比如MySQL等),图数据库更能胜任这方面的任务。  图数据库现...

2019-04-07 13:48:16

文本服务器的两种实现方式

简介  在日常的工作项目中,我们常常会需要用到文件服务器,即在网页端就能访问到本地的电脑中某个文件夹下的所有文件,示例界面如下:  本文将介绍笔者接触到的两种实现文件服务器的方法,它们所使用的工具如下:NginxPython本文以Linux系统(Ubuntu系统)为例,具体介绍如何实现文件服务器。Nginx实现文件服务器####Nginx的简介与安装  Nginx是一个高性能...

2019-03-29 23:13:26

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。