2 剑与星辰

尚未进行身份认证

个人微信公众号:Python爬虫与算法(微信号为:easy_web_scrape)

等级
博文 212
排名 1w+

Python中的测试工具

  当我们在写程序的时候,我们需要通过测试来验证程序是否出错或者存在问题,但是,编写大量的测试来确保程序的每个细节都没问题会显得很繁琐。在Python中,我们可以借助一些标准模块来帮助我们自动完成测试过程,比如:unittest:一个通用的测试框架;doctest:一个更简单的模块,是为检查文档而设计的,但也非常适合用来编写单元测试。  下面,笔者将会简单介绍这两个模块在测试中的应用...

2019-06-09 11:38:14

BERT的几个可能的应用

  BERT是谷歌公司于2018年11月发布的一款新模型,它一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。一经公布,它便引爆了整个NLP界,其在11个主流NLP任务中都取得优异的结果,因此成为NLP领域最吸引人的一个模型。简单来说,BERT就是在训练了大量的文本语料(无监督)之后,能够在对英语中的单词(或中文的汉字)给...

2019-06-07 11:12:40

NLP入门(十)使用LSTM进行文本情感分析

情感分析简介  文本情感分析(SentimentAnalysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。  本文将介绍情感分析中的情感极性(倾向)分析。所谓情感极性分析,指的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶...

2019-05-18 15:55:56

Python之将Python字符串生成PDF

  笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF。比如,需要把Python字符串‘这是测试文件’生成为PDF,该PDF中含有文字‘这是测试文件’。  经过一番检索,笔者决定采用wkhtmltopdf这个软件,它可以将HTML转化为PDF。wkhtmltopdf的访问网址为:https://wkhtmltopdf.org/downloads.html,读者可根据...

2019-05-17 13:30:33

SPARQL入门(二)使用Java操作ARQ

  在文章SPARQL入门(一)SPARQL简介与简单使用中,我们了解了RDF、SPARQL以及基于Java编写的SPARQL处理器ARQ。在本文中,笔者将会如何使用Java来操作ARQ。  注意到在Jena的官网http://jena.apache.org/download/index.cgi说明中,有关于Maven的使用方法介绍:因此可以使用Maven,然后再用Java来操作ARQ,J...

2019-05-15 14:02:03

SPARQL入门(一)SPARQL简介与简单使用

  知识图谱(KnowledgeGraph)是当前互联网最炙手可热的技术之一,它的典型应用场景就是搜索引擎,比如Google搜索,百度搜索。我们在百度搜索中输入问题“中国银行的总部在哪”,搜索的结果如下:这便是知识图谱的典型应用,能够直接输出问题的答案。借助知识图谱,能够让搜索引擎更加高效,搜索结果更加精准,给用户带来更好的搜索体验和乐趣。  关于知识图谱的知识点和工具数不胜数,我们在学习...

2019-05-14 23:32:31

NLP入门(九)词义消岐(WSD)的简介与实现

词义消岐简介  词义消岐,英文名称为WordSenseDisambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。  那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,但人通过学习又是可以正确地区分出来的。  以**“小米”**这个词为例,如果仅仅只是说“小米”这个词...

2019-05-12 00:01:15

利用百度文字识别API识别图像中的文字

  本文将会介绍如何使用百度AI开放平台中的文字识别服务来识别图片中的文字。百度AI开放平台的访问网址为:http://ai.baidu.com/,为了能够使用该平台提供的AI服务,你需要事先注册一个百度账号。创建百度AI文字识别应用  在百度AI开放平台中,登录自己的百度账号,点击**“文字识别”服务中的“通用场景文字识别”,选择“创建应用”**,填好应用名称,选择应用类型,填好应用描述,这...

2019-05-11 22:02:00

NLP入门(八)使用CRF++实现命名实体识别(NER)

CRF与NER简介  CRF,英文全称为conditionalrandomfield,中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。  较为简单的条件随机场是定义在线性链上的条件随机场,称为线性链条件随机场(linearchainconditionalrandomfield).线...

2019-04-30 12:57:57

Cayley图数据库的可视化(Visualize)

引入  在文章Cayley图数据库的简介及使用中,我们已经了解了Cayley图数据库的安装、数据导入以及进行查询等。  Cayley图数据库是Google开发的开源图数据库,虽然功能还没有Neo4J来得那么强大,但也有很多新的功能等待着我们去探索。本文将继续上篇文章的旅程,给读者介绍如何在Cayley图数据库中实现查询结果的可视化。  下面,让我们一起来探究Cayley的奥秘吧~查询结果可...

2019-04-09 10:12:36

Cayley图数据库的简介及使用

图数据库  在如今数据库群雄逐鹿的时代中,非关系型数据库(NoSQL)已经占据了半壁江山,而图数据库(GraphDatabase)更是攻城略地,成为其中的佼佼者。  所谓图数据库,它应用图理论(GraphTheory)可以存储实体的相关属性以及它们之间的关系信息。最常见例子就是社会网络中人与人之间的关系。相比于关系型数据库(比如MySQL等),图数据库更能胜任这方面的任务。  图数据库现...

2019-04-07 13:48:16

文本服务器的两种实现方式

简介  在日常的工作项目中,我们常常会需要用到文件服务器,即在网页端就能访问到本地的电脑中某个文件夹下的所有文件,示例界面如下:  本文将介绍笔者接触到的两种实现文件服务器的方法,它们所使用的工具如下:NginxPython本文以Linux系统(Ubuntu系统)为例,具体介绍如何实现文件服务器。Nginx实现文件服务器####Nginx的简介与安装  Nginx是一个高性能...

2019-03-29 23:13:26

用tornado实现图片标记

背景介绍  在文章Keras入门(四)之利用CNN模型轻松破解网站验证码中,其中的验证码图片标记是采用tornado实现的网页实现的。本文将会讲述如何利用tornado来实现图片标记。  我们的示例图片如下:我们实现用tornado来实现一个网站,能够很好地帮助我们完成图片标记,也就是我们只需要输入图片中的数字,那么保存后的图片名称就是输入的数字。  下面,让我们来一起看一下怎么这个功能...

2019-03-26 09:29:54

Keras入门(四)之利用CNN模型轻松破解网站验证码

项目简介  在之前的文章keras入门(三)搭建CNN模型破解网站验证码中,笔者介绍介绍了如何用Keras来搭建CNN模型来破解网站的验证码,其中验证码含有字母和数字。  让我们一起回顾一下那篇文章的处理思路:利用OpenCV对图像进行单个字符的切割,大概400多张图片;对切割好的单个字符进行人工手动标记;搭建合适的CNN模型,对标记好的数据集进行训练;对于新的验证码,先切割单个字符...

2019-03-24 15:33:31

Elasticsearch简介与实战

什么是Elasticsearch?  Elasticsearch是一个开源的分布式、RESTful风格的搜索和数据分析引擎,它的底层是开源库ApacheLucene。  Lucene可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有,但它也仅仅只是一个库。为了充分发挥其功能,你需要使用Java并将Lucene直接集成到应用程序中。更糟糕的是,您可能需要获得信...

2019-03-06 14:41:16

PyTorch入门(一)向量

什么是PyTorch?  PyTorch是Facebook人工智能团队开发的一个机器学习和深度学习工具,用于处理大规模图像分析,包括物体检测,分割与分类。但是它的功能不仅限于此。它与其它深度学习框架结合,能够完成复杂的算法。PyTorch用Python和C++编写。  PyTorch属于深度学习框架中的重要一员,与TensorFlow,Keras,Theano等其它深度学习框架不同,它是...

2019-02-28 15:02:32

Neo4j入门之中国电影票房排行浅析

什么是Neo4j?  Neo4j是一个高性能的NoSQL图形数据库(GraphDatabase),它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。  作为图形数据库,Neo4j最让人惊喜的功能就...

2019-02-24 00:25:55

利用tornado实现表格文件预览

项目介绍  本文将介绍笔者的一个项目,主要是利用tornado实现表格文件的预览,能够浏览的表格文件支持CSV以及Excel文件。预览的界面如下:  下面我们将看到这个功能是如何通过tornado来实现的。代码  该项目的代码结构如下图所示:  其中主要分为四个部分:filesstatictemplatespy代码其中,files文件夹为上传的表格文件的存放路径,sta...

2019-02-22 10:52:36

Docker入门(三)使用Docker Compose

Compose介绍  Compose项目是Docker官方的开源项目,负责实现对Docker容器集群的快速编排。Compose是一个用户定义和运行多个容器的Docker应用程序。在Compose中你可以使用YAML文件来配置你的应用服务。然后,只需要一个简单的命令,就可以创建并启动你配置的所有服务。为什么使用Compose  在Docker镜像构成和定制介绍中,我们可...

2019-02-20 18:44:49

Docker入门(二)在docker使用MongoDB

  本文将介绍如何在docker中使用MongoDB。  如果你是一名MongoDB的初学者,那么你入门MongoDB的第一件事就是安装MongoDB,但是安装MongoDB又不是一件简单的事情,还需要自己配置一些服务。这时候,docker就能帮上大忙,它能够让你不需要本地安装MongoDB就能使用MongoDB。下面让我们来看看这是怎么实现的。  首先你的电脑上需要安装docker,然后在d...

2019-02-20 16:55:25
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。