3 一纸繁鸢

尚未进行身份认证

暂无相关简介

等级
TA的排名 113w+

Centos7.5安装mysql

1. 卸载原有mysqlrpm -qa | grep mysqlrpm -e --nodeps mysql*2. 下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm如果报错:-bash: wget: 未找到命令安装插件:yum -y install wget...

2019-11-14 14:42:17

发布自己的模块到pypi

发布自己的模块到pypi,客户端可以通过pip install jfb_balabala安装该模块一. 注册一个pypi账号网址https://pypi.org/ ,直接注册就好,非常简单二. 调整目录结构将代码文件放在一个目录下,比如:我想把上传的模块起名jfb_balabala,那我就建一个文件夹起名jfb_balabala,把代码文件放在该文件夹下,注意必须存在_...

2019-10-28 17:45:16

第一课:知识图谱的搭建-Neo4j

本文记录在Centos7下的安装过程,以及基本的数据导入使用一. 安装JDKyum install java-1.8.0-openjdk二. 下载Neo4j我把它放在了/usr/local/soft/下wget https://neo4j.com/artifact.php?name=neo4j-community-2.3.9-unix.tar.gztar -zv...

2019-10-24 15:38:50

NLP 中文短文本分类项目实践(下)

本场 Chat 和《NLP 中文短文本分类项目实践(上)》可以看做姊妹篇,在上一篇的基础上,本篇主要讲一下文本分类在集成学习和深度学习方面的应用,由于内容比较多,笔者不可能面面俱到。下面我们先从集成学习说起。一、数据科学比赛大杀器 XGBoost 实战文本分类在说 XGBoost 之前,我们先简单从树模型说起,典型的决策树模型。决策树的学习过程主要包括:特征选择: 从训练数...

2019-10-12 11:13:23

第22课:中文自然语言处理的应用、现状和未来

自然语言理解和自然语言生成是自然语言处理的两大内核,机器翻译是自然语言理解方面最早的研究工作。自然语言处理的主要任务是:研究表示语言能力和语言应用的模型,建立和实现计算框架并提出相应的方法不断地完善模型,根据这样的语言模型设计有效地实现自然语言通信的计算机系统,并研讨关于系统的评测技术,最终实现用自然语言与计算机进行通信。目前,具有一定自然语言处理能力的典型应用包括计算机信息检索系...

2019-10-12 11:13:09

第21课:Neo4j 从入门到构建一个简单知识图谱

Neo4j 对于大多数人来说,可能是比较陌生的。其实,Neo4j 是一个图形数据库,就像传统的关系数据库中的 Oracel 和 MySQL一样,用来持久化数据。Neo4j 是最近几年发展起来的新技术,属于 NoSQL 数据库中的一种。本文主要从 Neo4j 为什么被用来做知识图谱,Neo4j 的简单安装,在 Neo4j 浏览器中创建节点和关系,Neo4j 的 Python 接口操...

2019-10-12 11:12:59

第20课:知识挖掘与知识图谱概述

搜索技术日新月异,如今它不再是搜索框中输入几个单词那么简单了。不仅输入方式多样化,并且还要在非常短的时间内给出一个精准而又全面的答案。目前,谷歌给出的解决方案就是——知识图谱(Knowledge Graph)。enter image description here知识图谱能做什么?知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给我们更有意义的...

2019-10-11 19:50:51

第19课:模型部署上线的几种服务发布方式

在前面所有的模型训练和预测中,我们训练好的模型都是直接通过控制台或者 Jupyter Notebook 来进行预测和交互的,在一个系统或者项目中使用这种方式显然不可能,那在 Web 应用中如何使用我们训练好的模型呢?本文将通过以下四个方面对该问题进行讲解:微服务架构简介;模型的持久化与加载方式;Flask 和 Bottle 微服务框架;Tensorflow Serving...

2019-10-11 19:50:07

第18课:基于 CRF 的中文句法依存分析模型实现

句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。依存关系本身是一个树结构,每一个词看成一个节点,依存关系就是一条有向...

2019-10-11 19:49:21

第16课:基于 CRF 的中文命名实体识别模型实现

命名实体识别在越来越多的场景下被应用,如自动问答、知识图谱等。非结构化的文本内容有很多丰富的信息,但找到相关的知识始终是一个具有挑战性的任务,命名实体识别也不例外。前面我们用隐马尔可夫模型(HMM)自己尝试训练过一个分词器,其实 HMM 也可以用来训练命名实体识别器,但在本文,我们讲另外一个算法——条件随机场(CRF),来训练一个命名实体识别器。浅析条件随机场(CRF)条件随...

2019-10-11 19:47:52

第15课:动手实战中文命名实体提取

命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体,比如,2015年中国国家海洋局对124个国际海底地理实体的命名。enter image description here由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而...

2019-10-11 19:47:10

第14课:动手制作自己的简易聊天机器人

自动问答简介自动聊天机器人,也称为自动问答系统,由于所使用的场景不同,叫法也不一样。自动问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受...

2019-10-11 19:46:27

第12课:动手实战基于 LSTM 轻松生成各种古诗

目前循环神经网络(RNN)已经广泛用于自然语言处理中,可以处理大量的序列数据,可以说是最强大的神经网络模型之一。人们已经给 RNN 找到了越来越多的事情做,比如画画和写诗,微软的小冰都已经出版了一本诗集了。而其实训练一个能写诗的神经网络并不难,下面我们就介绍如何简单快捷地建立一个会写诗的网络模型。enter image description here本次开发环境...

2019-10-11 16:57:00

第11课:动手实战基于 CNN 的电影推荐系统

本文从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。什么是推荐系统呢?什么是推荐系统呢?首先我们来看看几个常见的推荐场景。如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐:enter image description here如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐相似商品:...

2019-10-11 16:56:07

第10课:一网打尽神经序列模型之 RNN 及其变种 LSTM、GRU

首先,我们来思考下,当人工神经网络从浅层发展到深层;从全连接到卷积神经网络。在此过程中,人类在图片分类、语音识别等方面都取得了非常好的结果,那么我们为什么还需要循环神经网络呢?enter image description here因为,上面提到的这些网络结构的层与层之间是全连接或部分连接的,但在每层之间的节点是无连接的,这样的网络结构并不能很好的处理序列数据。序...

2019-10-11 16:54:45

第8课:动手实战基于 ML 的中文短文本聚类

关于文本聚类,我曾在 Chat《NLP 中文文本聚类之无监督学习》中介绍过,文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。如下图,以 K、M、N 三个点分别为聚类的簇心,将结果聚为三类,使得簇内点的距离...

2019-10-11 16:52:27

第7课:动手实战基于 ML 的中文短文本分类

文本分类,属于有监督学习中的一部分,在很多场景下都有应用,下面通过小数据的实例,一步步完成中文短文本的分类实现,整个过程尽量做到少理论重实战。enter image description here开发环境,我们选择:Windows 系统Python 3.6Jupyter Notebook本文使用的数据是我曾经做过的一份司法数据,需求是对每一条输入数据,...

2019-10-11 16:51:34

第6课:面向非结构化数据转换的词袋和词向量模型

通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词查看文本核心思想,进而可以通过可视化技术把文档从视觉的角度表达出来。下面,我们来看看,文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型:词袋和词向量模型。词袋模型(Bag of Words Model)词袋模型的概念先来看张图,从视觉上感受一下词袋...

2019-10-11 16:50:20

第5课:了解数据必备的文本可视化技巧

为什么要文本数据可视化文字是传递信息最常用的载体,随着海量文本的涌现,信息超载和数据过剩等问题日益凸显,当大段大段的文字摆在面前,已经很少有人耐心、认真把它读完,人们急需一种更高效的信息接收方式,从视觉的角度出发,文本可视化正是解药良方。所谓一图胜千言,其实就是文本可视化的一种表现。enter image description here因此,文本可视化技术将文本...

2019-10-11 16:49:13

第4课:动手实战中文文本中的关键字提取

前言关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作...

2019-10-11 16:47:54

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。