自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一梦南柯

智者见于未萌,愚者暗于成事。

  • 博客(113)
  • 资源 (8)
  • 问答 (1)
  • 收藏
  • 关注

原创 问答系统实践(二)构建聊天机器人小天1.0

口水简介本文主要教你如何构建基于模糊检索和深度学习的聊天机器人。之前在专栏的一篇文章已经介绍了FAQ客服机器人的基本构建流程,所以本文就不重复介绍了。详细请参看:其实无论客服机器人还是聊天机器人都离不开文本匹配,所以对于研究文本匹配的童鞋来说,能将自己所学的技术快速的应用到生活中去,算是一件最开心的事情了吧。本专栏介绍的聊天机器人均属于单轮检索式机器人,那多轮对话啥的,如果你看成由多个一轮...

2019-07-25 16:26:07 1499 3

原创 基于知识图谱的厨房领域问答系统构建

1 厨房领域的问答系统智能厨房主要分为4个部分菜谱.通过问答系统,你可以知道哪一道菜,比如说红烧肉怎么做等等 音乐. 比如,说“我想听一个轻松的音乐” 视频.比如,说我想看《人民的名义》第九集 厨电的控制. 指令式反馈,比如,打开油烟机,打开灶具,类似于一个中控系统整体流程:语音识别. 科大讯飞和思必弛较为出众,目前调用的是科大讯飞的接口 文本纠错. 一、概率模型...

2019-05-31 16:28:55 1856 1

转载 如何将ELMo词向量用于中文

ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实验可得,使用了Elmo词向量之后,许多NLP任务都有了大幅的提高。论文:Deep contextualized word representationsAllenNLP一共rel...

2019-05-29 21:55:17 1768

转载 二分类logloss不降的原因及分析

当二分类loss在0.693并且一直不降的时候,就应该意识到模型出问题了,当然可能是你的模型结构出问题或者设置的参数不合适。三个问题,logloss是可以大于1的吗?它的正常范围应该是多少?一般多小的logloss算是好的分类器?logloss可以大于1,但是对于二元分类来说,大于1说明这个模型是比较糟糕。回顾一下loglosslogloss的公式其中n是测试样本的个数,pi为预测...

2019-05-12 20:19:42 7635 6

原创 GitHub代码阅读插件

一、插件下载Octotreeinsight.io for github(GitHub代码阅读插件)下载二、安装怎么在谷歌浏览器中安装.crx扩展名的离线Chrome插件?chrome 67版本后无法拖拽离线安装CRX格式插件的解决方法打开谷歌扩展程序:chrome://extensions/...

2019-04-24 15:16:18 3924

转载 自己动手打造Github代码泄露监控工具

0×00 背景众说周知,Github这块肥肉很受安全人员和黑客关注。因为很多新进程序猿和老手不经意就会把他们的劳动成果分享出来,而往往这种开源精神,奉献精神会对企业带来一定的安全风险。例如代码里面包含各种敏感信息(用户名、密码、数据库信息、内网IP,甚至程序猿的身高、体重、年龄和婚姻状况。哈哈),所以Github信息泄露监控就不得不亮剑。另外也是小弟所在的企业被第三方找出有敏感信息泄露,囧...

2019-04-24 14:49:31 3929 2

转载 基于 bi-LSTM和CRF的中文命名实体识别

follow:https://github.com/zjy-ucas/ChineseNER这里边主要识别的实体如图所示,其实也就主要识别人名PER,机构ORG和地点LOC: B表示开始的字节,I表示中间的字节,E表示最后的字节,S表示该实体是单字节例子:实现架构:1. 读取数据集,数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个...

2019-04-10 21:48:05 1246

原创 ELMO小谈

现在谈EMLO,倒是有点食之微味,弃之可惜的意思。2018年,BERT的横空出世撼动了NLP的半壁江山,nlper无不知晓,多项刷榜记录让多数奋战在一线钻研算法的工程师们一刹那觉得自己的努力也仅仅只是感动了自己而已,自然而然,BERT的风光掩盖了ELMO。但是,我个人觉得,从word2vec,glove到ELMO,BERT,ELMO算是一个比较精彩的转折点吧,有着承前启后的作用,于是,今天就来...

2019-04-10 19:26:03 2151

原创 中文检索式问答机器人模型

检索式问答机器人最典型的一个例子就是FAQ客服机器人。什么是FAQ呢?简介:在智能客服的业务场景中,对于用户频繁会问到的业务知识类问题的自动解答(以下简称为FAQ)是一个非常关键的需求,可以说是智能客服最为核心的用户场景,基本上来说,就是用户使用智能客服系统,提问了一个业务知识的问题,系统需要在知识库里找到最合适的那一个答案,且一般来说,知识库都是人工事先编辑好的。例子:比如10086的在...

2019-04-04 17:20:03 4694 1

原创 Pandas处理数据基本操作汇总

本文主要介绍pandas的一些基本操作,也是用的比较频繁是操作。主要分为以下几点:1. pandas查看数据类型等2. pandas构建一个完整的dataframe3. pandas取行列的3种方法4.Pandas实现where filter以及逻辑语句5. pandas对where条件筛选后只有一行的dataframe取其中某一列的值6. pandas数据去重7.p...

2019-04-02 11:29:24 2791

原创 Pandas分析职位数据

主要内容是进行数据读取,数据概述,数据清洗和整理,分析和可视化。都是pandas的一些基本操作。# -*- coding: utf-8 -*-# @Time : 2019/3/28 20:45# @Author : Alan# @Email : [email protected]# @File : analysis1.py# @Software: Py...

2019-03-30 15:46:37 565

转载 python 异常处理中try else语句的使用

try: 语句...except 异常的名称: 语句...如果未发生异常则运行try之下的语句,如果发生了异常,则运行except下面的语句.,epcept之后的异常类型只在发生对应异常时生效.a=10b=0try: c = b/ a print(c)except IOError ,ZeroDivisionError: passels...

2019-03-29 21:42:06 1431

转载 编写规范的readme文件

为什么要写这篇博客?  其实我是一个入坑已经半年的程序员,因为不是计算机专业,只能自己摸索,所以我深知博客的重要性。每次我的学习笔记啊,项目的,面试题啊,有的,只要有时间,我肯定上传上来,一方面自己可以随时随地的看,另一方面也可以方便大家。  了解一个项目,恐怕首先都是通过其Readme文件了解信息。如果你以为Readme文件都是随便写写的那你就错了。github,oschina git ...

2019-03-29 21:34:29 32908 2

原创 Multihop Atention Networks for QA Matching

文章链接:MAN原作代码地址:pytorch出处:SIGIR’18, July 8-12, 2018, Ann Arbor, MI, USA推荐理由:作者在introduction和related work中把前人的工作介绍得非常详细,诚意满满,至少在我眼里看来并不是在划水,比较适合入门。 作者想法比较新颖,利用动态记忆网络(DMNS)的思想进行建模,同时作者摒弃了在AS任务中用...

2019-03-14 15:22:31 1200 3

转载 Hardware assisted virtualization and data execution protection must be enabled in the BIOS

Hardware assisted virtualization and data execution protection must be enabled in the BIOSIf the features described are enabled the problem is with Hyper-V that is disabled or Hypervisor agent not...

2018-12-10 09:24:16 1972

原创 CNCC_2018----“认知图谱与知识推理”

前几天去参加了CNCC2018,听了一些报告,主要是关于知识图谱和NLP的。写一些会议上听到的比较好的一些点。专题讲座1: 学术图谱中的认知问题王冠三,Managing Director of Microsoft Research主要收获:1.图谱先有认知,后有推理2.Distributional SimilaritySimilar concepts appear in s...

2018-10-29 20:31:32 3421

转载 tensorflow 语音识别

python中关于语音处理的库scipy.io.wavfile python_speech_features 读取wav文件import scipy.io.wavfile as wavfs, audio = wav.read(file_name)对读取的音频信息求MFCC(Mel频率倒谱系数)from python_speech_features import mfccfr...

2018-09-10 10:55:17 3014

转载 SparseTensor

TensorFlow使用三个dense tensor来表达一个sparse tensor:indices、values、dense_shape。假如我们有一个dense tensor:[[1, 0, 0, 0] [0, 0, 2, 0] [0, 0, 0, 0]]那么用SparseTensor表达这个数据对应的三个dense tensor如下: indices:[[0, 0...

2018-09-10 10:48:42 13147

转载 Python中读取txt文本出现“ 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”的解决办法

错误的意思是:Unicode的解码(Decode)出现错误(Error)了,以gbk编码的方式去解码(该字符串变成Unicode),但是此处通过gbk的方式,却无法解码(can’t decode )。“illegal multibyte sequence”意思是非法的多字节序列,即没法(解码)了。    此种错误,可能是要处理的字符串本身不是gbk编码,但是却以gbk编码去解码 。比如,字符串...

2018-09-08 16:03:52 6543

转载 tensorflow读取数据-tfrecord格式

关于tensorflow读取数据,官网给出了三种方法:1、供给数据:在tensorflow程序运行的每一步,让python代码来供给数据2、从文件读取数据:建立输入管线从文件中读取数据3、预加载数据:如果数据量不太大,可以在程序中定义常量或者变量来保存所有的数据。这里主要介绍一种比较通用、高效的数据读取方法,就是tensorflow官方推荐的标准格式:tfrecord。referen...

2018-09-08 15:07:23 191

转载 char-rnn语言建模模型

参考:https://blog.csdn.net/liuchonge/article/details/71424432https://blog.csdn.net/qq_35647180/article/details/53511429

2018-09-05 15:03:28 441

原创 每天积累一点numpy

本博客记录工程上遇到的常用的却陌生的np用法1.np.split(分割数组)1.1 等分数组In [2]: x = np.arange(9)In [3]: xOut[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8])In [8]: np.split(x,3)Out[8]: [array([0, 1, 2]), array([3, 4, 5]), ...

2018-09-04 09:29:49 409

转载 常用正则

2.常用正则表达式一、校验数字的表达式1 数字:^[0-9]*$2 n位的数字:^\d{n}$3 至少n位的数字:^\d{n,}$4 m-n位的数字:^\d{m,n}$5 零和非零开头的数字:^(0|[1-9][0-9]*)$6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7 带1-2位小数的正数或负数:^(\-)?\...

2018-09-02 18:46:10 136

原创 关于python的机器学习与数据挖掘的相关的包

数据库类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle Redis redis rredis MongoDB pymongo RMongo, rmongodb neo4j py2neo RNeo4j...

2018-08-28 13:33:10 696

原创 kmeans,k-medoids,DBSCAN聚类(密度聚类)

在实习的时候,做的基本上都是没有类标的数据,这让经常在实验室用带类标的数据做实验的我很是头疼。主要是为了熟悉聚类的一些方法,下面介绍聚类以及相应的实现方法,大部分都是别人写的,只是看过后收集整理。什么是聚类?聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类,但是究竟分成多少类,这个要取决于文档集合里文档自身的性质。下面这个图就是一个简单的例子,我们可以把不同的文档聚合为3类...

2018-08-28 11:25:19 5726

转载 Attention-over-Attention模型

0 前言Attention-over-Attention模型(AOA Reader模型)是科大讯飞和哈工大在2017ACL会议上的《Attention-over-Attention Neural Networks for Reading Comprehension》(论文地址)联合提出的。科大讯飞和哈工大在2016ACL会议上发表的另一篇论文《Consensus Attention-based...

2018-08-27 20:58:13 3629

原创 关于jupter运行tf文件出错

UnrecognizedFlagError: Unknown command line flag 'f' 解决方法:在前面定义模块添加 tf.app.flags.DEFINE_string('f', '', 'kernel')

2018-08-26 19:53:10 238

转载 tensorflow的几种next_batch方法

此处给出了几种不同的next_batch方法,该文章只是做出代码片段的解释,以备以后查看:def next_batch(self, batch_size, fake_data=False): """Return the next `batch_size` examples from this data set.""" if fake_data: fake_imag...

2018-08-26 19:16:32 3741

原创 Python3 文件读写r,w,a

f = open('yesterday','r+') # r+就是读写模式,先读一个文件,在最后写 !!最常用的f = open('yesterday','w+') # r+就是写读模式,先创建一个文件再往文件里面写f = open('yesterday','a+') # a+就是追加读写模式,先读取f = open('yesterday','rb') # rb就是读二进制文件(传输文件...

2018-08-23 13:39:42 1843

转载 SimHash算法

SimHash算法可计算文本间的相似度,实现文本去重。文本相似度的计算,可以使用向量空间模型(VSM),即先对文本分词,提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等。但这样做的缺点是复杂度会很高。 基于VSM的文本相似度计算,对于小量数据处理是可以的,但对于百度,google这样的搜索引擎,爬虫每天爬取的网页数目大得惊人,为了防止网...

2018-08-19 20:39:08 3831

转载 文本匹配:语义相关性

语义相关性,比如搜索,查询词和文档如果关键字不一样,但两者是多词一义,则模型不理解语义,做语义上的匹配解决不了问题。在推荐中,商品可以由一个向量来刻画,用户也可以由一系列交互过的商品来表达,两者之间做一些语义上的匹配,能推荐出一些有新意的商品,增加推荐多样性。而传统的方法比如CF,CB等,无法学习得到这种用户和商品的相对间接的联系。适用场景:阅读理解,QA,搜索,语义蕴含,推荐,广告等。 ...

2018-08-19 19:52:46 10010

转载 深度文本匹配发展总结

1、背景介绍文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。2、数据集介绍论文中经常用到的数据集:SNLI:570K条人工标注的英文句子对,la...

2018-08-19 10:53:17 1354

转载 时间序列分类

时间序列分类比较麻烦是因为我们用于模型训练的数据的每条样本一般是一个特征向量x对应一个y的形式,而时间序列的大量的信息藏在它的结构中,不仅仅体现在数值上。没意识到这一点的话,我们提取的特征可能就没有什么价值。(其实意识到了也没用,因为还是不会处理。)总结 通过把K近邻(K=1)和动态时间规整距离结合起来,能得到一个效果突出的时间序列分类器,解决了很多人面对时间序列无所下手的问题。有兴趣的...

2018-08-19 10:15:16 14363 3

转载 极大似然估计与最大后验概率估计

前言不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚。或是当时道行太浅,或是当时积累不够。这次重游机器学习之路,看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险最小化时谈到了极大似然与最大后验的话题,第一反应是竟然在第一章就谈到了极大似然与最大后验,相信大部分初学者看到这两个词时还是怕怕的,毕竟没有太多理论基础。不过没关系,多积累,多搜集相关资料,相信...

2018-08-16 22:01:36 758

原创 Tableau Desktop Pro中文破解版

Tableau Desktop Pro中文破解版是一款专业的数据分析软件,如今Tableau 10已经推出,在界面上,开发团队重新考量了界面中的每一个元素,精心设计的新调色板可在复杂的可视化中确保形状感知均衡,并在需要时突出相关内容。新版本以数据为中心进行设计,数据集成有助于人人将尽可能多的时间用于分析,借助拖放群集之类的创新性数据分析功能,任何人可以在无需编程的情况下对自己的数据执行更多高级分析...

2018-08-15 17:33:18 22002 6

转载 python:Redirection is not supported.

Redirection isnot supported. 不支持重定向解决方法:cmd: 在CMD命令行中,输入 “python” + “空格”,即 ”python “; 将已经写好的脚本文件拖拽到当前光标位置,然后敲回车运行即可pycharm:Run->Edit Configurations,勾选 “Emulate terminal in output console”...

2018-08-12 16:42:47 3347

原创 Windows下使用Python的Curses库时 No module named _curses问题

最近在跑cnn,代码中需要引用到 curses库。我是在windows环境下进行编写的,除去在学习过程中的各种错误之后,代码仍然运行出错。报这样的错误:首先这个问题产生的 根本原因 是 curses 库不支持 windows。所以我们在下载完成python后(python 是自带 curses 库的),虽然在  python目录\Lib  中可以看到 curses 库,但其实我们是不能使用...

2018-08-12 15:52:51 8741 4

原创 pycharm专业版破解激活

今天的注册码从lan yu大神这里的可以用 http://idea.lanyus.com/打开网址后你就知道怎么操作了。

2018-08-01 14:10:34 848

原创 finelybook

推荐一个适合程序员找书的网站,名字如题。链接:http://finelybook.com/neural-network-methods-in-natural-language-processing/ 

2018-07-31 10:57:00 2658

转载 在ubuntu下安装pycharm professional

Charm一个是Python集成开发环境,它既提供收费的专业版,也提供免费的社区版本。PyCharm带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、自动完成、单元测试等等。PyCharm非常好用,而且是跨平台的,在Windows、Mac、Linux系统中都可使用。尝试使用过其他Python IDE,比如VSC、vim、ema...

2018-07-30 22:04:37 2618

学术海报Posters templates.zip

竖版学术海报ppt模板。大小为A0,33.1*46.9英寸,即841mm*1189mm,多个模板;横版学术海报等有多个压缩资源。

2019-10-12

四川大学软件项目管理课堂测试答案

该文档是四川大学研究生院开设的软件项目管理这门课的课后作业答案,写的很详细。

2018-07-12

native bayes朴素贝叶斯的python代码实现

这是native bayes朴素贝叶斯的python代码实现,代码中有注释,并且有数据集,方便阅读和理解,刚涉及机器学习想要自己做实验的可以下载看看。

2018-04-29

基于用户协同过滤usercf的python代码实现

这是关于基于用户协同过滤usercf的python代码实现,初学涉及到这方面的朋友可以下载试试,数据时基于movielen上面的,可以自己去官网下载。

2018-04-29

概率矩阵分解pmf的python代码实现

压缩包中包含概率矩阵分解的python代码实现,以及movielen上下载的数据集,可以用来自己跑实验,很方便

2018-04-29

数据库系统概念第6版实践系统参考答案

该文档为数据库系统概念第6版实践系统参考答案,里面基本上包含所有的习题,是英文版的,但是不影响解读。

2018-03-09

数据库系统概念课后答案

部分数据库系统概念课后答案,基本上是上课老师留的作业

2018-02-25

pgadmin学习手册

pgadmin是postgresql的可视化图形界面,里面有基本的客户端操作指南。

2018-02-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除