自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 收藏
  • 关注

原创 阿里小蜜技术整理

概述阿里小蜜是电子商务领域的智能私人助理,基于阿里海量消费和商家数据,结合线上、线下的生活场景需求,以智能+人工的模式提供智能导购、服务、助理的拟人交互业务体验。在跨终端、多场景领域支持多轮交互、多模交互(文本、语音和图像)和问题推荐预测;支持多模型(文本模型、客户模型、语音识别和图像识别)识别客户意图;支持多领域识别和路由分流;阿里小蜜整体体系图如下:阿里小蜜平台结构...

2018-08-07 10:00:50 12886 1

原创 对话系统评价指标

概述对话系统的指标分为两大类:客观评价指标和主观评价指标其中客观评价指标分为词重叠评价指标和词向量评价指标。【词重叠评价指标】根据生成语句与参考答案语句之间的词重叠率来进行评价【词向量评价指标】通过了解每一个词的意思来判断回复的相关性,词向量是实现这种评价方法的基础。给每个词分配一个词向量所有词的词向量矩阵通过拼接成为表示一个句子的句向量,得到生成语句和参考答案语句...

2018-08-08 23:30:35 6662

原创 Seq2Seq模型讲解

概述Seq2Seq是一个Encoder-Deocder结构的模型,输入是一个序列,输出也是一个序列。Encoder将一个可变长度的输入序列变为固定长度的向量,Decoder将这个固定长度的向量解码成可变长度的输出序列。使用x={x1,x2,...,xn}x={x1,x2,...,xn}x=\{x_1,x_2,...,x_n\}表示输入语句,y={y1,y2,...,yn}y={y1,y...

2018-08-08 17:36:08 22804 4

原创 序列标注:BiLSTM-CRF模型

概述对于序列标注问题,目前BiLSTM-CRF模型是目前使用比较流行的方法。本文以Neural Architectures for Named Entity Recognition为例,讲解BiLSTM-CRF模型在命名实体识别任务上的应用,着重于CRF层的分析。数据描述假设数据集有两种实体类型:人物(Person)和机构(Organization)。同时假设采用BIO标注体系...

2018-08-06 01:39:58 24199 1

原创 任务型多轮对话系统概述

主要模块任务型机器人核心模块主要包括三个模块:自然语言理解模块(NLU)对话管理模块自然语言生成模块(NLG) 自然语言理解模块该模块一般包含以下三个模块:领域识别:即识别该语句是不是属于这个任务场景,一般有多个机器人集成时,如闲聊机器人,问答机器人等,领域识别应当在进入任务型机器人之前做判断与分发意图识别:即识别用户意图,细分该任务型场景下的子场景、语...

2018-08-06 01:25:15 15095

原创 概率图模型:HMM和CRF

概述结构化学习(Structured Learning)概率图模型属于结构化学习的一种,把F(x,y)F(x,y)F(x,y)换成了概率。结构化学习中有三个问题:概率图模型(Graphical Model)隐马尔科夫模型(Hidden Markov Model)简介【定义】HMM(Hidden Markov Model)是一个概率模...

2018-08-06 01:21:40 3289 1

原创 Match-LSTM和Pointer Net

Match-LSTM简介Match-LSTM是由(Wang & Jiang,2016)发表在NAACL的论文提出,用于解决NLI(Natural Language Inference,文本蕴含)问题。premise:前提,代表上下文hypothesis:假设,代表一个陈述性的结论 文本蕴含问题:给定一个premise(前提),根据这个premise去判断相应的hy...

2018-08-06 01:13:01 2392 2

原创 【分布式编程】四——Pycharm运行Python版Spark程序

前言此前搭建成功分布式Spark环境,此文介绍使用Pycharm运行Python语言的Spark程序。操作步骤安装Pycharm点击下载。过程与安装Intellij IDEA类似,在此不在赘述。进入到安装目录下执行./bin pycharm-sh配置运行环境创建新项目新建一个Python文件,这里命名为main.pyfrom pyspar

2018-02-07 11:13:48 1582

原创 【分布式编程】三——基于VirtualBox的Spark完全分布式环境

前言Spark的搭建依赖于Hadoop,因此本文基于之前分布式Hadoop环境,JDK、Hadoop等已安装好,系统环境虚拟机:VirtualBoxLinux:Ubuntu 16.04 LTSHAdoop 2.7.5IDE:Intellij IDEAJDK 1.8.0_151Scala-2.12.4Spark-2.2.1操作步骤安装Scala

2018-02-07 11:13:26 753

原创 【分布式编程】二——基于Hadoop的MapReduce程序

此前配置好分布式Hadoop环境,此篇主要讲解通过Intellij IDEA编写分布式MapReduce程序以及利用Hadoop实现词频统计系统环境虚拟机:VirtualBoxLinux:Ubuntu 16.04 LTSHadoop 2.7.5IDE:Intellij IDEA JDK 1.8.0_151 安装Intellij及破解安装Intellij IDE

2018-02-07 11:12:40 1663

原创 【分布式编程】一——基于VirtualBox的Hadoop完全分布式环境搭建

系统架构虚拟机环境:VirtualBoxLinux系统:Ubuntu 16.04 LTS工具包JDK1.8Hadoop 2.7.5 拓扑结构:如下操作步骤【注】本步骤以Master为例,其他虚拟机可以使用克隆功能复制,然后更改安装常用软件安装vimsudo apt-get install vim安装工具包设置共享文件夹

2018-02-07 11:12:02 1672

原创 【汽车口碑分析】3.爬取汽车评论数据

环境配置Ubuntu 16.04Python 3.5技术框架Scrapy需求目标本项目为汽车口碑分析,第一步需要爬取对于不同车型的评论数据。选择58车的车型分类爬取评论数据。爬取流程先获取每个车型的链接,以下图中红框内的车型为例打开链接后,抓取下图红框中的总评分,写入文件中。写入总评分后,通过拼接链接进入该车型的用户评论页面。

2018-02-07 11:11:09 3361

原创 【Python Trick】Python的switch-case实现

前言在Python中,并没有实现switch-case语句,通过if-elif实现会显得麻烦,因此通过以下方式实现该语句功能。实现方式通过字典实现以如下情景为例,将百分制分数转换为五分制分数。如100%转换为5,80%转换为4等。 def foo(score): return { '100%':5,

2018-02-07 11:10:19 434

原创 Hexo主题之NextD

简介本次更改的主题为NextD,一款基于NexT而修改的主题。集成Gitment评论系统点击https://github.com/settings/applications/new注册填写内容Application name随便填写Homepage URL填写你的个人博客域名如https://tianwenyu.github.io。【注】前面的https

2018-02-07 11:05:56 551

原创 Windows中CMD命令之Tree生成目录

作用以图形显示驱动器或路径的文件夹结构格式tree [path] [/f] [/a]#/f 显示每个文件中文件的名称#/a 使用ASCII字符,而不使用扩展字符样例tree C:\Users\Administrator\.android /f >F:\path\android-tree.txt

2018-02-07 11:04:18 7767

原创 【评论文本分类】1.爬取评论数据

环境配置Ubuntu 16.04Python 3.5技术框架ScrapySeleniumPhantomJS需求目标对网址http://liuyan.cjn.cn/index.html进行数据爬取本文爬虫有三层爬取,爬取结构层次如图所示,主页面列表页面,需要利用selenium+phantomJS模拟点击加载更多按钮详情页面把主页面中的红框中的各区(功能区)、政府部门、法检及其他单位等

2017-12-27 16:22:34 2117

原创 Notepad++编译、运行C

安装MinGW编译器若安装过CodeBlocks,只需要将绝对路径MinGW/bin添加到环境变量path中。若未安装任何编译器,先安装编译器,并将bin文件夹的绝对路径添加到环境变量path中。安装NppExec插件之前文章Notepad++编译运行Java中有安装过程,在此不再重复配置C/C++编译器配置C编译器打开Plugins->NppExec-->Execute在对话框中输入cmd /

2017-12-25 17:27:06 2685

原创 利用Github Pages+Hexo搭建个人博客

技术简介Github PagesGitHub Pages 本来用于介绍托管在Github上的项目,由于它的空间免费稳定,因此适合用来搭建博客。每个帐号只能有一个仓库来存放个人主页,且仓库的名字必须是username/username.github.io。你可以通过http://username.github.io来访问你的个人主页个人主页的网站内容是在master分支下

2017-12-24 00:29:19 798

原创 Virtualbox 下LVS-NAT模式集群部署

LVS作业报告LVS作业报告系统架构客户机配置桥接IP设置虚拟机环境配置网卡模式设置sudo命令配置Director配置安装ipvsadm建立一个虚拟IP地址进行广播将该虚拟机地址添加到路由表使用ipvsadm安装LVS服务增加真实服务器设置DirectorIP查看ifconfig设置Real Server配置安装nginx服务IP设置运行测试系统架构虚拟机环境:Vir

2017-12-01 17:55:59 646

转载 CentOS 7 yum安装nginx-1.12.0

CentOS 7 中的 yum 没法直接使用 yum install nginx 这个指令去安装nginx,因为nginx这个服务不是yum库中自带的。图1是官方提供的大致安装步骤,图2是官网提供的多个版本的nginx安装包,下面是我给合自己的系统环境总结的安装方法,供大家参考:图1图21、按图1中的要求vi nginx.repo这个文件

2017-11-29 01:03:20 937

原创 CentOS 添加新用户并授权Root权限

切换到root用户 su -添加新用户 useradd xxx查看是否在/home下创建用户 ls /home删除用户 userdel -rf xxx为新创建的用户添加密码 passwd xxx 【注】xxx为用户名查看新建用户信息 tail -3 /etc/passwd切换用户 su - xxx

2017-11-28 11:35:02 1761

原创 机器学习评估方法——P值校验

目标假设在α=0.05的情况下,根据舆情监测项目需求,查看召回率和准确率的置信区间,均值。过程1.输入数据,三列分别是precision,recall,f1-score,每一列分别计算,以此为例,一共四十行。即样本容量为40 2.计算标准差 STDEV(A2:A41) 计算出的标准差放在A43单元格 3.计算置信区间 3.1公式->插入函数->CONFIDENCE.NORMAL

2017-11-26 20:10:35 5035

原创 【汽车口碑分析】1.Ubuntu 16.04 LTS下安装Scrapy

安装pip3 sudo apt-get install python3-pip安装Scrapy依赖库sudo apt-get install python-devsudo apt-get install libevent-devsudo apt-get install libssl-dev安装Scrapy sudo pip3 install scarpy

2017-11-19 22:09:27 333

原创 【汽车口碑分析】2.Ubuntu 16.04下MongoDB安装、设置与使用

Ubuntu 16.04下MongoDB安装、设置与使用安装MongoDBsudo apt-get install mongo通过pgrep mongo -l查看进程是否已经启动运行mongo进入数据库MongoDB设置关闭/启动服务sudo servie mongodb stop #停止服务sudo service mongodb start #启动服务sudo service m

2017-11-19 21:48:46 371

原创 【Python Trick】判断字符串是否为空

str=''if str.strip()=='': print('str is null')if not str.strip(): print('str is null')str='hello'if str.strip(): print('str is not null')

2017-11-16 10:33:32 577

原创 【Python Trick】set与list

【Python Trck】set与list利用set去除list重复元素set是一个无序不重复元素集,基本功能包括关系测试和消除重复元素。 若需要消除重复元素,如下a=[5,2,5,1,4,3,3]a=list(set(a))提取两个list中出现过的非重复元素line1=['a','b','a']line2=['a','c']line=line1+line2line=list(set(l

2017-11-13 20:20:25 352

转载 Intellij Idea 码云教程

1.点击导航栏 VCS -> Import into Version Control -> 托管项目到码云2.输入码云帐号密码,点击login。3.勾选private,点击托管按钮。4.点击OK。5.在项目上右键 ->Git ->Commit Directory6.填写Commit Message(养成良好编码习惯),

2017-11-12 20:59:06 7779

原创 Windows下Git 2.15.0安装、配置

安装下载链接:http://git-scm.com/download安装 配置用户名和邮箱地址的作用: 用户名和邮箱地址是本地Git客户端的一个变量,不随Git库而改变。 每次Commit都会用用户名和邮箱地址记录。git config --global user.name "xxxx"git config --global user.email "xxxx"

2017-11-12 19:36:29 6689

原创 PyCharm设置

使用Tab缩进 Editor->Code Style->Python->Tabs and Indents 勾选Use tab character和Smart tabs 取消自动更新 Appearance&Behavior->System Settings->Updates 勾掉Automatically check updates for和Use secure connection

2017-11-09 16:39:22 515

原创 Intellij idea使用教程

Intellij idea使用教程快捷键设置如 Gif 所示,在没有对 Ctrl + D 快捷键进行修改前,此快捷键将是用来复制并黏贴所选的内容的,但是黏贴的位置是补充在原来的位置后,我个人不喜欢这种风格,我喜欢复制所选的行数完整内容,所以进行了修改,修改后的效果如上图 Gif 演示。 如Gif 所示,默认 Ctrl + 空格 快捷键是基础代码提示、补充快捷键,但是由于我们中文系统基本这个快捷键都

2017-11-09 16:28:54 670

原创 Ubuntu 17.10安装sklearn

1.安装支持库sudo pip3 install numpy scipy matplotlib pandas安装sklearnsudo pip3 install scikit-learn

2017-11-08 19:41:43 420

原创 Ubuntu中安装Intellij Idea

Ubuntu中安装Intellij Idea下载Intellij Idea解压到/opt下 tar -zxvf ideaIU-2017.2.5.tar.gz -C /opt进入安装位置 cd /opt进入IDEA文件夹的bin目录 cd /opt/idea-IU-172.4343.14/bin启动IDEA ./idea.sh

2017-11-08 10:49:47 1004

原创 VirtualBox中Ubuntu 17.10 安装JDK8

VirtualBox中Ubuntu 17.10 安装JDK8下载JDK8 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html因为是在虚拟机中运行Ubuntu,所以JDK8文件是下载在Windows系统中,需要设置共享文件夹,把文件复制到Downloads文件夹下。解压文件 c

2017-11-08 09:33:19 1430

原创 Could not get lock /var/lib/dpkg/lock - open 解决方法

出现此问题的原因是另外一个线程使用apt-get下载,结束现场呢个即可。 1.搜索所有的线程 ps -A | grep apt-get 得到如图所示结果 2. 结束线程 数字就是线程号,结束线程即可 sudo kill 1358

2017-10-29 17:11:16 891

原创 Ubuntu下pip3的安装、升级、卸载

Ubuntu下pip3的安装、升级、卸载安装sudo apt-get install pip3升级sudo pip3 install --upgrade pip卸载sudo apt-get remove python-pip

2017-10-29 12:43:14 121456 3

原创 Intellij Idea 2017 设置Eclipse快捷键风格

Intellij Idea 可以设置Eclipse风格快捷键。 File-->Settings-->Keymap 选择Eclipse

2017-10-22 21:43:39 7419 2

转载 深入理解java多态性

经典实例分析public class A {      public String show(D obj) {          return ("A and D");      }        public String show(A obj) {          return ("A and A");      }     }    

2017-10-21 12:52:19 373

原创 Java访问控制符

种类 修饰符 说明 public 公共的,对所有类可见 protected 受保护的,对同一包内的类和所有子类可见 private 私有的,在同一类内可见 默认 在同一包内可见。默认不使用任何修饰符访问控制与继承父类中声明为public的方法在子类中必须为public父类中声明为protected的方法在子类中只能为protected或public父类中

2017-10-20 13:09:15 295

原创 Windows 工作环境及常用工具

Windows 工作环境开发环境开发工具包JDKPython IDEIntellij Idea实用软件系统工具DiskGenius 专业版:可以备份系统镜像护眼宝Clover:资源管理器标签化软件Everything7-Zip笔记工具有道云笔记网盘软件百度网盘文件工具notepad++ v7.4.2:v7.5以后版本不带有PluginManagerOffice 20

2017-10-19 16:47:32 792

转载 支持备份/还原win10系统的分区工具DiskGenius v4.9.3专业版下载+序列号注册文件激活教程

关于DiskGenius这款分区软件,相信大家都使用的炉火纯青了,今天之所以给大家重新介绍分享,是因为之前给大家分享的DiskGenius版本都是网上现成的绿色版本,而今天给大家分享的版本是官方原版,并且是目前官方提供的最新版本DiskGenius v4.9.3,大家都知道,默认情况下在官网下载的DiskGenius在不购买输入序列号的情况下是免费版本,有功能限制,但今天亦是美网络小编要给大家分享

2017-10-19 16:46:12 27191 50

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除