自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 NLP 中的语言模型预训练&微调

1 引言语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi | w1, w2, . . . , wi−1)的估算会非常困难。因此,研究者们提出使用一个简化模型:n元模型(n-gram model)。在 n 元模型中估算条件概率...

2018-12-13 16:41:23 15988

原创 Git使用总结

0. 安装配置在Windows上使用Git,可以从Git官网直接下载安装程序,然后按默认选项安装即可。安装完成后,在开始菜单里找到“Git”->“Git Bash”,蹦出一个类似命令行窗口的东西,就说明Git安装成功!安装完成后,还需要最后一步设置,在命令行输入:$ git config --global user.name "Your Name"$ git config...

2018-08-27 13:46:18 574 1

原创 事件抽取综述

1  基本概念... 11.1  事件... 11.2 事件抽取... 12  主流技术分析... 22.1 元事件抽取... 22.1.1 基于模式匹配的元事件抽取... 32.1.2 基于机器学习的元事件抽取... 32.1.3 基于神经网络的抽取方法... 42.2 主题事件抽取... 82.2.1  基于事件框架的主题事件抽取... 82.2.2 基...

2018-08-16 18:21:18 51545 46

原创 知识图谱综述

1 知识图谱的定义与架构... 21.1 知识图谱的定义... 21.2 知识图谱的架构... 32 知识图谱技术地图... 32.1 知识获取... 42.2 知识计算及应用... 53 知识图谱的关键技术... 53.1 信息抽取... 53.1.1 实体抽取... 53.1.2 关系抽取... 63.1.3 属性抽取... 73.2 知识融合......

2018-08-16 18:02:58 9125

原创 Hadoop-2.7.5 + Spark-2.2.0分布式集群搭建过程(2)

文章目录接上篇 https://blog.csdn.net/muumian123/article/details/902012865.3 启动并验证Hadoop分布式集群5.3.1 启动Hadoop分布式集群5.3.2 验证Hadoop 分布式集群至此,我们成功构建了Hadoop 分布式集群并完成了测试!六、搭建 Spark集群6.1 安装Scala - 2.12.46.1.1 Scala下载6....

2019-05-14 13:36:09 616

原创 Hadoop-2.7.5 + Spark-2.2.0分布式集群搭建过程(1)

这里写自定义目录标题前提条件:一、 Java下载与安装配置1.1 Java下载1.2 Java安装:1.3 其他服务器的Java安装二、SSH安装及设置2.1 安装并验证 SSH2.2 设置 ssh 免密登录三、设置主机名和IP地址的对应关系3.1 修改主机名称3.2 配置host3.3 三台服务器间SSH免密登陆四、Rsync 安装配置五、搭建Hadoop集群5.1.hadoop安装配置5.1....

2019-05-14 11:27:57 795

原创 使用 Docker 部署 Vue.js + Go 项目

最近公司要求搞一个 dashboard ,前端用 Vue.js 框架,后端用 Go 语言写的。在决定用 Docker 进行部署的时候,遇到了很多问题,特此记录。由于这个项目需要使用 AWS 中的 DynamoDB,因此需要先在 Docker 的 image 中安装 aws-cli,然而 aws-cli 只能依赖 Python 进行安装。因为我考虑先从运行一个 Ubuntu 基础镜像(如果是 C...

2019-05-14 10:13:59 2041

原创 Linux 常用命令总结

切换目录: cd /home 切换至home路径 cd .. 返回上一级目录 cd ../.. 返回上两级目录 cd 进入个人主目录 cd ~user1 进人个人主目录 cd - 返回上次所在目录 显示当前工作路径: pwd 查看当前路径下文件及文件夹:ls 查看目录中的文件 ls -l 显示文件和目录的详细资...

2019-05-12 11:07:00 577

原创 Flask 项目 Docker 化

最近完成了一个以 Flask 为框架的项目,为了更方便的对其进行部署,我选择先将该项目进行 Docker 化。1. Flask 项目建立一个 python 虚拟环境:pip install virtualenvmkdir Webcd Webvirtualenv venvvenv\scripts\activate# deactivate # 退出虚拟环境pip insta...

2019-05-12 10:20:25 3086

原创 Docker 十分钟快速入门

1. 下载源码git clone https://github.com/ruanyf/koa-demos.git2. 编写 “.dockerignore” 文件.gitnode_modulesnpm-debug.log上面代码表示,这三个路径要排除,不要打包进入 image 文件。如果你没有路径要排除,这个文件可以不新建。3. 编写 DockerfileFROM ...

2019-05-11 12:31:39 632

原创 剑指offer经典66答案汇总(2)

目录34第一个只出现一次的字符35数组中的逆序对 36两个链表的第一个公共结点37数字在排序数组中出现的次数38二叉树的深度39平衡二叉树40数组中只出现一次的数字41和为S的连续正数序列42和为S的两个数字43左旋转字符串44翻转单词顺序列45扑克牌顺子46孩子们的游戏(圆圈中最后剩下的数)47求1+2+3+…...

2019-03-23 20:07:40 354

原创 剑指offer经典66答案汇总(1)

目录1二维数组中的查找2替换空格3从尾到头打印链表4重建二叉树5用两个栈实现队列6旋转数组的最小值7牛客网斐波那契数列8牛客网跳台阶9牛客网变态跳台阶10矩形覆盖11牛客网二进制中1的个数12牛客网数值的整数次方13调整数组顺序使奇数位于偶数前面14链表中倒数第k个结点15反转链表16合并两个排序的列表...

2019-03-22 15:57:41 1069

原创 安装并在本地 Kubernetes 上运行服务

前提条件Win10 专业版/企业版1 安装1.1 Docker下载 Docker:https://hub.docker.com/editions/community/docker-ce-desktop-windows为了下载 Docker,你必须先注册账号并登录。如果你之前下载过 Docker Toolbox,可能会出现“could not read CA certific...

2019-03-07 13:39:33 886

原创 Docker 创建并推送镜像到 AWS

背景描述:以前,我们需要输入很多 docker 命令来 build 和 push image,现在开发人员只需要填写自动 build 和 push image所需的文档。主要流程如下:1 如何填写配置文件1.1 填写 Dockerfile 和 .dockerignore 文件将它们都放到一个特殊的文件夹中,例如:“/var/local/preview_dockerfile”,并...

2019-03-07 12:25:32 2096

原创 Python 处理命令行参数

有的时候需要用到对命令行中的参数进行捕获的需要,Python 有两种方式可以实现,一是使用基础包 sys 进行实现,二是可以使用更高级有效的函数 getopt 进行实现。1. sys 模块Python sys模块通过sys.argv提供对任何命令行参数的访问。这有两个常用指令: sys.argv 返回的是包含命令行参数的一个 list len(sys.argv) 返回的是命...

2019-01-28 11:17:11 7428

原创 Zero-Shot 进行事件抽取思维导图解读

目前唯一一篇用迁移学习做事件抽取的论文,原件为.xmind格式,有需要的小伙伴请留言。   

2019-01-13 16:35:00 1140 9

原创 TensorFlow分布式计算

分布式Tensorflow底层的通信是gRPC。gRPC首先是一个RPC,即远程过程调用,通俗的解释是:假设你在本机上执行一段代码num=add(a,b),它调用了一个过程call,然后返回了一个值num,你感觉这段代码只是在本机上执行的,但实际情况是,本机上的add方法是将参数打包发送给服务器,然后服务器运行服务器端的add方法,返回的结果再将数据打包返回给客户端。TensorFlow集群就...

2019-01-12 20:14:29 1249

翻译 Liberal Event Extraction and Event Schema Induction

【文章来源】http://anthology.aclweb.org/P/P16/P16-1025.pdf我们提出了一种全新的“自由”事件提取范式,可以同时从任意输入语料库中提取事件和发现事件模式。我们结合符号(如抽象意义表示)和分布语义来检测和表示事件结构,并采用联合类型框架来同时提取事件类型和参数角色,发现事件模式。在一般和特定领域的实验表明,该框架可以构造具有许多事件和参数角色类型的高...

2019-01-12 19:53:34 1299

翻译 A Transition-based Algorithm for AMR Parsing

【文章来源】A Transition-based Algorithm for AMR Parsing:http://aclweb.org/anthology/N/N15/N15-1040.pdf我们提出了一个两阶段框架来解析一个句子到它的抽象意义表示(AMR)。 我们首先使用依赖解析器为句子生成依赖关系树。在第二阶段,我们设计了一种新的基于转换的算法,该算法将依赖树转换为AMR图。这种方法...

2019-01-10 23:05:44 1458

翻译 Zero-Shot Transfer Learning for Event Extraction

【文章来源】事件提取的Zero-Shot迁移学习:https://arxiv.org/pdf/1707.01066.pdf摘要大多数先前的事件提取研究严重依赖于从带注释的事件提及中派生的特征,因此不能应用于没有注释工作的新事件类型。在这项工作中,我们重新审视事件提取并将其建模为接地问题。我们设计了一个可转移的神经结构,使用结构和组合神经网络将事件提及和类型联合映射到共享语义空间,其中每...

2019-01-10 22:50:24 2364 4

原创 ACE事件类型及模板

事件类型及子类型每个事件类型和子类型都有自己的一组潜在参与者角色,用于在其范例范围内出现的实体。在某些情况下,潜在事件是否可标记的问题将取决于是否存在填充某些角色的实体。(对于代词和明确描述的名词回指案例,这一要求会有所放宽。)事件参数任何可标记的事件参数都将与事件的触发器词在同一个句子中出现。我们首先简要讨论不同类型的参数。活动参与者:大多数事件参数都是参与者。这些将是以...

2019-01-02 15:02:25 11145 7

原创 指代消除文献综述

基本介绍概念指代是自然语言中的一种重要的表达方式,它使得语言表达简洁连贯,然而在篇章中大量使用指代,增加了计算机对篇章理解的难度.指代消解的主要任务是识别篇章中对现实世界同一实体不同的表达的过程.从计算语言学的角度,指代消解可以看成是一个分类或者一个聚类的过程.分类的过程主要是判断实体表达之间是否指向同一个实体,聚类的过程主要是判断一个实体表达能否加入到指向某个实体的集合中.从数学的角度上来说...

2019-01-02 14:50:55 2511

原创 Python&Java版【LeetCode】简单题答案整理02

时隔几日,我又回来啦!继续上篇文章的内容。仍旧是Python和Java双语言版本。题目目录198. 打家劫舍202. 快乐数203. 移除链表元素204. 计数质数205. 同构字符串206. 反转链表217. 存在重复元素219. 存在重复元素 II225. 用队列实现栈226. 翻转二叉树231. 2的幂232. 用栈实现队列234. 回...

2018-12-13 16:25:31 835

原创 Python&Java版【LeetCode】简单题答案整理01

不得不开始刷LeetCode了,为了使小白的自尊心不受到毁灭性的打击,所以打算从最简单的题开始刷。现把所有题目的Python和Java代码都放在这儿,以便随时回忆。分两种语言的原因在于,Python是我最熟悉也是私心里最喜欢的语言,Java是受众面最广也是我希望学习的语言。以下完全按照LeetCode简单题的顺序出现。预计分5篇博文整理完毕。题目目录1. 两数之和7. 整数反转9....

2018-12-11 16:12:13 1489

翻译 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【文章来源】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding:https://arxiv.org/pdf/1810.04805.pdf摘要我们介绍了一种新的语言表示模型BERT,它表示转换器的双向编码器表示。与最近的语言表示模型不同(Peters et al., 2018; ...

2018-11-13 16:54:35 22650 8

翻译 Bottom-Up Abstractive Summarization

【文章来源】Gehrmann S, Deng Y, Rush A M. Bottom-Up Abstractive Summarization[J]. 2018.【原文链接】自底向上的摘要式的总结:https://arxiv.org/pdf/1808.10792v1.pdf基于神经网络的抽象摘要方法产生的输出比其他技术更流畅,但在内容选择上表现不佳。这项工作本文提出了一种解决此问题...

2018-11-05 17:30:14 3161

翻译 Joint Event Extraction via Recurrent Neural Networks

【文章来源】Nguyen T H, Cho K, Grishman R. Joint Event Extraction via Recurrent Neural Networks[C]// Conference of the North American Chapter of the Association for Computational Linguistics: Human Langua...

2018-09-03 23:21:04 2585 2

翻译 Language specific issue and feature exploration in Chinese event extraction

【文章来源】Chen Z, Ji H. Language specific issue and feature exploration in Chinese event extraction[C]// Human Language Technologies: the 2009 Conference of the North American Chapter of the Association...

2018-09-03 17:15:46 562

翻译 A Probabilistic Soft Logic based approach to exploiting latent and global information in event class

【文章来源】Liu S, Liu K, He S, et al. A Probabilistic Soft Logic based approach to exploiting latent and global information in event classification[C]// Thirtieth AAAI Conference on Artificial Intelligen...

2018-09-02 12:52:11 578

翻译 A Maximum Entropy Approach to Information Extraction from Semi-Structured and Free Text

【文章来源】Hai L C, Ng H T. A maximum entropy approach to information extraction from semi-structured and free text[C]// Eighteenth national conference on Artificial intelligence. American Association fo...

2018-09-02 11:03:34 646

翻译 A Language-Independent Neural Network for Event Detection

【文章来源】Feng X, Huang L, Tang D, et al. A Language-Independent Neural Network for Event Detection[C]// Meeting of the Association for Computational Linguistics. 2016:66-71.【原文链接】一种与语言无关的事件检测神经网络:h...

2018-09-01 22:58:40 1400 8

翻译 Event Detection and Domain Adaptation with Convolutional Neural Networks

【文章来源】TH Nguyen, R Grishman,et al. Event Detection and Domain Adaptation with Convolutional Neural Networks[C].【原文链接】基于卷积神经网络的事件检测和域自适应:http://www.anthology.aclweb.org/P/P15/P15-2060.pdf摘要我们...

2018-09-01 17:45:50 1645 1

翻译 Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks

【文章来源】Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.【原文链接】动态多池卷积神经...

2018-08-31 21:45:09 4619 7

原创 Git使用——将本地库推送至码云远程库

接下来进行的步骤是建立在已经生成SSH-Key并将其记录在码云上为基础进行的。1. 初始化本地库在期望将其变成本地仓库的文件夹空白处单击右键并点击“Git Bash Here”,之后输入命令行“git init”2. 编辑本地库将想要进行上传的文件全部放入本地库中,分别添加进暂存区后再全部提交git add <file> # 添加文件、文件夹git...

2018-08-28 09:55:17 830

原创 一台电脑关联两个oschina账户

公司项目和本人各有一个oschina的账户,因此需要配置对其分别进行关联,以期达到同时在git上使用并互不干扰的效果。一、生成两个SSH-Key分别使用如下命令生成两个SSH-Key:ssh-keygen -t rsa -f ~/.ssh/id_rsa -C "[email protected]"ssh-keygen -t rsa -f ~/.ssh/id_rsa_x -C "two...

2018-08-27 14:53:29 630

原创 Python中两个list元素对比

set是一个无序不重复元素集,Python数据类型的一种,由于是无序的,不能通过索引和切片来做一些操作。主要有添加、删除、交集、并集、差集、对称差集五种操作。1. 添加a=set([1,2,3])#方法1:添加1项a.add(4)#方法2:添加多项,update中的参数必须是迭代器a.update([4,5,6])2. 删除a.remove(1) #如果删除不存...

2018-08-23 13:04:47 38014 6

原创 Python中list、dict去重

1. 清晰明了版(不改变顺序):ids = [1,2,3,3,4,2,3,4,5,6,1]news_ids = []for id in ids: if id not in news_ids: news_ids.append(id)print (news_ids) 2.  简介快速版利用set的自动去重功能:li=[1,2,3,4,5,1,2,3]...

2018-08-22 13:21:44 4756

原创 爬虫总结2——解决POST方法翻页及异步请求问题

在爬取http://www.chinaparking.org/news/1-A007--0-1-0-1-0-1这个网站的时候,点击下一页发现是使用POST方式提交的,并且返回了XHR异步请求。如下:查看参数信息如下:多点击几个会发现每次翻页只有pageIndex这个参数会随页数发生变化。具体实现代码如下:from pyspider.libs.base_handler impo...

2018-08-16 19:09:05 4295 1

原创 爬虫总结1——爬取异步请求(XHR/JS)数据方法

在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下:随便点开一个就可以看到我们真正访问的URL地址:从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的...

2018-08-16 18:52:49 25357 10

原创 SendGrid -- Stressful Subject

索菲亚这一个月压力很大,决定去度假一周。为了避免在休假期间出现压力,她想把邮件转发给斯蒂芬。该功能应该能识别出主题是否有压力。一个有压力的主题行意味着所有的字母都是大写的,并且/或以至少3个感叹号结尾,并且/或包含以下至少一个“红色”字:“帮助”、“尽快”、“紧急”。任何“红色”的单词都可以用不同的方式拼写——“HELP”、“HELP”、“HELP”、“H!E!L!P!”"H-E-L-P",即使是...

2018-06-05 22:12:40 734 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除