自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 BERT中的WordPiece实现了什么功能?为什么要这么做?

WordPiece实现了将单词拆分为subword的功能。比如"loves"、“loved”、“loving”这三个单词。其本身的语义都是"爱",但是如果以单词为单位,那这些单词就是不同的词。WordPiece算法可以把这3个单词拆分为“lov”,“ed”,"#ing","#es"几部分,这些单词都有相同的部分"lov",这样可以把词的本身的意思和前缀、后缀分开,使得最终的词表变得精简。为什么要这门做?因为按照传统方式进行分词,由于单词存在时态、单复数等多种变化会导致词表非常大,影响训练速度,并且即使一个

2021-03-31 17:47:24 2089 4

原创 RoBERTa相比BERT的改进

继BERT、XLNet之后,Facebook提出的RoBERTa(a Robustly Optimized BERT Pretraining Approach)。本篇文章主要总结下RoBERTa相比于BERT的改进。RoBERTa在模型结构层面没有改变,改变的只是预训练的方法,具体是以下三点。1.动态maskRoBERTa把预训练的数据复制10份,每一份都随机选择15%的Tokens进行mask,也就是说,同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N

2021-03-31 15:57:45 2223

原创 预训练方法中基于特征的方法和基于微调的方法本质区别在哪里?

基于特征的方法是将BERT作为一个编码器,将输入的文本处理为特征向量。特征向量作为下游任务的输入,在训练过程中只针对后面的分类模型,BERT的输出仅仅是作为分类模型的输入特征。特征提取是使用训练好的模型对新的数据生成特征向量,让后将特征作为task-specific模型的输入,训练新的task-specific模型参数。基于微调的方法是在已经训练好的结构上,在当前任务的数据上进行训练,对部分网络层进行微调,让模型更加适合当前任务。微调方法能充分利用深度学习神经网络强大的泛化能力,避免了设计新的模型,无

2021-03-10 15:29:00 1271

转载 自然语言处理领域的数据增广方法

1.摘要本文介绍自然语言处理领域的数据增广方法。数据增广(Data Augmentation,也有人将Data Augmentation翻译为“数据增强”,然而“数据增强”有将数据进行强化之意,而不仅是数量扩充。因此我们将其翻译为“数据增广”,单纯表示扩大数据规模。)是自动扩充训练数据的一种技术。如今深度学习取得了令人瞩目的成功,但是深度学习模型需要有大量的标注数据进行支撑。真实应用情景中,经常会出现缺乏标注数据、数据分布不均衡导致模型鲁棒性差、模型性能不佳的问题,而数据增广能在一定程度上解决这些问题。

2021-03-09 19:49:27 2348 2

原创 事件抽取任务介绍和数据

任务说明事件事件抽取是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。事件是知识图谱的重要组成部分,事件抽取是进行图谱推理,事件分析的必要过程。事件抽取事件抽取的挑战体现在文本的复杂和任务的复杂。文本的复杂常常体现在事件抽取的输入可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用。任务的复杂体现在事件识别的任务包括:事件类型识别,事件主体抽取和事件要素抽取事件类型一般有:财务造假、偿付能力不足、高层失联/去世、企业破产、重

2021-03-09 15:35:00 389

原创 BERT可以增加哪些预训练任务?

BERT基于NSP和MLM两个任务进行预训练,如果对BERT进行改进,一个可行的方向就是增加更多的预训练任务,那么除了这两个任务之外,还可以增加哪些预训练任务呢?可以增加的预训练任务有一个前提,就是这些任务的训练数据要能从无监督的数据中获取,这样才能获取到海量的数据,符合这一要求的任务可以进行尝试。提供一些预训练任务的思路:1.Capitalization Prediction Task预测单词是否大写。与其他词语相比,大写词语通常具有特定的语义价值。2.Token-Document Rela.

2021-03-09 13:31:09 1069

原创 2020-12-30

一.一些概念1.什么是“异步”异步IO(Async IO)是指进程在等待IO资源的时候“暂停”,将计算资源让出,让其他进程运行。通过这种机制,异步有助于并发的执行,是异步的代码实现了一种并发执行的视觉效果。所以,异步与并发紧密相关,弄清楚异步IO的使用(一些API的使用),有助于理解并发。2.协程协程是一种特殊的生成器函数,是异步IO的核心。二.异步IO的解释引用Miguel Grinberg 2017年PyCon的演讲中的一个例子。国际象棋大师朱迪特·波尔加(Judit Polgár)

2020-12-30 20:20:17 111

原创 蒙眼翻牌问题

一.问题描述有20张牌,其中8张牌是正面朝上的。蒙上你的眼睛,让你将牌分成两堆。请问如何操作才能使两堆牌中正面朝上的牌数一样?二.解决思路从20张牌中随机挑出8张牌,将这8张牌翻过去。就可以使两堆中正面向上的牌数一样多。原因是,假设第一堆有m张朝上,那么第一堆里面有8-m张朝下,且第二堆里面有8-m张朝上,把第一堆全部翻面,那么第一堆里面所有朝下的扑克牌变成朝上,就是也有8-m张朝上,跟第二堆一样。...

2020-12-11 15:51:02 604

原创 人工智能带来的场景变革

人工智能是让机器像人一样能行动和思考。人工智能是第四次工业革命中主要内容之一。人类从农耕到发明蒸汽机需要几千年,从蒸汽机到电力技术到发明经历了两三百年,从电力技术到信息技术用了一百多年的时间,从信息技术到移动互联网就几十年。目前我们正处于移动互联网时代迈向智能互联的阶段——第四次工业革命。第四次工业革命会将所有的东西都连接起来,所有的都变成可编辑、可计算的。科技的力量将持续改变万物。但是人工智能技术也面临着众多的挑战。目前人工智能比较擅长处理的是感知问题,比如视觉、听觉。通过互联网发展积累的大量的文本、

2020-12-08 15:49:42 1708 7

原创 Glove、word2vec和fastText的比较

Glove和word2vec的不同点Glove和word2vec的相同点word2vec和fastText的不同点1.输入fastText输入的是整个句子的n-gram特征(one-hot形式),比word2ve多考虑了subword的向量训练。word2vec的输入有两种。如果是CBOW算法,输入的是中心词周围的单词。如果是Skip-gram算法,输入的是一个单词。2.输出两者输出的内容本质上没有差别,都是类别标签的概率分布。fastText的输出的实际含义为文本类别的概率分布,word2v

2020-10-20 16:57:36 711

原创 特征工程学习笔记

Kaggle上有一句非常经典的话,**数据和特征决定了机器学习的上限**,而模型和算法只是逼近这个上限而已特征工程就是通过X,创造新的X’。基本的操作包括,升维、降维。主要有特征处理,特征选择。一.特征处理工具:sklearn库中的preprocessing模块。1.1 标准化sklearn的标准化处理提供了StandardScaler()和MinMaxScaler()两种方法。1.2 二值化二.特征选择工具:sklearn中的feature_selection库2.1当数据预处理完成

2020-09-10 15:37:25 121

原创 概念图谱简单记录

概念图谱简单记录概念图谱简介概念图谱简介最近听了一个概念图谱的分享,现在简单记录下收获。可能很多人都又听说过“知识图谱”,这里又出来了一个“概念图谱”,首先的反应是它们之间的区别是什么?“概念图谱”在“知识图谱”的基础上提出了“概念”,会在图中保存实体和概念的关系,概念和概念的关系。典型的概念图谱的应用有:WorkNet,WikiTaxonomy一些大厂的落地应用:百度的基于知识图谱的语义理解技术及其应用腾讯的concept概念挖掘系统,助力搜索推荐https://zhuanlan.zhihu

2020-09-09 21:06:54 564

原创 python中的浅拷贝和深拷贝

python中有一个copy模块,其中有两个方法:copy.copy()和copy.deepcopy()copy.copy()就是浅拷贝, copy.deepcopy()是深拷贝。浅拷贝只拷贝一层,对于有嵌套类型的数据无法拷贝。嵌套类型的数据比如是:a = {'var1':1,'var2':{'var3':2, 'var4':3}}浅拷贝只拷贝了引用,深拷贝会额外开辟一块空间。当删除一个列表中某一个值的所有元素的时候可以用到copy()。...

2020-07-15 19:58:55 117

原创 【学习笔记】——内存对齐

什么是内存对齐“内存对齐”这个专业名词应该是学习C语言的时候,结构体这节提到的知识。常出现的问题是给你一个结构体,问你它所占的内存空间。如下面的代码中,struct_var变量的大小是多少?//32位系统#include<stdio.h>struct{ int x; char y;}struct_var;int main(){ printf("%d\n",sizeof(struct_var); // 输出8 return 0;}答案是8个

2020-06-10 16:07:34 131

转载 docker学习笔记【转载】——读懂这几个关键词,你就能了解 Docker 啦

dd

2020-06-10 10:34:56 202

原创 docker学习笔记——mac上的docker教程

Docker Desktop(Mac) overview

2020-06-08 23:44:47 648 1

原创 docker学习笔记——dockerhub

概念理解dockerhub是存放容器镜像的地方,可以存放自己的容器镜像,可以拉取官方的、自己的容器镜像。有点像github的repository。使用方法在https://hub.docker.com注册用户,创建仓库。-我的dockerhub...

2020-06-08 23:40:54 273

原创 【nlp面试题】为什么Bert的三个Embedding可以进行相加?

前言刚看到这个问题的时候有点蒙圈,三个Embedding是哪三个Embedding?看来bert理解的还是不够,迅速查了下资料。bert中的三个Embedding包括Position Embedding、Token Embedding、Segment Embedding。为何可以相加,可以从矩阵运算的数学层面解释。大矩阵的乘法等于将矩阵切分成小的矩阵分别进行乘法,然后结果相加。下面的图片便于理解。参考为什么Bert的三个Embedding可以进行相加?...

2020-06-08 21:14:03 2772

原创 进程和线程的理解

什么是进程?首先参考百度百科的解释加以说明什么是进程操作系统进行资源分配的基本单位进程是线程的容器什么是进程?线程是操作系统调度的最小的单位,线程依赖于进程,一个进程可以包含多个线程;一个进程一定包含一个主线程;同一进程中的多个线程共用进程的系统资源,如虚拟地址空间、文件描述符、信号处理等;同一进程中的每个线程又有自己的资源,如调用栈、寄存器环境、线程本地存储;可以将线程理解为是进程的执行路径,通过多线程可以实现进程的多任务并发处理。线程的作用充分利用CPU资源相比进程

2020-06-06 10:16:33 210

原创 logit&sigmoid&logistic&logits傻傻分不清

在机器学习、深度学习中经常会遇到logit、sigmoid、logistic、logits几个概念,特别再加上一些汉语翻译的如“逻辑斯蒂”,更加容易混淆,这篇文章就为大家总结区分下。首先要明确logit、sigmoid、logistic、logits都是数学函数的名称,表示一个具体的函数。分别看下, logit(x)=log(x1−x)\ logit(x) = log( \frac{x}{1-x} ) logit(x)=log(1−xx​) sigmoid(x)=

2020-06-03 23:05:53 1747

原创 AI方向的思考

AI本质上是一种技术,目前还不是一个行业、产业。技术,只有结合具体的行业和产品才能充分发挥价值。应该用AI技术去做产品,有效的进行落地。参考2020年,中国AI创业公司将走向何方

2020-06-02 23:01:14 125

原创 docker容器为什么总会挂掉?

最近使用docker启动nginx时总会自动退出,看了一些文章后解决了问题,也明白了一些道理,将这些知识总结一下。只使用命令:docker run nginx就会自动退出,需要增加个死循环while true;do echo hello;sleep 5;done。或者加参数–restart=always自动退出的原因是:docker容器会把pid=1的进程作为docker容器是否正在运行的依据,如果docker容器pid挂了,docker容器便会直接退出。...

2020-06-02 22:46:33 4339

原创 Nginx部署Ant Design Pro项目

1.npm run buile打包命令,执行此命令后会生成一个”dist“文件夹2.将dist文件中的所有文件复制到nginx的html目录下Mac的操作系统中,nginx的html目录可能在/usr/local/Cellar/nginx/1.17.10/html(Windows没有实验)3.配置nginx.config文件server { listen 80; // 端口号 # gzip config gzip on; gzip_min_length

2020-06-02 21:15:31 1387

原创 生成器和迭代器

在python中,有yield语句的函数称为生成器。生成器的好处:不像return,而是每次产生多个值。在python中,实现量next函数的对象称为迭代器。nested = [[1,2], [3,4], [5]]def flatten(nested): for sublist in nested: for element in sublist: ...

2019-11-12 13:13:36 101

原创 pandas使用记录

1.选取某一区间上的值比如选取time字段2019-3-1到2019-3-9时间内的所有行start_time=pd.Timestamp(2019,3,1)end_time=pd.Timestamp(2019,3,9)df[df[‘time’].between(start_time,end_time, inclusive=True)]总结:使用between可以避免使用比较运算参考:...

2019-11-05 21:52:49 143

原创 POST和GET的区别

1.POST可以改变服务器上的资源的请求,GET不可以以论坛网站为例,发表自己的评论就是使用POST。因为在评论提交后站点的资源已经不同了,资源被修改了。  2.GET请求的数据会附在URL之后(就是把数据放置在HTTP协议头中),以?分割URL和传输数据,参数之间以&相连。  如:login.actioname=hyddd&password=idontknow&ve...

2019-10-27 19:39:36 384

原创 python -m的含义

1.简单说就是:执行某个模块下的文件2.python -m后面参数的形式是模块名.文件名可以将模块以脚本的方式运行。和python file.py的运行方式区别来看。使用这个命令会在library path中搜索执行py文件,而不是只在current library。3.在python参数说明中的解释为:run library module as a script....

2019-10-12 12:10:24 9372

转载 深度学习模型可视化工具Netron

Netron 支持的框架和对应文件如下:框架对应的文件Keras.h5,.kerasTenforflow Lite.tflite

2019-10-12 11:47:44 935

原创 打印item的祖先结点

1.链式存储思路:用栈保存每个结点的祖先结点,如果结点的值为item,打印结果。代码思路:void ANCESTOR(BTREE T,int item){ BTREE STACK1[NodeNum],p = T; int STACK2[NodeNum],top=-1,flag; if(T!=NULL && T->data!=item) { //do w...

2019-10-07 10:53:25 200

原创 pip install 加速和解决超时

当pip下载过程中出现:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --default-timeout=100 packname永久使用清华源的方法:linux下,修改 ~/.pip/pip.conf (没有就创建一个), 修改 index-url至tuna,内容如下:[global]index-url = htt...

2019-09-07 17:04:05 499

原创 json.dumps()转换dict为json时,可以保留双引号,不变为单引号

问题描述已知:有request_content = [{“content” : “问题描述” , “category” : “问题”} ,{“content” : “今天天气多少度?” , “category” : “问题”}]想要得到request给后台的结果。request的方法使用requests.request(url, header=header, data=request...

2019-09-07 16:24:40 9672 1

原创 wget命令出现Unable to establish SSL connection.错误

#有些网站不允许通过非浏览器的方式进行下载,使用代理既可以解决问题。sudo wget “https://bootstrap.pypa.io/get-pip.py” --user-agent=“Mozilla/5.0 (X11;U;Linux i686;en-US;rv:1.9.0.3) Geco/2008092416 Firefox/3.0.3”...

2019-09-05 16:28:00 25218 3

原创 中文分词十年回顾(2007-2017)

相关博客:https://blog.csdn.net/AG9GgG/article/details/87611050原论文地址:http://bcmi.sjtu.edu.cn/home/zhaohai/pubs/CWS-10Year-Review-2.pdf

2019-05-26 11:18:34 281

原创 分词资料汇总

CRF++工具分词教程http://www.52nlp.cn/中文分词入门之字标注法4#commentshttps://blog.csdn.net/u010626937/article/details/78414292https://blog.csdn.net/u010626937/article/details/78414292https://blog.csdn.net/j...

2019-05-26 11:15:19 123

原创 条件随机场学习资料汇总

introductionConditional random fields (CRFs) are a probabilistic framework for labeling and segmenting structured data, such as sequences, trees and lattices.The underlying idea is that of defin...

2019-05-26 10:59:50 199

原创 计算机网课资源汇总

课程图谱http://coursegraph.com/navigation/

2019-05-26 10:43:15 1975

原创 XGBoost导读与实战阅读记录(一)——rabit和allreduce

引言在大致浏览了原文中的最开始的代码发现了几个陌生的、好像和分布式有关的名词——rabit和allreduce。所以这篇文章主要来记录下rabit和allreduce的知识。什么是rabitrabit是一个库,可以提供allreduce和广播的容错接口。rabit是为了支持分布式机器学习而设计。是支持分布式XGBoost的Backbone库。rabit的API文档:https://h...

2019-05-26 10:15:38 861

原创 LSTM学习记录

一.从RNN谈起相信接触过深度学习的朋友们应该十分清楚BP神经网络和CNN了。今天主要总结下RNN模型。1.为什么提出RNN模型?传统的神经网络模型输入输出有事相互独立的,有些连续性的任务无法解决。比如图像上的猫和狗等内容是分隔开的,但在一些自然语言处理问题上,输入和输出是不独立的。eg:我是中国人,我的母语是_____。在这个任务中,输出不仅依赖于输入,还和之前的一部分信息有关。传统的神...

2019-04-15 21:51:38 1188

原创 关于计算机网络中协议层次划分的问题总结

协议层次的划分可以根据应用/功能或者层次/数据封装来确定。ARP协议从功能上讲是为链路层提供MAC地址。 从层次上是基于Ethernet协议,而IP协议也基于Ethernet协议,IP协议属于网络层,所以ARP协议也属于网络层。 ARP请求包 ARP回应包同样,ICMP协议是为IP协议服务,所以属于网络层。但它基于IP协议,所以属于传输层。RIP(/BGP)等路由协议,从...

2018-02-26 17:18:57 958

转载 二维码小记

一、什么是二维码: 二维码 (2-dimensional bar code),是用某种特定的几何图形按一定规律在平面(二维方向上) 分布的黑白相间的图形记录数据符号信息的。在许多种类的二维条码中,常用的码制有:Data Matrix, Maxi Code, Aztec, QR Code, Vericode, PDF417, Ultracode, Code 49, Code 16K等。

2018-02-05 20:28:27 9864 1

event_entity_data_testB.txt

数据主要来自金融领域的新闻、公告文本,样本包含正样本和负样本。 在训练及验证数据发布阶段,我们会发布2万条左右的文本及其所标注事件类型和事件主体和 1 千条左右的验证文本。 训练集每行 4 列,数据以“\t”分隔,格式为:文本id\t文本内容\t事件类型\t事件主体; 验证集每行 2 列,数据以“\t”分隔,格式为:文本id\t文本内容。提交结果格式:文本id\t事件类型\t事件主体。

2021-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除