自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 NLP从零开始(1)基础介绍

文章目录NLP项目流程 Pipeline分词最大匹配语义理解维特比算法拼写纠错去除停用词Stemming: one way to normalize文本表示One-hot 表示文本相似度TF-IDF词向量语言模型UnigramEvaluation of Lauguage ModelSmoothingLearnningLearnningNLP项目流程 Pipeline分词基于匹配规则–最大匹配基于概率统计方法–LM、HMM、CRF最大匹配前向最大匹配从前向后匹配,尽量匹配更多字符,一般

2020-05-12 15:49:57 630

原创 NLP实战 特征工程+神经网络

文章目录特征工程记录半自动特征构建 Target Mean Encoding半自动特征构建 Categorical Encoder半自动特征构建 连续变量离散化半自动特征构建 Entity Embedding半自动特征构建 连续变量的转换半自动特征构建 缺失值变量和异常值的处理自动特征构建 Symbolic learning 和 AutoCross降维方法 PCA、NMF、tSNE降维方法 Denoising Auto Encoders树模型挖掘人工特征的方法论应用人工特征的注意事项神经网络神经网络神经网络

2020-05-08 18:04:18 1191

原创 文本数据增强

文本数据增强文章目录文本数据增强数据处理数据采样EDA回译生成模型生成对抗网络炼丹设置权重Focal loss分类阈值优化数据处理数据采样过采样和负采样(注意数据的采集标注等本身成本高,尽量少使用欠采样。)EDA使用EDA时需要考虑任务情况,有些EDA操作会改变语义,要保证语义的完整性。同义词替换:从句子中随机选择非停止词,用随机选择的同义词替换这些单词。随机插入:随机的找出句子...

2020-04-10 17:30:35 879

原创 NLP实战 项目流程

文章目录项目项目忠告数据标注算法开发效果优化算法部署硬件问题CPUGPUAI项目部署基本原则深度学习推断框架任务微服务项目项目忠告数据标注前期一定要制定充分的标注规则数据的采集一定要具有代表性非常不建议采用自动标注的方式先训练一个初步模型,然后只让相关人员进行校对,可以保证标注效率并减少标注成本。算法开发千万不要采用规则的方式进行开发初期就要引导客户使用和购买能够支持深度...

2020-03-24 22:52:43 779

转载 Pytorch使用记录

注: 本来有个这方面的整理,偶然间看到一篇细致的博文,转载文章,感谢原博。文章目录文章目录一、Broadcast广播机制二、合并与分割(merge or split)2.1 cat拼接2.2 stack创建新维度2.3 split按长度拆分和chunk按数量拆分三、数学运算3.1 add/sub/mul/div加减乘除3.2 矩阵相乘3.3 pow矩阵的次方记忆sqrt/rsqrt/exp/l...

2020-03-10 10:48:45 175

原创 《Chinese Open Relation Extraction and Knowledge Base Establishment》阅读记录

1. Abstract本文总结了中国语言学中的三种独特但普遍的现象,研究了无监督的基于语言学的中文开放关系提取(ORE),可以自动发现任意关系且无需任何人工标记的数据集。通过将实体关系映射到依存树并考虑独特的中文语言特性,提出一种基于依存语义范式(DSNF)的无监督中文ORE模型。该模型对实体和关系之间的相对位置没有任何限制,并且提取由动词或名词的介导关系并处理平行从句来实现结果。将此模型应用...

2019-12-31 10:29:15 2020

原创 《Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism》记录

Abstract句子中的关系事实通常很复杂,不同的关系三元组在句子中存有实体重叠。根据三元组重叠度将句子分为三种类型,包括Normal,EntityPairOverlap 和 SingleEntiyOverlap。 现有方法主要集中在Normal类上,无法准确地提取关系三元组。 本文提出了一种基于具有复制机制的序列到序列学习的端到端模型,该模型可以从任何这些类的句子中联合提取相关事实。 在解码...

2019-12-24 11:11:56 1351

原创 《Effective Modeling of Encoder-Decoder Architecturefor Joint Entity and Relation Extraction》

Abstract关系元组由两个实体以及它们之间的关系组成,并且经常在非结构化文本中找到这样的元组。文本中可能存在多个关系元组,并且它们之间可能共享一个或两个实体。从句子中提取这样的关系元组是一项艰巨的任务,并且在元组之间共享实体或重叠实体会使其更具挑战性。本文中提出了两种使用编码器-解码器体系结构共同提取实体和关系的方法。提出了一种用于关系元组的表示方案,该方案使解码器能够像机器翻译模型一样一...

2019-12-21 15:12:59 1638

原创 Pytorch代码模板

A clean and beautiful template for traning using pytorch.作者:Seventeen链接:https://www.zhihu.com/question/67209417/answer/268789688来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。import randomimport num...

2019-12-17 20:09:07 778

原创 《Graph Neural Networks with Generated Parameters for RelationExtraction》阅读笔记

《Graph Neural Networks with Generated Parameters for Relation Extraction》阅读笔记Abstract近年来,在机器学习领域,关系推理的改进取得了进展。在现有模型中,图神经网络是多跳关系推理的最有效方法之一。事实上,多跳关系推理在许多自然语言处理任务中是不可缺少的,例如关系抽取。本文通过自然语言语句提出带有生成参数的...

2019-11-04 19:06:36 2664 4

原创 《Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks》阅读记录

《Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks》阅读记录Abstract注意力机制和卷积神经网络因其在特定方面及上下文词语义对齐的固有能力,被广泛应用于基于aspect(aspect方面,即用户从哪个角度评论,或者商品从哪个角度介绍,例如价格、性能、服务等)的...

2019-10-28 21:45:59 2891 1

原创 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》阅读记录

《GraphRel: Modeling Text as Relational Graphs for Joint Entity andRelation Extraction》阅读记录Abstract本文提出了一种端到端的关系抽取模型GraphRel,它使用GCN来共同学习命名实体和关系。与之前的基线相比,我们通过关系加权GCN来考虑命名实体和关系之间的交互,以更好地提取关系。线性结构...

2019-10-24 10:08:54 3632 6

原创 Bert论文翻译

Abstract我们介绍了一种新的语言表示模型,称为双向编码器表示。不同于最近的语言表示模型,BERT旨在通过对所有层的左右上下文进行联合调节,从未标记文本中预先训练深层双向表示。因此,预先训练好的BERT模型只需一个额外的输出层就可以进行微调,从而为广泛的任务(如问题回答和语言推理)创建最先进的模型,而无需对特定任务的体系结构进行实质性修改。BERT概念简单,经验丰富。它在11项自然语言...

2019-09-25 15:05:41 2117

原创 自然语言处理学习记录

理解NLP 通俗易懂Word2vec 理解Glove模型 吾爱NLP(5)—词向量技术-从word2vec到ELMo ELMO小谈 流水账︱Elmo词向量中文训练过程杂记 fastText原理和文本分类实战,看这一篇就够了 BERT大火却不懂Transformer?读这一篇就够了 [NLP自然语言处理]谷歌BERT模型深度解析 自然语言处理中的自注意力机制(Self-att...

2019-09-06 15:47:14 172

原创 图神经网络学习记录:《图神经网络综述:模型与应用》

Graph Neural Networks: A Review of Methods and Applications摘要:大量的学习任务要求处理元素间含有丰富关系信息的图形数据。物理系统的建模、分子指纹的学习、蛋白质界面的预测和疾病的分类都需要模型从图形输入中学习。在其他领域,如文本、图像等非结构数据的学习中,提取结...

2019-04-26 17:28:21 31715 2

原创 数据挖掘 模型总结

分析和预测时序数据的主要方法,如何使用Python处理时序数据构建信用卡反欺诈预测模型——机器学习Lending Club——构建贷款违约预测模型使用VAE、CNN encoder+孤立森林检测ssl加密异常流的初探...

2019-03-06 15:12:04 586

转载 异常值检测处理

转自:http://www.sohu.com/a/247313304_100123073在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为...

2018-12-18 22:04:11 758

原创 机器学习

Python3从无到机器学习一个框架解决几乎所有机器学习问题深入浅出--梯度下降法及其实现使用sklearn进行集成学习——理论使用sklearn进行集成学习——实践使用sklearn进行PCA学习XGBoost——机器学习(理论+图解+安装方法+python代码)xgboost的原理没你想像的那么难XGBoost参数调优完全指南(附Python代码)Li...

2018-12-13 15:30:24 116

原创 hadoop-2.7.6+snappy

记录一下snappy安装过程环境配置:hadoop-2.7.6 Maven 3.5.4 JDK1.8 HBase1.4.4 gcc5.4.01. Requirementssudo apt install autoconfsudo apt install automakesudo apt install libtool-binsudo apt install cm...

2018-11-12 21:25:49 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除