潜心修行的研究者-CSDN博客

原创 ML复习总结

1. ML基础1.1 两个基本理论奥卡姆剃刀：它是常用的、自然科学研究中最基本的原则，即"若有多个假设与观察一致，则选择最简单的那个"。没有免费午餐定理：任何算法的期望性能都一样。在某些问题上表现好的算法，在另一些问题上却可能不尽如人意，学习算法自身的归纳偏好与问题是否相配，旺往往会起到决定性的作用。1.2 监督学习监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y∣X...

2019-05-24 11:28:43 428

原创 LR和SVM的区别

LR和SVM的区别相同点：都是线性分类器；都是判别模型；损失函数目的都是增大对数据分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。不同点：本质上是损失函数不同：LR损失函数为logloss：J(θ)=−1m[∑i=1my(i)log⁡hθ(x(i))+(1−y(i))log⁡(1−hθ(x(i)))]J(\theta)=-\frac{1}{m}\left[\...

2019-05-24 11:14:05 1042

原创深度学习中的归一化技术小结

深度学习中的归一化技术主要有以下几种方法：Batch NormalizationLayer NormalizationInstance NormalizationGroup Normalization核心步骤都是：x^(k)=x(k)−E[x(k)]Var⁡[x(k)]+ϵ\widehat{x}^{(k)}=\frac{x^{(k)}-\mathrm{E}\left[x^{(k...

2019-05-24 11:12:52 1563

原创深度学习调参点滴

深度学习调参一，初始化多尝试几种初始化方法：Xavier_uniform二，正则化添加高斯随机噪声：例如在初始化的词嵌入中加入高斯随机噪声、在中间隐层添加噪声、在输出层添加噪声(例如label smoothing)，一般加入均值为0，方差较小的高斯噪声。Dropout：输入dropout、循环层的dropout、中间层的dropout等等；权重衰减：L2正则化；BatchNo...

2019-05-24 11:09:32 280

原创特定主题或特定情感下的文本生成

特定主题或特定情感下的文本生成1. Topic Aware Neural Response Generation(2017)提出了TA-Seq2Seq模型。其中TwitterLDA很有用，它是短文本最优的主题模型。TwitterLDA假设：每一条信息只于一个主题有关，信息中的每个词要么是背景词要么是这条信息下的主题词。联合注意力机制：Message attention：最后融合成上下...

2019-05-24 11:06:28 2027

原创问答系统

问答系统一，问答系统概述1，研究背景问答系统是下一代搜索引擎的基本形态。问答系统的定义：输入：自然语言的问句，而非关键词的组合。输出：直接答案，而非文档集合。2，发展历程图灵测试基于知识推理的问答系统：答案或者从知识库中检索得到，或者在知识库上经过推理得到。问答式检索系统：利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。社区问答系统基于知识库...

2019-05-24 11:01:37 4146 2

原创机器翻译

机器翻译一，机器翻译概论概念：机器翻译是用计算机把一种语言翻译成另一种语言的一门科学和技术。机器翻译的困难自然语言中普遍存在的歧义和未知现象。句法结构歧义、词汇歧义、语用歧义新的词汇、术语、结构和语义机器翻译不仅仅是字符串的转换。机器翻译的解不唯一，而且始终存在的人为的标准。基本翻译方法1，直接转换法2，基于规则的翻译方法步骤如下：对源语言句子进行词...

2019-05-24 11:00:04 2346

原创信息抽取

信息抽取一，信息抽取概述信息抽取定义：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取的主要任务有：实体识别与抽取实体消歧关系抽取事件抽取二，实体识别与抽取1，实体识别任务：识别出待处理文本中七类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。两个子任务：实体边界识别和确定实体类型。特点：人名、地名、机...

2019-05-24 10:55:29 1561

原创语法理论

语法理论乔姆斯基提出的四种形式语法有明显的缺陷：过于泛化，生成能力太强。所以之后又提出了很多改进的语法！功能合一文法词汇功能语法广义结构语法树连接语法链语法一，功能合一文法采用复杂特征集来描述词、句法规则、语义信息，以及句子的结构功能。采用合一运算对复杂特征集进行运算。它是对短语结构语法的改进。复杂特征集：α(fi)=vi(i=1,...,n)\alpha(f_i)...

2019-05-24 10:52:35 1152

原创 CRFs及其应用

CRFs及其应用模型原理基本思路：给定观察序列XXX，输出标识序列YYY，通过计算P(Y∣X)P(Y|X)P(Y∣X)求解最优标注序列。CRFs和HMMs的区别：CRFs中特征函数(全局特征函数)统一表示为：Fj(Y,X)=∑i=1nfj(yi−1,yi,X,i)F_j(Y,X)=\sum_{i=1}^{n}f_j(y_{i-1},y_i,X,i)Fj(Y,X)=i=1∑nfj...

2019-05-24 10:47:56 3172

原创句法分析

句法分析一，概述任务：句法分析的任务就是识别句子的句法结构。类型有：短语结构分析完全句法分析局部句法分析依存句法分析二，短语结构分析目标：实现高正确率、高鲁棒性、高速度的自动句法分析过程。困难：自然语言中存在大量的复杂的结构歧义。结构歧义中最常见的就是介词短语绑定歧义。基本方法：基于CFG规则的分析方法线图分析法CYK算法…基于PCFG的分析方法...

2019-05-24 10:43:38 1598

原创词法分析与词性标注

词法分析与词性标注一，英语的形态分析单词识别形态分析形态分析的一般方法：查词典单词还原进入未登录词处理模块二，汉语自动分词概要1，汉语自动分词中的主要问题规范问题歧义切分字段处理交集型歧义组合型歧义未登录词的识别2，汉语自动分词的基本原则语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)语类无法由组合成分直接...

2019-05-24 10:41:14 993

原创强化学习点滴

强化学习Agent learns to take actions maximizing expected reward or expected cumulative reward per episode.基于模型的方法无模型的方法首先得说一下这里的模型指的是什么。**model就是用来预测环境接下来会干什么，即在这一状态的情况下执行某一动作会达到什么样的状态，这一个动作会得到什么re...

2019-05-24 10:35:57 230

原创深度学习中的结构化概率模型

深度学习中的结构化概率模型结构化概率模型也称为图模型。一，非结构化建模的挑战概率模型可以完成很多任务，例如：估计密度函数去噪缺失值的填补采样对上千甚至上百万的随机变量的分布建模，无论从计算上还是统计意义上来说，都是一个极具挑战性的任务。非结构化建模的主要挑战在于参数的数量是巨大的，这会导致：内存：存储参数的开销太大。统计的高效性：容易过拟合，因为数据量不够，所以需要一些...

2019-05-24 10:31:32 1344

原创 CASCADE: Contextual Sarcasm Detection in Online Discussion Forums(2018)论文笔记

本文提出了一种新的综合性的模型结构：CASCADE(ContextuAl SarCAsm DEtector)，它充分利用了每条文本的上下文信息，包括：文本的用户信息（用户文体风格信息+用户个性信息）；文本的主题信息。CASCADE模型的大致流程如下：构建用户嵌入：首先利用每个用户的历史文本得到用户的写作风格嵌入和用户个性嵌入，并利用典型相关分析（CCA）将两个向量融合到一起得到用户嵌...

2019-01-09 11:05:49 706

原创 Reasoning with Sarcasm by Reading In-between(MIARN 2018)论文笔记

本文主要是提出了一种新的模型：MIARN(Multi-dimensional Intra-Attention Recurrent Networks)，Intra-attention其实可以看做是self-attention的一种变种，很简单，但可解释性很好！1. Introduction虽然反讽表达形式多样，但其中有很大一部分（SemEval2018数据集显示占69.9%）是前后情感矛盾式的...

2019-01-03 16:45:54 754 2

原创个性化情感分析的三篇论文(UPNN、UPA、UPDMN)

一，Learning Semantic Representations of Users ans Products for Document Level Sentiment Classification(2015)1. 模型结构本文提出了：UPNN（User Product Neural Network），基于CNN模型。参数主要有一下四个方面的参数：user-sentiment：uk...

2018-12-29 15:17:49 3114

原创面向社会媒体的文本情感分析

情感分析发展的七项关键技术：情感分类情感元素抽取跨领域情感分析个性化情感分析隐式情感分析情感原因发现情感生成1. 情感分类1.1 基于传统机器学习方法的情感分类最好的模型是：SVM！（2002）文本特征采用：Bag of ngrams words + TFIDFBag of ngrams characters+TFIDF1.2 基于深度学习方法的句子情感分类...

2018-12-29 15:04:57 1056 1

转载深度学习中的注意力机制（2017版）

2018-12-01 11:35:02 2335

原创写给NLP研究者的编程指南

写给NLP研究者的变成指南（总结）基础：neural NLPpython(tensorflow、pytorch)good science将要学到的：how to write code in a way that makes your life easier！写研究代码主要有两种模式：写原型写组件一，写原型1. 如何快速地写代码使用一个框架核心：training ...

2018-11-24 14:54:48 581

原创文本自动摘要概述

一，文本摘要概述文本自动摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。代表系统有：密歇根大学的NewsInEssence。哥伦比亚大学的NewsBlaster。二，文本摘要分类三，文本摘要方法三种摘要方法抽取式摘要：直接从原文中抽取已有的句子组成摘要。压缩式摘要：抽取并简化原文中的重要句子构成文摘。理解式摘要：改...

2018-06-16 15:55:54 11675 5

原创情感分析概述

情感分析主要研究观点挖掘、倾向性分析等。一，为什么需要观点挖掘和倾向性分析文本信息主要包括两类：客观性事实主观性观点但是已有的文本分析方法主要侧重在客观性文本内容的分析和挖掘。二，什么是观点挖掘与倾向性分析观点挖掘与倾向性分析就是从海量数据中挖掘观点信息，并分析观点信息的倾向性。观点挖掘与倾向性分析的主要任务有：观点及倾向性识别：如情感识别。观点要素抽...

2018-06-16 15:51:19 7732

原创深度学习的一些重点总结

深度学习总结一，变分推断变分推断通过使用已知简单分布来逼近需推断的复杂分布，并通过限制近似分布的类型，从而得到一种局部最优、但具有确定解的近似后验分布。在现实生活中，E步对p(z|x,Θt)p(z|x,Θt)p(z|x,\Theta^t)的推断很可能因为z⃗&amp;nbsp;z→\vec z模型的复杂而难以进行，此时可以借助变分推断。通常假设z⃗&amp;nbsp;z→\vec z服从分布： ...

2018-06-16 15:39:59 986

原创蒙特卡罗方法

蒙特卡罗方法一，采样和蒙特卡罗方法为什么需要采样当我们需要以较小的代价近似许多项的和或某个积分时，采样是一种很灵活的选择。蒙特卡罗采用的基础蒙特卡罗方法的思想是把这个和或者积分视作某分布下的期望，然后通过估计对应的平均值来近似这个期望。令： s=∑xp(x)f(x)=Ep[f(x)]s=∑xp(x)f(x)=Ep[f(x)]s=\sum_xp(x)f(x)=...

2018-06-16 15:30:21 3339

原创 Word2Vec

引言Word2Vec是google提出的一个学习word vecor(也叫word embedding)的框架。它主要提出了两个模型结构CBOW和Skip-gram，这两个模型都属于Log Linear模型，结构如下所示： CBOW对小型数据比较合适，而Skip-gram在大型语料中表现得更好。CBOW模型CBOW main idea：Predict center w...

2018-05-18 21:59:05 2754

原创 EM算法的点滴

虽然EM算法只能保证找到局部最优，但应用地仍然十分广泛，而且十分有效。1，EM算法 for NB Model with Missing Labels2，EM算法的通用形式3，EM算法与一般的MLE的关系结合上图与下图即可看出两者的关系。 ...

2018-05-14 17:52:33 242

原创 MEMMs(Log-Linear Tagging Models)

和HMMs相比，Log-Linear Tagging Models的核心优势在于它高度灵活的表示，它可以让各种特征在模型中简单的聚合！提示：MEMMs和Log-Linear Tagging Model是同一个模型，因为ME本质上就是Log-Linear Model，而且MEMMs中用到的马尔可夫假设和HMM中用到的是几乎一样。只不过MEMMs是一个判别模型，它学习的是一个条件分布！条件标注...

2018-05-13 20:54:41 859 1

原创怎样做好特征工程？

一，特征工程如何充分利用数据进行预测建模就是特征工程要解决的问题！ “实际上，所有机器学习算法的成功取决于您如何呈现数据。”1，特征工程的重要性 2，什么是特征工程特征工程是将原始数据转换为能够更好地表示预测模型的底层问题的特征的过程，从而提高对不可见数据的模型预测精度。 “feature engineering is manually desi...

2018-05-07 00:50:46 3929

原创特征预处理的一些常见问题

1，怎样降低outliers对non-tree models的影响？ 2，对于tree-based models，什么情况下LabelEncoding比OneHotEncoding效果好？ 3，对于tree-based models，什么情况下OneHotEncoding比LabelEncoding效果好 4，对于线性模型，怎样对类别特征编码比较好？ 5，怎样从文本和图像中...

2018-05-02 11:53:46 399

原创特征预处理和特征生成 (三)缺失值的处理

一，填充缺失值填充NaN的方法要取决于特定情况！填充缺失值常用的方法有以下三种：将NaN替换为一个常数，如-1，-999等等。这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。将NaN替换为均值或者中位数、众数等。这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言，首先选择缺失值的对象可能会更困难。通过已有的值构建出缺...

2018-05-02 11:33:20 3629

原创 Probabilistic Context-Free Grammers(PCFGs)

一，上下文无关文法(CFGs)1，基本定义如下就是一个比较清楚的例子： 2，最左推导例如：一组最左推导正好可以很容易地表示成一棵句法解析树，即一组最左推导其实可以看成一棵句法解析树！假设上面的句法解析树为ttt，则yield(t)=yield(t)=yield(t)=the dog laughs，即这棵树表示的单词序列。...

2018-05-01 21:49:47 5256 1

原创特征预处理和特征生成 (二)类别特征和序数特征

类别特征和序数特征类别特征：一般的类别特征，这种特征没有顺序或距离的概念。例如：性别(男/女)、国家、职业等。序数特征：有着某种意义排序的类别特征，但又不同于数字特征。例如：学历(学士/硕士/博士)、火车票等级(一等座/二等座)，它们虽然是类别特征，但它们在某种意义上又是有顺序或距离的。1，特征的预处理Label EncodingFrequency Encodin...

2018-04-26 21:23:57 1502

原创特征预处理和特征生成 (一)数字特征

数字特征1，特征的预处理Scalingoutliersrank亚线性处理（1）Scaling预处理To [0,1]：MinMaxScaler()To mean=0,std=1：StandardScaler()（2）去除outliers将一些特征的边缘值去掉，如下所示。使用rankdata预处理：将特征值转换为对应排序后的索引，这种方法比第一种...

2018-04-26 10:27:59 1798

原创数据挖掘竞赛中常用的ML

ML RecapLinear ModelsLogistic RegressionSVMTree-based ModelsDecision TreeRF(随机森林)GBDT(梯度提升决策树)Neural Networks kNN使用的机器学习库主要是：scikit-learn、lightGBM和XGBoost。一，随机森林1，对随机森林直观的理解...

2018-04-23 19:50:26 716

原创深度模型中的优化与参数初始化方法

基本的优化算法Batch GDSGDSGD with 动量SGD with Nesterov动量自适应学习率算法AdaGradRMSPropRMSProp with NesterovAdam: Adaptive Moments比较与选择它们之间的关系如下：对于如何选择没有达成共识，但结果表明具有自适应学习率的算法族表现得相当鲁邦，不分...

2018-04-16 20:02:00 1234

原创深度学习中的正则化

任何可以使学习算法有降低泛化误差意向的改动都是正则化。一个有效的正则化就是能显著地降低偏差而不过度增加偏差。最好的拟合模型总是一个适当正则化的大型模型！1，参数范数惩罚与约束范数惩罚L2参数惩罚（岭回归）：特征权重衰减，可以解释为权重为高斯先验的MAP贝叶斯推断。L1参数惩罚（Lasso回归用到L1）：特征稀疏，有特征选择的效果，可以解释为权重为Laplace先验的MAP贝叶斯...

2018-04-16 19:09:57 451

原创 TensorFlow实战（六）- 使用TensorFlow实现卷积神经网络CNN

一，卷积神经网络简介卷积神经网络提供了一种方法来特化神经网络，使其能够处理清楚的网络结构拓扑的数据，以及将这样的模型扩展到非常大的规模。这种方法在二维图像拓扑上是最成功的。卷积神经网络的主要特征有：稀疏连接：源于视觉的局部感受野。权值共享等变表示：平移等变性。总结：稀疏连接和权值共享降低了参数量，使训练复杂度大大降低，并减轻了过拟合。同时权值共享还赋予了卷积网络对平移的容忍性，...

2018-04-15 20:08:46 1154

原创 Log-Linear Models

一，简介引入对数线性模型被广泛应用于NLP中，对数线性模型的一个关键优点在于它的灵活性：它允许非常丰富的特征集合被用于模型中。常见的对数线性模型有Logistic回归、最大熵模型、MEMMs和CRFs等。目的1，Trigram LMTrigram LM还是比较有效的，但是它并没有充分使用上下文w1,w2,...,wi−1的信息w1,w2,...,wi−1的信息w_1,w...

2018-04-14 15:51:20 8171 2

原创 Tagging Problems and Hidden Markov Models

一，标注问题1，基本定义通常将源序列x1,x2,..,xnx1,x2,..,xnx_1,x_2,..,x_n映射为标记序列y1,y2,...,yny1,y2,...,yny_1,y_2,...,y_n的问题，称为序列标注问题或者标注问题。序列对建模的任务就是从训练语料中学习一个函数可以将源序列映射为标记序列的函数。2，两个经典的标注问题（1）POS tagging(词性...

2018-04-12 20:46:49 314

原创 Language Modeling

一，语言模型1，基本定义一个语言模型包含一个词汇集合VVV和一个函数p(w1,w2,...,wn)p(w1,w2,...,wn)p(w_1,w_2,...,w_n)，并且该函数满足：对于任意的词序列<w1,w2,...,wn>∈S,p(w1,w2,...,wn)≥0<w1,w2,...,wn>∈S,p(w1,w2,...,wn)≥0\in S,p(w_1,...

2018-04-05 20:05:39 2110

空空如也

空空如也