自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lawe的博客

以傲慢的姿态去藐视一切该死的借口~

  • 博客(65)
  • 收藏
  • 关注

原创 【C++学习笔记】函数匹配和函数指针

一、函数匹配   在大多数情况下,比较容易确定某次调用应选用哪个重载函数,然而当几个重载函数的形参数量相等以及某些形参的类型可以由其他类型转换得到时,这个相对就不那么容易。1.1 实参类型转换   确定最佳匹配,编译器将实参类型到形参类型的转换分成以下几个等级:   1.精确匹配,包括:    ①实参类型和形参类型相同;    ②实参从数组或函数类型转换成对应的指针类型;    ...

2018-02-20 21:06:30 425

原创 【C++学习笔记】特殊用途语言特性

一、默认实参   如果在多次调用函数时,其形参都被赋予同一值,可以把反复出现的值成为函数的默认实参(default argument),需要注意的是,在形参列表中,一旦某个形参被赋予默认值,那么后面多有的形参都必须有默认值。   如果使用默认实参,只需在调用函数时省略实参就可以,函数调用时实参按其位置解析,默认实参负责填补函数调用缺少的尾部实参。1.1 默认实参声明   函数的声明一般...

2018-01-15 20:37:14 364

原创 【C++学习笔记】函数返回和函数重载

一、返回类型和return语句   return语句终止当前执行的函数并将控制权返回到调用该函数的地方,return语句有两种形式:return;return expression;1.1 无返回值函数   没有返回值的return语句只能用在返回类型是void的函数中,按时返回void的函数不要求非得有return语句,因为这种函数最后一句会隐式地执行return。void函

2018-01-08 15:10:14 768

原创 【C++学习笔记】函数基础和参数传递

一个函数(function)定义包括:返回类型、函数名字、0或若干个形参组成的列表以及函数体。实参是形参的初始值,并且实参的类型必须与对应的形参类型匹配,函数的形参列表可以为空,但是不能省略,一般是书写一个空的形参列表,也可以使用关键字void表示函数没有形参。

2017-12-29 11:32:58 432

原创 【论文笔记】Adversarial Multi-task Learning for Text Classification

该文章发于ACL 2017,针对于已有的大多数神经网络多任务学习模型进行文本分类,存在的共享特征(shared features)可能再次包含特定任务特征(task-specific features)或者含有来自其他任务带来的噪声问题,作者提出了一个对抗多任务学习模型,缓解了共享特征空间和特定任务特征空间相互干扰的问题,作者在16个任务上进行实验证明其模型的有效性。

2017-12-19 13:33:43 4902 3

原创 【C++学习笔记】类型转换和跳转语句

在C++语言中,如果两种类型由关联,那么当程序需要其中一种类型的运算对象时,可以用另一种类型的对象或值来替代,即如果如果两种类型可以相互转换(conversion),那么它们就是关联的。

2017-12-17 20:11:59 547

原创 【其他】Tensorflow分布式使用简介

深度学习由于存在计算量大,并且需要大量的数据来训练的问题,因而需要采用一些并行机制来加快训练速度,目前常用的并行方法主要有数据并行(data parallel)和模型并行(model parallel)两种。下面主要介绍tensorflow框架采用的数据并行方法 。

2017-12-04 16:33:22 2481

原创 【C++学习笔记】迭代器和数组

在string对象或vector对象中我们可以使用下标运算符来访问其中的字符,除此外,还有一种更通用的机制也可以实现这样的目的,即迭代器(iterator)。

2017-12-02 22:36:58 6145

原创 【C++学习笔记】标准库类型vector

标准库类型vector表示对象的集合,其中多有对象的类型都相同,集合中的每个对象都有一个与之对象的索引用来访问对象,需要注意的是引用不是对象,所以不存在包含引用的vector,因其用来容纳着其他对象,所以也被称为容器(container)。

2017-12-01 00:13:59 324

原创 【C++学习笔记】标准库类型string

标准库类型string表示可变长的字符序列,使用string类型必须先包含string头文件,string定义在命名空间std。一个类可以定义很多种初始化对象的方式,它们之间都有一定的区别,比如初始值的数量不同,或初始值的类型不同。

2017-11-24 22:55:57 362

原创 【Machine Learning】模型融合之Stacking

Stacking(stacked generalization)是在大数据竞赛中不可缺少的武器,其指训练一个用于组合(combine)其他多个不同模型的模型,具体是说首先我们使用不同的算法或者其他方法能够训练出多个不同的模型,然后将这些模型的输出作为新的数据集,即将这些训练的模型的输出再作为为输入训练一个模型,最后得到一个最终的输出,下图为Stacking的大致流程图

2017-11-19 12:41:29 6259 1

原创 【C++学习笔记】处理类型和自定义数据结构

类型别名(type alias)是一个名字,它是某种类型的同义词,使用类型别名可让类型名字变得简单明了、易于理解和使用,以及清楚地知道使用该类型的目的,有两种方法定义类型别名,分别是:

2017-11-17 22:27:55 709

原创 【C++学习笔记】复合类型和const限定符

复合类型(compound type)是指基于其他类型定义的类型。本次主要介绍引用和指针两种。引用(reference)为对象起了另外一个名字,引用类型引用(refers to)另外一种类型。通过将声明写成&d的形式定义引用类型,其中d是声明的变量名。

2017-11-15 00:12:51 291

原创 【C++学习笔记】基本内置类型和变量

C++中的基本内置类型和变量的基本介绍。算术类型分为:整型(integral type,包括字符和布尔类型在内)和浮点型。除去布尔型和扩展的字符型外,其他整型可以划分为带符号的(signed)和无符号的(unsigned)两种。带符号类型可以表示正数、负数或0,而无符号类型则仅能表示大于等于0的值。

2017-11-13 23:29:14 573

原创 【Natural Language Processing】语言模型训练工具Srilm的安装及使用简介

实习做了一段时间的语言模型,使用到了Srilm这个工具,简单做一下记录,这个是一个统计和分析语言模型的工具,据说年龄很大了,总之它可以很方便的统计语料的n-gram,以及构建基于n-gram的语言模型。

2017-11-11 18:18:38 1875

原创 【论文笔记】An End-to-End Model for QA over KBs with Cross-Attention Combining Global Knowledge

该文章发于ACL 2017,在Knowledge base-based question answering (KB-QA)上,作者针对于前人工作中存在没有充分考虑候选答案的相关信息来训练question representation的问题,提出了一个使用Cross-Attention机制的神经网络模型来针对于候选答案的不同方面信息来训练模型;并且训练知识库的全局信息学习,在一定程度

2017-11-09 00:25:03 3652 7

原创 【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks

该文章发于ACL 2015,作者提出了一个基于Freebase,使用multi-column convolutional neural networks(MCCNNs)的自动问答模型,分别从答案路径, 答案背景信息, 以及答案类型 来理解问题,并学习它们的分布式表示(distributed representations),在不使用任何手动特征及词表等条件下,取得了很好地效果。

2017-11-04 23:57:58 2939

原创 【论文笔记】Question Answering with Subgraph Embeddings

该文章发于EMNLP 2014,作者提出了一个基于Freebase,根据问题中的主题词在知识库中确定候选答案,构建出一个模型来学习问题和候选答案的representation,然后通过这些representation来计算问题和候选答案的相关度来选出正确答案,在不适用词表、规则、句法和依存树解析等条件下,超越了当时最好的结果。

2017-11-01 01:01:26 2556 2

原创 【论文笔记】Information Extraction over Structured Data: Question Answering with Freebase

该文章发于ACL 2014,作者提出了一个基于Freebase knowledge base,结合web-scale语料,通过信息抽取的方法进行KBQA,并在当时取得了比前人方法都要好的效果。

2017-10-31 00:09:17 2709 1

原创 【论文笔记】Semantic Parsing on Freebase from Question-Answer Pairs

该文章发于EMNLP 2013,作者提出训练一个语义解析器(semantic parser),基于该语义解析器进行KBQA(knowledge base question answering),具体步骤是语义解析器把输入问题解析为logical forms,再基于这种结构化的表达从知识库(knowledge base)中寻找答案。

2017-10-29 15:04:29 3400

原创 【论文笔记】Character-Aware Neural Language Models

该文章发于AAAI 2016,作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM)。当输入一个LSTM循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN),让该CNN的输出通过一个 Highway Network,使得效果得到进一步提升。该模型非常适用于形态丰富的语言上,因为其可以获取到丰富的语义和拼写信息。

2017-10-24 00:10:55 2899 1

原创 【论文笔记】Neural Relation Extraction with Multi-lingual Attention

该paper发于ACL2017上,作者主要基于关系事实通常在各种语言中存在某种模式表达,并且不同语言之间的模式是不同的这两个动机,针对于当前存在的单语言关系抽取的方法,从而存在忽略不同语言中存在大量信息的问题,作者提出了一个基于多语言交叉Attention机制实体关系抽取方法,可以充分不同语言中的关系模式,从而增强关系模式的学习,文中提出的Multi-lingual

2017-10-18 22:34:22 1634

原创 【Natural Language Processing】语言模型(Language Modeling)

本文主要介绍基于马尔科夫假设的N-gram语言模型,以及包括常用的平滑技术等;语言模型可以应用在机器翻译、拼写纠错、语音识别、自动文摘和问答系统等领域。

2017-09-24 16:17:19 965

原创 【论文笔记】Neural Architectures for Named Entity Recognition

该paper发于NAACL2016,主要对比了BiLSTM-CRF和Stack-LSTM两种模型用于命名实体识别,本次笔记只记录第一种模型;并且采用词级向量和字符级向量结合的方式,在不使用外部的特定领域知识等,仅仅使用了少量监督语料的特征以及未标注语料情况下就可以达到领先水平。

2017-08-22 13:27:01 2651

原创 【论文笔记】Relation Classification via Multi-Level Attention CNNs

该文发于ACL2016上,主要提出了一个基于多Attention机制CNN网络的实体关系抽取方法,其中Attention机制主要是:Input Attention Mechanism和Convolutional Max-pooling Attention Mechanism。在不依赖于外部先验知识和特征的情况下,就已经能够得到高于当前最好方法的结果。

2017-08-18 00:02:29 2823 3

原创 【Natural Language Processing】seq2seq学习笔记

seq2seq可以看成是一个翻译模型,即通过一个sequence转换为另一个sequence,也可以看做是对联的生成,即通过上联来产生下联,其主要是使用两个RNN(其实是LSTM,具体可看:LSTM(Long Short-Term Memory)学习),一个进行Encoder,另一个进行Decoder,即Encoder-Decoder,其可用在NLG(Nature Language Gener

2017-07-18 11:52:22 1565

原创 【Deep Learning】LSTM(Long Short-Term Memory)及变体

通过对RNN理解的基础上(具体可见:【Deep Learning】循环神经网络推导和实现),可以进一步了解LSTM(LongShort-Term Memory,其出现的原因是为了解决RNN对长依赖的句子上表现不好的情况。其本质是通过合理的激活一些信息,避免距离成为信息强度的决定性因素,目前LSTM除了原来的结构外,还衍生出了很多变体。一、RNN与LSTM结构图        通过前一节我们

2017-07-18 10:26:50 2900

原创 【Deep Learning】循环神经网络(RNN)推导和实现

主要参考wildml的博客所写,所有的代码都是python实现,并且没有使用深度学习的框架,所以对理解RNN可以起到很大的帮助。一、语言模型        如果一个句子有m个词,那么这个句子生成的概率就是:        其即假设下一次词生成的概率和只和句子前面的词有关,举一个例子:How are you,生成的概率可以表示为:  P(How are you) = P(you)

2017-07-17 20:45:31 1536

原创 【Natural Language Processing】基于CRF++的中文分词

一、任务简介        中文分词是中文信息处理领域中的最重要的任务,它对于智能信息处理技术具有重要的意义,当前的各种汉语分词技术都可以取得不错的结果。本任务做的是繁体中文分词,将训练语料的30%作为验证集,70%作为训练集,按通常的 P/R/F 三个指标进行评测,最后用全部训练数据进行训练,用给出的测试数据进行测试,并将结果提交。本次任务使用条件随机场模型(CRF)进行实验。2 

2017-07-11 20:37:06 811

原创 【Python学习】Python的re模块和正则表达式

一、正则表达式        我们在处理文本等工作时经常会用到正则表达式(regular expression),正则表达式不是一个程序,而是用于处理字符串的一种模式,当我们想用它来匹配字符串,就必须使用支持正则表达式的工具,比如 Linux 中的 awk, sed, grep,或者编程语言 Perl, Python, Java 等。下图为部分元字符说明二、re 模块     

2017-06-20 15:04:58 501

原创 【Machine Learning】使用随机森林进行特征选择

一、特征选择        在我们做特征工程时,当我们提取完特征后,可能存在并不是所有的特征都能分类起到作用的问题,这个时候就需要使用特征选择的方法选出相对重要的特征用于构建分类器。此外,使用特征选择这一步骤也大大减少了训练的时间,而且模型的拟合能力也不会出现很大的降低问题。        在特征选择的许多方法中,我们可以使用随机森林模型中的特征重要属性来筛选特征,并得到其与分类的相关性。

2017-06-19 21:38:51 20932 7

原创 【Machine Learning】特征工程之合并稀疏特征

一、稀疏特征                在我们做特征工程的时候,可能会碰到一个特征我们假设其特征列的符号值为v,其特征存在多种取值,标签label设为y,特征v如果有很多特征值对应标签y是相同的,那么这些v之间是没有意义的,我们称之为稀疏特征。这个时候我们可以进行合并稀疏特征,因为合并稀疏特征不仅可以降低计算成本,它也最小化了样品错误分类的可能性。二、代码示例# -*- cod

2017-06-19 21:08:40 2531

原创 【Machine Learning】特征工程之独热编码(One-hot Encoding)

一、独热编码        当我们在机器学习做特征工程时,如果某个categorical特征具有多个符号值,则不可能对具有这种特征的数据进行训练,而独热编码是解决这个问题的一种方法。比如我们有一个特征是protocol_type有三个值:tcp,udp,icmp,那么我们可以将三个名为tcp,udp,icmp的列追加到数据中,以表示protocol_type的值。最后,从数据中删除protoc

2017-06-15 22:33:56 1698

原创 【Machine Learning】通过网格搜索进行调参

在我们日常的进行超参数优化工作时,可以手动去试,也可以使用随机搜索、批量随机搜索和网格搜索等方法调到好的参数,关于网格搜索,sklearn中GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。一、参数简介         ①estimator:所使用的分类器,如estimator=RandomForestClassifier(njobs=-1),n_jobs为

2017-06-15 19:26:21 5898 1

原创 【Deep Learning】tensorflow实现卷积神经网络(AlexNet)

一、实验要求        1.使用卷积神经网络实现图片分类,数据集为OxFlowers17;二、实验环境        Anaconda2-4.3.1(Python2.7),tensorflow-cpu。三、实验原理3.1  数据读取        已知数据集是连续80个样本为一个分类,有17个类别,所以一共只有1360个样本,所以首先用一个函数把每一类的样本分到一个文件

2017-05-17 15:59:41 5567 2

原创 【其他】macos安装git及上传文件到github

一、Git安装        下载安装包,下载完成后按照提示安装即可。二、在github上建立项目       到官网注册一个账号,然后新建一个仓库(repositories),选择自动生成README.md文件,可以填一些本仓库的介绍,如下图:三、秘钥设置        ①打开Mac终端,新建一个空的文件夹,cd到这个文件夹

2017-05-14 22:00:04 455

原创 【Natural Language Processing】跨语言情感分析(NLP&CC 2013)

一、任务介绍        本任务是NLP&CC 2013的跨语言情感分析,主要是在英文资源的前提下,对测试集内的每条中文评论进行倾向性分类。        本任务的所有数据均由主办方提供,主要包含三部分:        ①  英文标注数据和英文情感词典;        ②  中文未标注语料;        ③  中文测试集。        数据均采用XML格式, UTF-

2017-05-02 15:21:39 5652

原创 【Natural Language Processing】TF-IDF及其Python实现

一、TF-IDF简介1.1  TF-IDF概念        TF-IDF(term frequency-inverse document frequency):一种用于信息检索与数据挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。        主要思

2017-04-24 01:55:08 1856

原创 【Natural Language Processing】词汇相似度(Word similarity)计算

以下词汇相似度计算方法的实现是基于WordSimilarity-353进行,即根据相关方法计算得到给定词汇的相似度后,再使用斯皮尔曼等级相关判定来计算所得的词汇相似度与已人工标注好的相似度之间的相关性。一、基于语义词典的方法        常用的语义词典是WordNet,一般直接在Python里面使用,即通过pip install nltk来安装NLTK之后,再下载nltk-data放在相

2017-04-14 23:09:35 5821 1

原创 【Natural Language Processing】社区问答系统中的comment分类

一、任务要求和环境        本次实验是SemEval-2015 Task 3英语部分的子任务A中,根据社区问答系统中的每一组问题,其中包含的数据有如发布日期,作者的Id,至少一个评论等内容;我们需要根据问题和参与该系统的评论相关性将评论分类为好的(Good),不好的(Bad)或是潜在有用的(Potential)。         Anaconda2-4.3.1(Python2.7),

2017-04-14 11:11:17 954

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除