1 weixin_42150936

尚未进行身份认证

暂无相关简介

等级
TA的排名 15w+

集成学习(机器学习)

集成学习Bagging实例:采样方式随机采样(bootsrap)就是从我们的训练集中采集固定个数的样本,但是每采样一个样本后,都将样本放回。也就是说,之前采集到的样本放回后有可能继续被采集到。集成方式Bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常采用简单平均,对弱学习器得...

2019-08-28 06:49:46

句法分析

关键词解释序号符号解释1IP简单从句2NP名词短语,nounphrase3VP动词短语,verbphrase4PP介词短语,prepositionphrase5ADVP副词短语:adverbphrase6ADJP形容词短语:adjectivephrase7NN常用名词:normalnoun8...

2019-07-19 18:15:15

文本分类BiLSTM-Attenion

BiLSTM-Attenion导包+参数importosimportcsvimporttimeimportrandomimportjsonimportnumpyasnpimportpandasaspdfromtqdmimporttqdmimporttorchimporttorch.nnas...

2019-07-13 09:32:01

文本分类之Bi-LSTM

Bi-LSTM库导入与参数配置importosimportcsvimporttimeimportrandomimportjsonimportnumpyasnpimportpandasaspdfromtqdmimporttqdmimporttorchimporttorch.nnasnn...

2019-07-13 06:57:24

pytorch归一化问题

CharCNN学习

2019-07-11 17:04:43

文本分类实战-textCNN

文本分类实战Word2vec词向量

2019-07-10 17:56:23

朴素贝叶斯+语言模型

语言模型语言模型定义困惑度常用模型

2019-07-09 16:27:02

Docker

简介常用命令dockerinfodocker--help镜像命令dockerimage显示内容说明:PEPOSITORY表示镜像的仓库源;TAG镜像的标签;IMAGEID镜像编号;CREATED镜像创建时间;SIZE镜像大小参数:-a,列出本地所有的镜像;-q只显示镜像ID;–digests显示镜像的摘要信息;–no-trunc显示镜像的完整信息do...

2019-07-08 19:40:09

CRF实践

题目假设我们有两个相同的骰子,但是其中一个是公平的,每一个点数出现的概率相同;另一个筛子则被做了手脚,数字6出现的概率被调为80%,而1-5出现的概率都为4%。如果我给你一个15次投骰子的序列,你能预测出每次投掷的是哪个筛子吗?理论:对于理论的讨论我们分为三个部分:1.指定模型参数;2.估计这些参数;3.利用这些参数进行预测指定参数在这个问题中,我们需要担心...

2019-07-08 08:06:07

条件随机场

概率无向图模型定义概率无向图模型又称为马尔可夫随机场,是一个可以由无向图标识的联合概率分布。无向图是指边上没有方向的图,既然边没有方向,其权值就是有方向的。无向图中表示的随机变量之间存在的性质成对马尔可夫性P(Yu,Yv∣YO)=P(Yu∣YO)∗P(Yv∣YO)P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)*P(Y_v|Y_O)P(Yu​,Yv​∣YO​)=P...

2019-07-06 11:24:00

隐马尔科夫模型

定义HMM是关于时序的概率模型,描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列,再由各个状态生成观测序列的过程HMM的确定HMM由初始概率分布π\piπ、状态转移概率分布A以及观测概率分布B确定λ=(π,A,B)\lambda=\big(\pi,A,B\big)λ=(π,A,B)三个基本问题概率问题:前向-后向算法----动态规划给定模型...

2019-07-05 10:19:09

Spark之Scala基础

基本数据类型基本数据类型:Byte,Char,Int,Long,Float,Double,Boolean函数调用与apply()函数“Hello"(2)其实就是调用”Hello".apply(2)条件语句条件varage=30if(age>18)1else20语句终结符与块表达式vara=b=c=10if(a<...

2019-06-13 17:29:05

文本相似度计算

文本相似度计算方案TF-IDF基本概念TF-IDF是TermFrequency-InberseDocumentFrequency的缩写,即‘词频-逆序文本频率’。它由两部分组成,TF和IDFTF:词频,文本中各个词的出现频率,并作为文本特征IDF:IDF反映了一个词再所有文本中出现的频率,如果一个词在很多文本中出现过,那么它的IDF值应该很低。而反过来如果一个词在比较少的...

2019-05-05 19:07:52

PageRank、TextRank

PageRank将Web做如下抽象a.将每个网页抽象成一个节点b.如果一个页面A由链接直接指向B,则存在一条有向边从A到B因此整个Web被抽象成一张有向图。假设只有四张网页:A、B、C、D其抽象结构如下图所示:PageRank算法基本思想描述:被用户访问越多的网页更可能质量越高,而用户在浏览网页时主要通过超链接进行页面跳转,因此需要通过分析超链接组成的拓扑结构来推算每...

2019-04-27 21:15:43

Transform模型

Elmo(基于LSTM)SequencetoSequence例attention例隐藏层:h1,h2,⋯ ,hNh_1,h_2,\cdots,h_Nh1​,h2​,⋯,hN​ontimestept,wehavedecoderhidenstatests_tst​可以得到sttentionscoreete^tetfo...

2019-04-25 11:07:27

狄利克雷分布、采样方法、主题模型

主题模型LDALDA是一种无监督的贝叶斯模型是一种主题模型,它可以将文档集中的每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量K即可。此外LDA的另一个优点则是,对于每个主题均可找出一些词语来描述它。是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的顺序,...

2019-04-25 10:27:13

RNN、LSTM

RNN参数特点各个时刻参数共享模型详解图LSTM包含的组件之忘记门(ForgetGateLayer)图ft=δ(Wf[ht−1,xt])f_t=\delta\big(W_f[h_{t-1},x_t]\big)ft​=δ(Wf​[ht−1​,xt​])...

2019-04-18 21:39:01

卷积神经网络

卷积图解Padding假设输入/原图像大小为n×n,过滤器大小为3×3,则输出大小按照如下计算:VALID:不够滑动,则将右下的剩余部分舍弃,从原矩阵右上角开始卷积H′⌈H−k+1d⌉H^{\prime}\lceil\frac{H-k+1}{d}\rceilH′⌈dH−k+1​⌉注:H表示卷积前尺寸,H′H^\primeH′表示卷积后尺寸,k为卷积核尺寸,d为步长....

2019-04-17 00:04:33

GLove、NNLM、Word2vec

Word2vec模型分类跳字模型在跳字模型中,我们用一个词来预测它在样本序列周围的词。例如,给定文本序列the、man、hit、this和son,跳字模型所关心的是,给定它的邻近词the、man、this和son的概率。在这个例子中,hit叫中心词,the、man、his、son叫做背景词。假设词典大小为TTT,使用独热向量表示词典中的每个词,当窗口大小为m时,跳字模...

2019-04-05 22:29:08

自然语言处理

自然语言处理核心问题文本分类、关键词提取、情感分析、语义消歧、主题模型、机器翻译、问题回答、汉语分词、垂直领域的对话机器人

2019-03-22 20:08:27

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。