ywm-pku-CSDN博客

原创对话状态追踪TRADE模型数据和代码解读

数据集：Multi-Domain Wizard-of-Oz 数据集 (MultiWOZ)，一个完全标记的人类与人类书面对话的集合，跨越多个领域和主题。在 10k 个对话的大小上，它至少比以前所有带注释的面向任务的语料库大一个数量级。...

2022-03-18 14:45:52 1433

Open Vocabulary-based DST基于开放词表的状态解码器直接从对话中找出或者生成槽值运行在MultiWOZ 2上的Open Vocabulary-based DST模型，包括TRADE、DSTreader、COMER、NADST、ML-BST等等一般思想是运行autoregressive generation算法来生成槽值。TRADE模型体现了encoder-decoder framework的潜力，但在计算上效率不高，因为它在每一turn为全部slots生成values。.

2022-02-23 13:50:28 1124

转载任务型对话建模

SLU：把自然语言转换成机器可以处理的领域(domain)/意图(intention) 和槽植对(slot-value pairs)，他的输入是代表用户输入Utterance的Xn，输出是Un。Xn就是用户说的话，一般是几个到几十个词。Un=（In, Zn), In是intention，Zn是槽植对。In=f(Xn) , 就是意图分类，一般分类方法都行，也可采用DBN、DCN等方法。Zn=f(Xn)，Zn = { 1, 2, 3…}，是序列标准问题，传统的CRF、HMM都行，RNN...

2022-02-16 10:32:46 408

原创 TransR的实体链接代码解析

TransR: 实体和关系分开嵌入（Learning Entity and Relation Embeddings for Knowledge Graph Completion）问题：一个实体是多种属性的综合体，不同关系关注实体的不同属性。直觉上一些相似的实体在实体空间中应该彼此靠近，但是同样地，在一些特定的不同的方面在对应的关系空间中应该彼此远离。方案：将实体和关系嵌入到不同的空间中，在对...

2022-02-16 10:29:28 1481

原创 convE:Convolutional 2D Knowledge Graph Embeddings

思路：1.encoding component 嵌入层S，O -（embedding）->Es,Eo2.scoring component 打分函数模型结构图1和2步实体和关系嵌入的变形和拼接3.卷积后全链接4.和实体矩阵相乘5.sigmoid后给出概率打分函数数据集介绍WN18是WordNet的子集，包括18种关系和409...

2022-02-16 10:29:06 446

原创 rasa core的简单解读

1. 对话管理1.1 多轮对话多轮对话是相对于单轮对话而言的，单轮对话侧重于一问一答，即直接根据用户的问题给出精准的答案。问答更接近一个信息检索的过程，虽然也可能涉及简单的上下文处理，但通常是通过指代消解和 query 补全来完成的，而多轮对话侧重于需要维护一个用户目标状态的表示和一个决策过程来完成任务，具体来说就是用户带着明确的目的而来，希望得到满足特定限制条件的信息或服务，例如：订餐，订票，寻找音乐、电影或某种商品等。因为用户的需求可以比较复杂，可能需要分多轮进行陈述，用户也可能在对话过程中不断修

2021-11-03 14:24:09 239

原创 ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately

看上去是一个GAN的结构，在生成器的训练中，由于GAN模型在文本上的应用困难，因此，使用的是极大似然的方法。预训练结束后，在下游的应用上，去掉了生成器，仅使用判别器进行微调。生成器部分：softmax函数生成器的输入：生成器的输出：probs Tensor("generator_predictions/Softmax:0", shape=(128, 19, 30522), dt...

2020-03-26 19:32:34 427

原创图卷积网络中的傅里叶变化和逆变换

傅里叶变换是将函数分解到频率不同、幅值恒为1的单位圆上；拉普拉斯变换是将函数分解到频率幅值都在变化的圆上。因为拉普拉斯变换的基有两个变量，因此更灵活，适用范围更广。卷积定理：函数卷积的傅里叶变化是函数傅里叶变化的乘积，即对于函数f(t)与h(t)两者的卷积是其函数傅里叶变换乘积的逆变换：类比到Graph上并把傅里叶变换的定义带入，f与卷积核h在Graph上的卷积可以由下面步骤得到：...

2019-12-19 19:10:38 4402

原创关于transformer-xl中rel-shift实现的解读

方法抽象地看，我们要做的事情就是，给定一个矩阵，每行都进行左移，而移动的个数随行数递增而递减。我目前想到的一种方法是使用gather，将想要的index提前定好，然后使用Pytorch的gather就能够实现。而transformer-xl实现了另一种更好的方法：_rel_shift。 def _rel_shift(self, x, zero_triu=False...

2019-10-03 13:15:44 1379 2

原创 transforer-xl代码解读

数据处理的格式如下：idx = 0：0-99,99-199,200-299,...........................idx = 1: 0-99idx = 2: 0-99 ....idx = 3: 0-99.......idx = 63:0-99,batch_size = 64,max_len = 100,输入：0，1，2，3，label:1,2...

2019-09-27 16:58:38 390 1

原创 transformer和transformer-xl的解读

第一部分：TRANSFORMERTransformer出自于论文Attention is All You Need，Tensorflow实现的版本可以由Tensor2Tensor下载查看。Pytorch版本见guide annotating the paper with PyTorch implementation。本篇文章会试着简化概念并且一个一个介绍，以便于初学者理解。总览让我们从...

2019-09-12 15:31:18 6844

原创深度强化学习在指代消解中的一种尝试

论文 | Deep Reinforcement Learning for Mention-Ranking Coreference Models链接 | http://www.paperweekly.site/papers/1047源码 | https://github.com/clarkkev/deep-coref介绍本文出自斯坦福 NLP 组，发表在 EMNLP 2016，...

2019-08-10 13:37:29 460

转载自然语言处理 |Transformer详解

https://blog.csdn.net/sdu_hao/article/details/88328024

2019-08-10 13:26:17 588

转载 tensorflow中的训练参数的输出vairable/variable_Adam/variable_Adam_1

优化算法分为两大类：1. 一阶优化算法这种算法使用各参数的梯度值来最小化或最大化损失函数E(x)。最常用的一阶优化算法是梯度下降。函数梯度：导数dy/dx的多变量表达式，用来表示y相对于x的瞬时变化率。往往为了计算多变量函数的导数时，会用梯度取代导数，并使用偏导数来计算梯度。梯度和导数之间的一个主要区别是函数的梯度形成了一个向量场。因此，对单变量函数，使用导数来分析；而梯度是基于多...

2019-07-23 15:39:20 1354

转载 Transformer

神经机器翻译之谷歌 transformer 模型96 涛涛江水向坡流1.7 2018.08.06 19:09* 字数 2471 阅读 14639评论 7喜欢 26声明：转载请在标题标明转载，并添加原文链接。简介这篇博客的主要内容是对谷歌提出的transformer 进行论文解读，包含算法复杂度的分析。对应的论文是 “Attention is all you need", 链接如下 h...

2019-05-11 19:54:43 1812

转载 centos7 同时安装python2、python3和pip3以及各种包遇到的坑

centos7自带python2.7.5，这基本上够用了，但是python2在处理中文数据时很容易遇到编码问题，编码问题是在让人头疼，所以果断安装python3，python3对于utf-8的支持还是很强的，起码在使用gensim包处理中文时没有遇到编码的问题。因此，在我们的服务器上加装了python3.4，但是由此引发了一系列的坑：第一个坑：pip3的安装不知道为什么装完python3之后...

2019-04-16 12:15:08 950

转载 centos误删py2.7的恢复

https://www.cnblogs.com/sueyyyy/p/10410832.html问题描述最近想要将服务器上的Python2.7升级成3.x的版本时。使用了如下命令：? 1 2 3 4 5 （1）强制删除已安装python及其关联 # rpm -qa|grep python|xargs rpm -ev ...

2019-04-16 08:57:14 1252

转载分层强化学习的关系提取

分层强化学习：分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互，进行试错（trial-and-error），从而不断优化策略（policy）。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality)，当系统状态（state）的维度增加时，需要训练的参数数量会随之进行指数增长，这会消耗大量的计算和存储资源。分层强化学习将复杂问题分解成若...

2019-04-07 13:26:22 3926 1

转载图神经网络

目前，大多数图神经网络模型都有一个通用的架构。我将它们称为图卷积神经网络（GCNs），这些模型是可卷积的，因为滤波器参数在图中所有位置或者一个局部位置上（ Duvenaud et al., NIPS 2015）都可以共享。对于这些模型，它们的目标是要学习图G=（V，E）上的信号或特征的一个映射。它们的输入包括：每一个节点i的特征描述xi，可以写成一个N*D的特征矩阵（N表示节点数，D表示输...

2019-03-28 16:19:42 3739

转载深度学习系列-图像分割-算法综述

传统的基于CNN的分割方法缺点？传统的基于CNN的分割方法：为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入，用于训练与预测，这种方法主要有几个缺点：1）存储开销大，例如，对每个像素使用15 * 15的图像块，然后不断滑动窗口，将图像块输入到CNN中进行类别判断，因此，需要的存储空间随滑动窗口的次数和大小急剧上升；2）效率低下，相邻像素块基本上是重复的，针对每个像素块逐个计算...

2019-03-14 22:48:52 17964 2

原创关于dropout的重新认识和理解

函数中，x是本层网络的激活值。Level就是dropout就是每个神经元要被丢弃的概率。注意：Keras中Dropout的实现，是屏蔽掉某些神经元，使其激活值为0以后，对激活值向量x1……x1000进行放大，也就是乘以1/(1-p)。思考：上面我们介绍了两种方法进行Dropout的缩放，那么Dropout为什么需要进行缩放呢？因为我们训练的时候会随机的丢弃一些神经元，但是预测的时候...

2019-03-14 20:41:26 1197 2

原创 Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence论文的解读

论文的关键点本篇文章中一个非常重要的基础就是基于解构后的电子病历数据，建立一个高质量、结构化的病种库，并在这个病种库的基础之上去做诊断模型。其根本是将电子病历结构化后形成------------------------EMR2VEC（将结构化后的电子病历转换成特征向量，该向量是疾病分类模型中的输入量）文中提到的所谓“智能病种库”就是以患者为中心形成的结构化电子病历，其中结构化不仅包括拆...

2019-02-15 17:28:43 924 3

原创 EM算法

https://blog.csdn.net/wsj998689aa/article/details/39577011https://blog.csdn.net/brave_stone/article/details/80423784EM算法整理及其python实现https://blog.csdn.net/u010866505/article/details/77877345#_Toc49...

2019-01-24 17:37:09 305

转载 LDA(线性判别分析)

https://blog.csdn.net/jnulzl/article/details/49894041https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/86110121 基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

2019-01-24 10:31:13 254

原创 LDA-EM

指数分布族(exponential family)u(x)叫做充分统计量：对于要估计的参数来说, 的似然函数仅仅依赖于u(x)要估计的参数熵用来代表“随机变量不确定性的程度”,也就是信息无序的程度,变量的不确定性越大,熵也就越大,搞清楚它所需要的信息量也就越大。当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做...

2019-01-15 21:48:25 261

原创 LDA-模型的实现-----吉布斯采样

https://www.cnblogs.com/nlp-yekai/p/3858705.html?utm_source=tuicool&utm_medium=referral算法 LDA Collapsed Gibbs Sampling输入：文档集(分词后)，K(主题数)，α，β，iter_number(迭代次数)输出：θ_mat(doc->topic)和 (topic-&...

2019-01-15 15:35:47 3419

原创 LDA的使用

https://blog.csdn.net/lei_chen/article/details/53168778

2019-01-15 13:09:16 1778

转载事件抽取的博文

https://blog.csdn.net/m0_37565948/article/details/85157694知识图谱—事件抽取及推理(上)https://mp.weixin.qq.com/s/xR_JFczYbxY0xuy7BYDc7g事件抽取及推理 (下)

2019-01-15 10:50:53 1059

原创 LDA----吉布斯采样

w~Mult(w|p)这里可以引入一个新的概念:概率图模型,来画出这种模型。如图 3-1所示,图中被涂色的表示可观测变量,方框表示重复抽取的次数, 表示一篇文档中总共个单词, 表示M篇文档。也就是说,重复抽取篇文档,每个文档抽取个单词,这样的生成模型生成了整个语料(corpus)。总结：这就是LDA的Collapsed Gibbs S...

2019-01-12 21:43:32 2120

转载 leetcode

动态规划https://github.com/xuelangZF/LeetCode/tree/master/DynamicProgramming分而治之https://github.com/xuelangZF/LeetCode/tree/master/DivideConquer贪心算法https://github.com/xuelangZF/LeetCode/tree/mast...

2019-01-09 10:16:49 237

原创 LDA--二项分布和beta分布,多项分布和狄利克雷分布

二项分布二项分布的概率密度函数是Beta分布随机变量服从参数为的Beta分布通常写作:.这个式子中分母的函数称为 beta函数Beta分布是二项式分布的共轭先验概率分布多项分布直观思考一下多项分布的极大似然估计,其实可想而知,就是数数的个数,然后算一下占整个样本中的比例就可以作为概率的估计了。所以通常在使用似然函数时,可以忽略其常数项—多项...

2019-01-08 18:00:54 2612

原创 bert训练过程3

输出参数INFO:tensorflow:*** Features ***INFO:tensorflow: name = input_ids, shape = (8, 128)INFO:tensorflow: name = input_mask, shape = (8, 128)INFO:tensorflow: name = masked_lm_ids, shape = (8, 20)...

2019-01-04 22:28:19 4251

原创 bert代码解读4----中文命名实体识别

bert代码解读之中文命名实体识别中文ner Use google BERT to do CoNLL-2003 NER 数据处理部分：20864句话，train-0:tokenstokens:汉字inpu_ids:转换成词典中对应的idinput_mask:对应的mask，此处只是一句话，该句话处理成1，其他的不够128的长度的部分补0segment_ids:只有一...

2019-01-01 23:48:37 6097 4

原创 bert代码解读2之完整模型解读

bert代码模型部分的解读bert_config.josn 模型中参数的配置{"attention_probs_dropout_prob": 0.1, #乘法attention时，softmax后dropout概率 "hidden_act": "gelu", #激活函数 "hidden_dropout_prob": 0.1, #隐藏层dropout概率 "hidden_size"...

2018-12-31 14:05:40 19913 7

原创 bert代码解读2之模型transformer的解读

论文attention is all your needgithub：https://github.com/google-research/bert解读翻译：https://www.jiqizhixin.com/articles/2018-11-01-9 https://baijiahao.baidu.com/s?id=1616001262563114372&wfr=s...

2018-12-27 17:47:00 2063

原创 ubuntu清除临时文件使用如下命令清除临时文件：+医疗图像csdn

sudo apt-get cleansudo rm -rf /var/lib/apt/lists/*https://blog.csdn.net/myboyliu2007/article/details/85112421python copy()和deepcopy()https://iaman.actor/blog/2016/04/17/copy-in-python自然语言处理全家...

2018-12-23 00:24:42 3318

转载 ubuntu1604更换源的解决方案

https://blog.csdn.net/pangchengyong0724/article/details/52452878https://github.com/liuhuanyong/MedicalNamedEntityRecognition 电子病例NER

2018-12-20 11:10:46 1824

原创 CRF++的参数设置

特征模板# Unigram template 模板# unigram-features一元特征 U00:%x[-2,0] U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[2,0] # bigram-features二元特征U08:%x[-1,0]/%x[0,0] U09:%x[0,0]/%x[1,0]# trigram...

2018-12-19 09:38:51 2988

原创 BERT代码的解读1---数据处理部分

判断是否是汉字使用的是unicode编码#判断是步是中文字符，汉字的unicode编码最小值为：0x4e00，最大值为0x952f def _is_chinese_char(self, cp): """Checks whether CP is the codepoint of a CJK character.""" # This defines a "chinese c...

2018-12-15 12:39:33 4604 1

javascript基础教程

空空如也