自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 基于对话阅读理解的抽取式客服对话摘要(论文阅读笔记)

论文:Extractive Dialogue Summarization WithoutAnnotation Based on Distantly Supervised MachineReading Comprehension in Customer Service论文链接:https://ieeexplore.ieee.org/document/9645319/authors#authors主要动机和思路:这篇文章关注抽取式对话摘要,客服对话摘要中可能存在很多的key points,比如下面

2022-05-20 17:32:04 672

原创 考虑说话人信息的对话摘要

在对话中往往存在多个说话人,说话人之间存在复杂的交互关系,普通的预训练模型难以捕获这种关系,特别容易造成事实一致性的错误,本文主要介绍一些从说话人角度考虑的对话摘要。Capturing Speaker Incorrectness: Speaker-Focused Post-Correction for Abstractive Dialogue Summarization论文链接motivation作者对bart-base的结果做了个分析,发现有一多半的摘要是不正确的,包括错误的推理,产生不正确的内容

2022-03-13 21:47:05 565

原创 引入实体信息的对话摘要论文阅读笔记

Controllable Neural Dialogue Summarization with Personal Named Entity Planning论文链接:https://arxiv.org/abs/2109.13070动机这篇文章认为对话中存在多个说话人,在对话中可能还存在一些其他的人名实体,给对话摘要任务带来了困难,容易生成不符合事实的摘要。从不同的人名实体的角度出发,可以得到不同的摘要。因此,这篇文章引入了人名实体信息。方法这篇文章的方法非常简单,如上图所示。在输入序列的前面拼

2022-03-06 19:45:55 594 2

原创 Coreference-Aware Dialogue Summarization论文阅读笔记

论文链接:https://arxiv.org/abs/2106.08556动机对话中往往存在多个说话人, 说话人的角色经常会发生改变,而且存在着无处不在复杂的指代关系,给对话摘要任务造成了困难,容易造成事实不一致性的错误,错误的配说话人和行为。下图就是一个例子。针对这个问题,作者将指代消解引入到对话摘要模型中。模型与方法首先用指代消解模型标注出对话中的指代关系,得到若干的指代消解簇(cluster),每个簇中包含若干个实体,这些实体指代相同。如下图所示,这里有三个指代簇,相同颜色的实体在一个簇中

2022-03-06 17:08:19 597

原创 常用的ROUGE得分计算Python库(pyrouge,files2rouge,rouge,py-rouge)

前言ROUGE得分是文本摘要任务中最常用的自动评测指标,关于rouge得分的计算,可以查看原始论文https://www.aclweb.org/anthology/W04-1013.pdf要注意一般来说,摘要中包含多个句子,直接把多个句子拼接在一起计算ROUGE得分可能是不准确的,具体可以参考论文中的3.2部分,实际上应该具体考虑摘要中的每个句子。在实际实验中,处于便利和效率的考虑,我们一般不会手动去实现rouge指标,通常会使用一些第三方的库。在看源码的过程中,我发现比较常用的rouge计算库有三

2022-02-13 09:10:53 8028 4

原创 会议摘要论文阅读笔记(二)

An Exploratory Study on Long Dialogue Summarization: What Works and What’s Next论文链接:https://arxiv.org/abs/2109.04609主要想法:这篇文章主要总结了目前长对话摘要的一些方法,主要是会议摘要领域的工作。目前长对话摘要的工作思路主要有两种,一种是对transformer模型进行拓展,比如long transformer,还有一些层次化的方法,比如HMNET等等。第二种方法是先抽取出一些关键句子

2022-02-08 16:22:59 1503

原创 会议摘要论文阅读笔记(一)

ABSTRACTIVE DIALOGUE SUMMARIZATION WITH SENTENCE-GATED MODELING OPTIMIZED BY DIALOGUE ACTS论文链接:https://arxiv.org/abs/1809.05715思路:会议摘要中比较早的工作,利用了dialogue act(对话行为)信息,通过添加一个dialogue act classification(对话行为分类)的任务来提升会议摘要。文章还利用门机制来显示的建模对话行为分类任务和摘要任务的关系。数据

2022-02-08 16:05:13 1404

原创 Low Resource对话摘要论文阅读笔记

Low Resource也是对话摘要任务中的一个研究重点,因为对话摘要的数据集相对偏少,最多也只有一万条数据,而且现实生活中也难以为长对话标注对应的摘要。这里记录两篇low resource对话摘要方面的论文AdaptSum: Towards Low-Resource Domain Adaptation for Abstractive Summarization论文链接:https://arxiv.org/abs/2103.11332主要动机与想法:生成式摘要模型依赖于大规模的摘要数据,需要大量的

2022-01-29 22:04:26 3683

原创 CONFIT: Toward Faithful Dialogue Summarization with Linguistically-Informed论文阅读笔记

论文链接https://arxiv.org/abs/2112.08713主要想法这篇文章主要关注对话摘要中事实不一致性错误的问题,这篇文章通过实验标注的方法对对话摘要任务中的事实不一致性错误进行了一个详细的分类,分析了现有的预训练对话摘要模型的不足以及产生各种事实不一致问题的原因。针对这些事实不一致性的错误,这篇文章在fine-tuning阶段引入对比学习,帮助模型来认识到产生事实不一致性错误的原因,从而减少这些错误事实不一致性错误的分类文章首先使用当前的一些state of art的生成式对话摘

2022-01-29 19:26:42 1985

原创 SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documen

论文链接:https://arxiv.org/abs/1611.04230Idea这篇文章提出了一个利用深度学习来进行抽取式摘要的模型SummaRuNNer,将文本摘要建模成一个序列分类任务,在CNN/Daily数据集上达到了很好的效果Method模型上图给出了模型的总体架构,基于双向GRU,由两层双向GRU组成,第一层从单词级别编码,第二层从句子级别编码,得到整个文档的向量表示,计算公式如下,其中NdN_dNd​代表句子的数目对于序列分类任务,通过下面的公式计算每个句子是否属于摘要:

2022-01-17 20:57:08 1069

原创 Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting论文阅读笔记

论文链接https://arxiv.org/pdf/1805.11080.pdfIdea:这篇文章的主要想法是把抽取式摘要和生成式摘要结合起来,首先训练一个抽取模型选择出重要句子,然后训练一个生成模型,在抽取出的句子的基础上重写得到最终的摘要,由于总的训练不可微分,所以这里利用强化学习,策略梯度来进行训练。相比其他的baseline,这个模型的速度很快。methodextractor抽取模型如上所示,首先用CNN对每个句子编码得到rjr_jrj​,然后再用一个双向LSTM编码,用来捕获全局的上

2022-01-17 20:12:48 737

原创 对话摘要数据集整理

SAMSUM:闲聊对话领域最重要的数据集,主要来自于社交软件,主要是书写的,而不是口语化的数据规模:大部分对话(75%)包含两个说话人,其余包含多个说话人示例:baseline+实验结果

2021-12-05 23:20:08 1721

原创 医疗对话摘要论文阅读笔记

Generating SOAP Notes from Doctor-Patient Conversations Using Modular Summarization TechniquesLinkhttps://aclanthology.org/2021.acl-long.384/Motivation作者提出医疗报告应该是SOAP结构,包含4部分内容:(S)subjective information reported by the patient(病人自己说的信息)(O) objectiv

2021-09-04 00:08:43 1035 1

原创 Extractive Summarization as Text Matching论文阅读笔记

Motivation:一般的抽取式文本摘要方法都是sentence-level的,即对每个句子进行打分,然后选出一些句子来构成摘要。作者通过实验验证了这种sentence-level的抽取式方法可能并不是最优的,因此作者提出一种summary-level的抽取式摘要方法,将文本摘要转化为一个文本匹配问题,使得选出的摘要与原始文档在语义空间中尽可能的相似。Method这篇文章其实一共分为两步,第一步是生成候选摘要,第二步是利用文本匹配的方法对候选摘要重排。第一步生成候选摘要其实还是sentence-l

2021-09-03 15:56:31 657

原创 对比学习文本摘要论文阅读笔记

前言近两年来,对比学习在图像领域大火,在NLP领域也出现了一些利用对比学习的工作。对比学习的一般思想是构造正样例(与原样例语义相似的样例)和负样例(与原样例语义不相似的样例),通过设计对比损失函数,缩小语义相似样例在表示空间中的距离,增大语义不相似的样例在表示空间中的距离,起到类似聚类的效果。关于对比学习,可以参考下面两篇文章。哈工大SCIR-对比学习对白-对比学习在CV与NLP领域的进展这篇博客记录了几篇将对比学习应用于文本摘要任务的论文,是个人的阅读笔记,仅供个人学习使用。CONTRASTIV

2021-09-01 22:34:49 1631

原创 Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization阅读笔记

Motivation:现有的生成式对话摘要方法往往需要引入一些辅助信息,比如key words, dialog act,topic等等,来提高生成的摘要的信息性,相关性,减少摘要的冗余性。这些辅助信息的引入往往依赖于一些开源的工具,这些工具可能本身并不是针对于对话的,不能很好适应对话的特点,或者需要大量的手工标注。本文将DialogGpt改造成无监督的dialogue annotator,自动完成三种标记任务,Keywords Extraction,RedundancyDetection,Topic S

2021-08-20 22:12:47 333

原创 Dialogue Summarization with Supporting Utterance Flow Modeling and Fact Regularization阅读笔记

Motivation作者认为对话存在两个重要特性。第一个特性:传统的文本摘要比如说新闻摘要,往往只关注新闻的前几句话,而对话摘要关注的焦点,则需要从对话的开始慢慢的转移到对话的结束,作者将这个特点称为supporting utterance flow。在这里,作者定义了supporting utterances这个概念,对于摘要中的每个句子,对话中包信息最多的utterances(与摘要句子的Jaccard相似度最高的utterances)被定义为supporting utterances。举个例子,下

2021-08-08 10:32:59 312

原创 Controllable Abstractive Dialogue Summarization with Sketch Supervision阅读笔记

Idea:这篇文章提出了一个两阶段的对话摘要方法。第一步是先生成一个summary sketch,提取出每句对话中的意图(intent)和关键短语(key phrases)。图1右边给出了一个summary sketch的示例,这里定义的intent有五种,what,why,where,confirm(确认,are you,will you),abstain(不属于上面任一种)。生成的sketch识别出了说话人之间的互动关系和对话中的关键信息,为生成最终的摘要提供了一个弱监督信号。第二步是在生成的summ

2021-08-04 12:13:30 346

原创 多视角对话摘要生成(论文阅读笔记)

Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization 阅读笔记Motivation与传统的文本不同,对话中往往隐含着丰富的特定结构信息,也就是说对话其实是按一定结构组织的。一段对话可以从多个不同视角去看待,会产生不同的语篇结构。从一般视角(generic view)上看,可以把对话总体上看成一块(global view),也可以把每条语句可以看

2021-07-28 20:13:00 761

原创 Structure-Aware Abstractive Conversation Summarization via Discourse and Action Graphs 阅读笔记

Motivation人与人之间的对话互动是无结构和复杂的,给生成式对话摘要造成困难。无结构性体现在一段对话的关键信息往往分散在对话的不同部分的多个语句中,并且对话中经常存在很多的干扰(repetition,hesitation,false start);复杂性体现在一段对话往往存在多个说话人,并且每个说话人有不同的说话风格,难以识别出每个说话人的动作(action)。现有的生成式摘要方法存在两个问题,一方面,没有显示的建模语句(utterance)之间的依赖关系,而语句之间的依赖关系可以帮助模型更好的识别

2021-07-26 11:47:09 363

原创 指针网络摘要生成(Get To The Point: Summarization with Pointer-Generator Networks阅读笔记)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-07-26 00:45:51 676

原创 图书馆管理系统c++模拟实现

#include<iostream>#include<cstdio>#include<cstring>#include<algorithm>#include<vector>#include<map>#include<fstream>using namespace std;cla...

2021-07-25 17:17:13 1137

原创 ATM机模拟STL版

#include&lt;iostream&gt;#include&lt;cstring&gt;#include&lt;cstdio&gt;#include&lt;vector&gt;#include&lt;map&gt;using namespace std;class Time{ int month; int day; int hour; int ...

2021-07-25 17:16:58 202

原创 ATM模拟系统

#include&lt;iostream&gt;#include&lt;cstring&gt;#include&lt;cstdio&gt;using namespace std;class Time{ int month; int day; int hour; int minute; public: Time(int m,int d,i...

2021-07-25 17:16:42 753

原创 django编写个人博客(二十二) 用nginx和uwsgi完成部署

1、安装uwsgi 注意: 1)在系统环境安装,非虚拟环境 2)使用对应python版本安装 3)要先安装python开发包 pip3 install uwsgi 2、测试 uwsgi 是否正常: 新建 test.py 文件,内容如下: ...

2019-12-08 14:28:41 193

原创 django编写个人博客二十一 服务器

踩了一下午的坑,记录一下1、首先申请服务器这里用的是阿里云,镜像是Ubuntu2、修改对应密码远程连接,这里用了xshell,直接ssh即可3、具体操作如下安装python3.7 apt-get update apt-get install software-properties-common add-apt-repositorypp...

2019-12-07 17:28:31 154

原创 django编写个人博客(二十)mysql使用配置及踩坑

之前项目使用的是django自带数据库,但实际项目开发中多用mysql,这里将数据库用mysql重新配置,这篇博文主要记录自己遇到的坑以及有关配置步骤1、mysql安装首先,django2.2已不再支持mysql5.5,所以这里我先更换了mysql8,注意要卸载干净mysql5.5,具体卸载可以参考https://www.jb51.net/article/157590.htm安装网上也...

2019-12-07 11:21:46 217

原创 django编写个人博客(十九) gits使用

1、下载gits2、在github创建仓库3、克隆仓库到本地git clone +链接地址4、复制项目到克隆后的仓库文件夹下,git status查看状态5、创建gitignore文件,编辑如下,忽略有关文件6、git add . 添加文件git log 查看日志git reset 撤销操作7、git commit -m "初始化项目" 提交项目8、...

2019-12-01 22:12:08 174

原创 djang编写个人博客(十八)站内简单搜索

修改公共的views这里采用了Q对象,实现了多关键词搜索,各关键词用空格分隔开然后对查询结果进行了分页def search(request): search_word = request.GET.get('wd', '').strip(' ') condition = None for word in search_word.split(' '): ...

2019-12-01 10:31:01 170

原创 django编写个人博客(十七)修改用户信息

1、修改用户昵称创建一个form.html页面,如下{%extends 'base.html'%}{%block title%}{{page_title}}{%endblock%}{%block nav_home_active%}active{%endblock%}{%block content%}<div class="cotainer"> ...

2019-11-27 22:10:34 1714

原创 爬虫的数据库存储

这里用爬取博客标题为例mysql存储import requestsfrom bs4 import BeautifulSoupimport pymysqldb = pymysql.connect('localhost', 'root', '031116', 'scraping')cursor = db.cursor()link = "http://www.santostang....

2019-11-27 16:29:37 185

原创 beautifulsoup爬取安居房信息

import requestsfrom bs4 import BeautifulSoupheaders={'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}link="https://b...

2019-11-27 16:27:32 230

原创 爬取虎扑步行街的帖子并加入Mongo数据库

import requestsfrom Mongom import MongoAPIfrom bs4 import BeautifulSoupimport datetimedef getpage(link): headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...

2019-11-27 16:22:27 242

原创 Django编写个人博客(十六) 导航栏添加用户操作和自定义用户模型

中间直接跳过了点赞,开始设计用户,觉得这个对我更实用一些1、导航栏添加用户操作先修改导航栏加入 <ul class="nav navbar-nav navbar-right"> {% if not user.is_authenticated %} <li> <a href="{%url 'logi...

2019-11-25 16:48:02 453

原创 爬虫解析网页

1、正则表达式获取博客标题import requestsimport relink="http://www.santostang.com/"headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Saf...

2019-11-24 20:44:29 172

原创 Django编写个人博客(十五) 获取评论数和评论细节处理

1、获取评论数主要利用了自定义模板标签新建包templatetags其下建立comment_tags文件from django import templatefrom ..models import Commentfrom django.contrib.contenttypes.models import ContentTypefrom comments.forms impor...

2019-11-24 14:20:14 571

原创 Django编写个人博客(十四)评论回复功能的设计及树结构

修改comment模型,其中parent为外键,表示父亲是哪个,root也为外键,表示根是哪个,related_name反向解析,找到对应根下的全部评论或对应用户的全部评论,reply_to表示回复的对象,null=true表示允许为空,blank=true表示后台管理可以为空from django.contrib.auth.models import Userfrom django.c...

2019-11-24 10:41:40 2009

原创 Django编写个人博客(十三)利用富文本编辑和ajax提交评论

1、用django表单重新设计提交评论在评论应用那里增加forms.py文件,增加对应的类,其中content_type和object_id是隐藏域,初始化放在blog_detail方法中这里把对评论对象的验证和对用户的验证移到了表单这里对评论对象的验证,通过参数获取对应对象,获取不到抛出异常,把找到的对象保存下来对用户的验证,在提交方法中,传入对应的用户参数,在这里通过__in...

2019-11-23 10:24:00 453

原创 selenium爬取深圳短租房信息

这里采用for循环爬取前5页,但不知道为什么只能爬前两页,后面会出现异常,先放在这里吧,再查查资料解决from selenium import webdriverimport timedriver = webdriver.Firefox(executable_path=r'C:\Users\lenovo\Desktop\geckodriver.exe')for i in ran...

2019-11-20 21:20:42 292 1

原创 django编写个人博客(十二) 用django自带表单重新实现登录和注册功能

1、登录在项目公共目录下新建forms.py这是默认名字这里两个字段用户名,密码,密码指定密码格式单独建立login.html修改总的views.py文章模板页面评论部分对应效果可以直接用form进行用户名和密码的验证,使功能更加清晰先修改forms.py进行验证,并把用户传回再修改一下对应方法即可现在在用bootst...

2019-11-20 19:10:09 427

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除