夜空霓虹-CSDN博客

原创跑代码KGAT遇到的错误的解决过程记录

安装后import tensorflow as tf报错，按照如下修改后，还是报错。查看gpu使用情况： nvidia-smi。修改默认gpu-id=1。

2023-08-01 11:30:39 287

This paper introduces QAConv1 , a new question answering (QA) dataset that uses conversations as a knowledge source. We focus on informative conversations including business emails, panel discussions, and work channels. Unlike open domain and task-oriented

2022-07-04 21:49:44 448 1

原创 1.7使用Word Embedding实现中文自动摘要《深入浅出Embedding》

本节通过一个实例讲解如何使用Word Embedding实现中文自动摘要，这里使用Gensim中的word2vec模型来生成Word Embedding.1.7.1 背景说明使用Word Embedding方法提取关键字，主要步骤如下：1）导入一个中文语料库2）基于这个中文语料库，搭建word2vec模型，训练得到各单词词向量3）导入一个文档，包括各主题及其概要描述信息，预处理该文档，并转换为词向量4）用聚类的方法，生成各主题的若干个关键词1.7.2 预处理中文语料库利用ji

2022-02-28 09:19:58 824

原创《深入浅出Embedding--原理解析与应用实践》第一章万物皆可嵌入--读书笔记2

1.3.2 Airbnb推荐系统使用Item Embedding中介平台：短租房客户输入地点、价位、关键词等Airbnb搜索推荐列表Airbnb如何体恒推荐列表的质量？论文：Real-time Personalization using Embedding for Search Ranking at Airbnb.提出了两种通过Embedding分别捕获用户的短期兴趣和长期兴趣的方法，即利用用户点击会话（click session）和预定会话（booking session）序列。

2022-02-26 16:58:53 1191

原创论文阅读-2022.1.7-Don’t be Contradicted with Anything CI-ToD: Towards Benchmarking Consistency for Task

Title：Don’t be Contradicted with Anything! CI-ToD: Towards Benchmarking Consistency for Task-oriented Dialogue System题目：不要与任何事物相矛盾！CI-ToD：面向任务的对话系统的基准一致性AbstractConsistency Identification has obtained remarkable success on open-domain dialogue, which

2022-01-08 20:31:10 722

原创论文阅读-2022.1.2-A Neural Network Approach for_2016_一种用于知识驱动响应生成的神经网络方法

摘要We present a novel response generation system.我们提出了一种新颖的响应生成系统。The system assumes the hypothesis that participants in a conversation base their response not only on previous dialog utterances but also on their background knowledge.系统假设对话的参与者不仅基于先前的

2022-01-02 21:44:16 1415

原创用哈佛图书馆的图片激励2022的自己

2022-01-02 20:01:32 271

转载知识驱动的中文多轮对话数据集

一、介绍a)研究背景背景知识对对话系统至关重要，有两大类主要应用：1) 搜索和问答类型的场景；2) 自然语言理解类的场景。对于任务导向对话系统，背景知识一般被定义为槽值对，为问答和推荐提供了必要的信息；对于开放域对话系统，它有助于生成更具有信息量和吸引力的回复；从形态上来说，背景知识可以划分成结构化知识图谱或非结构化文本。现有的带有外部知识的开放域对话语料中，根据收集方式的不同，大致可以分为两个类别：利用现有的对话数据集，根据上下文标注相关的外部知识：▪常用的标注方法有：

2021-12-24 23:13:27 992

转载对话模型，DialogBERT和DialogWAE优势何在？

转载自：对话模型，DialogBERT和DialogWAE优势何在？ - 知乎 (zhihu.com)多轮对话生成一直是一项典型的NLP应用，并且在众多任务上取得成功。多轮对话问题一直面临两大挑战，即如何准确地学习对话历史的向量表示，以及如何更好地学习应答与历史之间的关系，以保证对话的连贯性。围绕这两大主题，讲者分别提出一种针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE，前者采用层次化BERT构建句子级的连贯关系，并提出两种预训练方法：掩藏句编码回归和分布式句

2021-12-24 20:55:17 378

原创 EVA-中文开放域对话预训练模型

EVA 是目前最大的中文开放域对话预训练模型，拥有28亿参数，在 WDC-Dialogue 上预训练而成。该数据包含14亿个多领域的上文-回复对。实验表明 EVA 在自动指标和人工指标上都超越了现在其他的中文预训练对话模型。官网：智源开源开放平台 (wudaoai.cn)github：GitHub - BAAI-WuDao/EVAPaper link:https://arxiv.org/abs/2108.01547.2 DatasetWe construct a dataset .

2021-12-24 20:27:35 3325

转载 2021 AI技术盘点：预训练模型5大进展

转载自：2021 AI技术盘点：预训练模型5大进展

2021-12-24 20:10:28 1490

转载哈工大教授车万翔：基于迁移学习的任务型对话系统

一、人机对话历史溯源人机对话的历史，最早可以追溯到图灵测试。1950年，图灵提出检测一个机器是否具备智能的方法，就是和机器进行对话，如果能欺骗人、让其分辨不出交谈的对象是机器还是人，就说明机器已经具备了智能。尽管人机对话作为人机交互的一个重要研究方向存在已久，但并未进入公众视野或真正普及，主要是因为当时对话方式的交互还十分困难、准确率不高。随着2011年Siri的研发，乔布斯把人机对话正式推向公众，然而技术并不成熟。幸而随着深度学习技术的蓬勃发展，人机对话准确率越来越高，如今通过手机等移动终端以语音

2021-12-24 17:47:30 312

原创对话系统数据集--CrossWOZ

基本概念什么是对话？我：你好！机器人：你也好！多轮对话呢？我：你好！机器人：你也好！我：吃饭了伐？机器人：当然没有(来回好几回合)任务导向多轮对话呢？我：帮我订一张机票！机器人：哪里呢？我：北京的。机器人：订好了。(不是闲聊，有目的性的对话)跨领域任务导向多轮对话呢？我：帮我订一张机票！机器人：哪里呢？我：北京的。机器人：订好了。我：再在附近订个五星酒店。机器人：北京饭店你看可以吗？ (用户有两个以上目的(订机票和酒店)要通

2021-12-24 14:31:13 2231

原创《开放型对话技术研究综述》论文阅读

摘要开放型对话是对话系统的一个重要分支,有着极强的应用前景。它不同于任务型对话,具有较强的随机性和不确定性。该文从回复方式驱动对话技术发展这个角度切入﹐进行开放型对话技术发展过程的梳理﹐紧扣序列到序列及其改良模型在对话生成场景中应用的这条主要线索﹐对开放型对话的关键技术进行了探讨和研究。上述研究勾画出了从单轮对话到多轮对话发展的主要研究主线。为进一步探索对话技术发展的内在规律和发展趋势，通过研究发现,基于序列到序列的生成模型在面向多轮对话生成的任务场景时﹐显现出模型实现特点和应用场景不完全匹配的问题。因

2021-12-22 21:15:37 696

原创【AI TIME PhD】复杂场景下的机器阅读理解 | 清华大学林衍凯博士（2020年3月6日)

随着PLM模型提出，SQuad上的performance已经很高了。

2021-12-09 16:37:33 592

转载在NLP项目中使用Hugging Face的Datasets 库

数据科学是关于数据的。网络上有各种来源可以为您的数据分析或机器学习项目获取数据。最受欢迎的来源之一是 Kaggle，我相信我们每个人都必须在我们的数据旅程中使用它。最近，我遇到了一个新的来源来为我的 NLP 项目获取数据，我很想谈谈它。这是 Hugging Face 的数据集库，一个快速高效的库，可以轻松共享和加载数据集和评估指标。因此，如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据，那么 Hugging Face 就是您的最佳选择。Hugging Face 是自然语言处理 ..

2021-12-09 09:30:02 655

原创 conda使用

conda 查看已安装的包查看当前环境：conda info -e

2021-12-08 21:23:39 946

原创 OpenPrompt：An Open-Source Framework for Prompt-learning

链接：GitHub - thunlp/OpenPrompt: An Open-Source Framework for Prompt-Learning.OverviewPrompt-learningis the latest paradigm to adapt pre-trained language models (PLMs) to downstream NLP tasks, which modifies the input text with a textual template and di.

2021-12-08 20:57:15 3787

原创 On Transferability of Prompt Tuningfor Natural Language Understanding--关于自然语言理解的即时调优的可转移性

Abstract

2021-12-08 11:25:05 197

原创 latex公式积累

1.x^{\prime}2.f_{\text {prompt}}(x)3.\hat{z}4.

2021-12-08 11:24:56 314

转载 Prompt tuning

来自：《Prompt Tuning 近期研究进展 - 知乎 (zhihu.com)》1.更为普适的Prompt tuning《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》摘要: Prompt tuning，冻结预训练的语言模型只微调连续的提示部分，大大减少了训练时每个任务的存储和内存使用。然而，在 NLU 的背景下，先前的工作和结果表明，现有的即时调

2021-12-08 10:19:22 3411 1

原创 NLP中的机器学习

对问题进行形式化：文本（文本预处理、文本表示、重新加权、降维、向量对比、机器学习算法）文本表示分布式词表示：降维：自编码器：嵌入：使用嵌入向量：深度表示学习：长序列怎么样？...

2021-12-04 17:55:20 304

原创 A Relation-Oriented Clustering Method for Open Relation Extraction

1.AbstractThe clustering-based unsupervised relation discovery method has gradually become one of the important methods of open relation extraction (OpenRE).基于聚类的无监督关系发现方法逐渐成为开放关系抽取（OpenRE）的重要方法之一。However, high-dimensional vectors can encode complex l.

2021-11-21 12:09:21 535

原创 MIML学习

Z.-H. Zhou and M.-L. Zhang. Multi-instance multi-label learning with application to scene classification. In: Advances in Neural Information Processing Systems 19 (NIPS’06) (Vancouver, Canada), B. Schölkopf, J. C. Platt, and T. Hofmann, eds. Cambridge, MA:

2021-11-14 17:43:31 1301

原创 Multi-instance Multi-label Learning for Relation Extraction-2012

AbstractDistant supervision for relation extraction (RE) – gathering training data by aligning a database of facts with text – is an efficient approach to scale RE to thousands of different relations. However, this introduces a challeng ing learning scen

2021-11-14 15:43:08 507

原创 Jo-SRC: A Contrastive Approach for Combating Noisy Labels

Jo-SRC：一种对抗噪声标签的对比方法AbstractDue to the memorization effect in Deep Neural Networks (DNNs), training with noisy labels usually results in inferior model performance.由于深度神经网络 (DNN) 的记忆效应，使用嘈杂标签进行训练通常会导致模型性能较差。Existing state-of-the-art methods primaril.

2021-11-12 11:34:52 784

原创 SENT:Sentence-level Distant Relation Extraction via Negtive Training-ACL2021

AbstractDistant supervision for relation extraction provides uniform bag labels for each sentence inside the bag. 关系提取的远程监督为袋子内的每个句子提供统一的袋子标签，而准确的句子标签对于需要确切关系类型的下游应用程序很重要。Directly using bag labels for sentence-level training will introduce much noise,

2021-11-11 12:27:21 1857 1

原创《数据清洗》8.3.8 加载电影数据至电影维度表

NVL(E1, E2)的功能为：如果E1为NULL，则函数返回E2，否则返回E1本身源代码中有误的点：1.数据库查询类型要设置为String2.数据库连接2--->数据库查询4，数据库连接2--->分组应该是复制形式，不应该是分发形式3.所以导致源代码最终的运行结果不对：源代码中的结果是：正确的最终运行结果：跟表film_actor中的数量是一致的：...

2021-11-09 15:57:11 1217

原创有关kettle中的数值类型

源数据：1、Number类型，格式：0.002.Number类型，#,##0.###3.Integer 精度：34.Integer 精度3 （没效果）格式0.00（有效果，但只是整数阶段后加了两个00而已）5.Number，精度3，格式0.000（有效保留）6.Number，精度4（没效果），格式0.000（有效保留）7.Number，精度2（没效果），格式0.000（有效保留）8.Number只设置了精度，没效果...

2021-11-08 16:49:43 5803

原创 kettle案例23-拆分字段

在工作中经常将数据导出并备份到文件中，这时文件的数据由于没有数据库系统的规范字段格式管理，数据显得很乱，也很不方便管理。为了方便浏览日志内容，需要在某软件系统的操作日志“系统操作日志.xls”文件中，采用拆分字段组件，从日志内容中拆分出用户ID、操作时间、操作内容和IP地址字段，并对应到相关的数据。参数设置：参数名称说明基础参数步骤名称表示拆分字段组件名称，在..

2021-11-08 11:42:11 3945

原创 kettle案例22-剪切字符串

字符串(String)是由数字、字母和下划线等组成，由一对英文双引号或单引号包括起来的用于表示文本的数据类型。剪切字符串，就是在字符串中，去除多余的内容，保留需要的内容，例如，在“Hello,World!”字符串中，只保留“Hello”,而去除其余部分。为了简化数据，需要在“2018年12月月考考试成绩.xls”文件中，采用剪切字符串组件，使“考试时间”字段只保留年月的数据。参数说明：参数名称说明基础参数 .

2021-11-08 11:27:21 2570

原创 kettle案例21-将字段值设置为常量

增加常量是增加字段，并给该字段赋值。与增加常量类似，将字段值设置为常量，是对现有的字段重新赋一个新的固定值。为了统计课程考试的平均分数，需要在“2018年上学期期末语数英考试成绩.xls”文件中，对其中数据为空的“基础课程数”字段，采用字段值设置为常量组件，设置“基础课程数”字段的数据为“3”，表示语文、数学和英语等3门基础课程数。参数名称说明基础参数步骤名称表示将字段值设置为常量组件名称，在.

2021-11-08 11:17:58 2147

原创 kettle案例20-增加常量

常量是指在计算机程序运行过程中其值不能改变的值。常量可以是任何的数据类型，例如，圆周率“3.14159”、中国首都“北京”等都可以是常量。增加常量是指在数据中增加一个字段，并给字段设置一个固定的值。为了方便统计学生考试的平均分数，需要在某年级的“2018年上学期期末考试成绩.xls”文件中，使用增加常量组件，增加“考试课程数”字段，并设置值为“6”. 参数名称说明基础参数步骤名称表示增加常量组件名

2021-11-08 11:08:43 3551 1

原创 kettle案例19-字段选择

数据文件中有些字段全是数字，如电话号码字段会被系统当成浮点型处理，有些字段在某个场景里用不上，也有个别字段使用了不恰当或错误的名称。对于这些问题，都需要对相应的字段进行改变类型、去除字段和改变名称等字段处理。为了统计语文、数学和英语3门基础学科的分数，需要对某年级的“2018年4月月考成绩.xls”文件，使用【字段选择】组件，选择语文、数学和英语字段，并且把创建时间改为考试时间。【选择和修改】选项卡参数参数名称说明字段

2021-11-08 10:59:04 6249

原创《数据清洗》8.3.5 加载用户数据至用户维度表

通过kettle工具加载用户数据至用户维度表dim_customer。1.表输入2.表输入23.新建一个转换：添加映射的字段address_id，该字段为传递的参数（由于转换load_dim_customer）中“表输入2”控件流获取的字段address_id用于查询用户的地址信息，而后续数据仓库维度表数据也需要用户的地址信息，因此这里将字段address_id作为传递的参数“映射输出规范”控件不需要任何配置。4.字段选择由于数据表cus...

2021-11-08 10:03:07 548

原创《面向对话的融入交互信息的实体关系抽取》--中文信息学报

实体关系抽取旨在从文本中抽取出实体之间的语义关系，是自然语言处理的一项基本任务。在新闻报道，维基百科等规范文本上，该任务的研究相对丰富且已取得了一定的效果，但面对对话文本的相关研究的还处于起始阶段。相较于规范文本，对话是一个交互的过程，大量信息隐藏在交互中，这使得面向对话文本的实体关系抽取更具挑战性。依据对话的特点，该文提出了融入对话交互信息的实体关系抽取方法，通过交叉注意力机制获取对话交互信息，提升性能，并结合多任务学习来解决语料库数据分布不均衡的问题。0 引言实体关系抽取旨在从非结构化文本中获取

2021-11-07 12:18:13 618

原创《“语义网--本体知识--知识图谱“和语言研究》袁毓林、曹宏

语义网、本体知识、知识图谱语言学知识可以在网络文本的信息处理中发挥作用，从而展示语言学研究可能的应用领域。一、改善网络信息获取的两种途径（1）更好的信息检索技术，更加便捷的检索系统---更加智能的基于语义的搜索引擎不断改进钓鱼的鱼钩、鱼竿或鱼线，甚至鱼饵（2）让Web本身更加聪明、更加智能为Web上的资源附加上计算机可以理解的内容，便于计算机更好地处理。也就是给出一种计算机能够理解的表示网页等资源的语义内容，如架设语义网（Semantic Web）这种网络基础结构（infra

2021-11-06 14:48:36 611

原创《自然语言处理：基于预训练模型的方法》第三章 PyTorch基础

现代深度学习系统的模型结构变得越来越复杂，若要从头开始则极其耗时耗力，而且非常容易出错。幸好，看似纷繁复杂的深度学习模型，都可以分解为一些同构的简单网络结构，通过将这些简单网络结构连接在一起，就可构成复杂的模型。因此，很多深度学习库应运而生，它们可以帮助用户快速搭建一个深度学习模型，并完成模型的训练（也称学习或优化）、预测和部署等功能。本书使用的是PyTorch开源深度学习库，它由Facebook人工智能研究院（Facebook's AI Research,FAIR）于2017年推出，可以使用Pytho

2021-11-04 17:54:58 801

原创《自然语言处理：基于预训练模型的方法》第三章 LTP工具集

之前介绍的工具集主要用于英文的处理，而以中文为代表的汉藏语系与以英语为代表的印欧语系不同，一个显著的区别在于词语之间不存在明显的分隔符，句子一般是由一串连续的字符构成，因此在处理中文时，需要使用更有针对性的分析工具。语言技术平台（Language Technology Platform,LTP）是哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析（分词、分词标注和命名实体识别）、句法分析（依存句法分析）和语义分

2021-11-04 16:07:23 557

原创《自然语言处理：基于预训练模型的方法》第三章 NLTK工具集

NLTK(Natural Language Toolkit)是一个Python模块，提供了多种语料库（Corpora）和词典（Lexicon）资源，如WordNet等，以及一系列基本的自然语言处理工具，包括：分句，标记解析（Tokenization）、词干提取（Stemming）、词性标注（POS Tagging）和句法分析（Syntactic Parsing）等，是对英文文本数据进行处理的常用工具。为了使用NLTK，需要对其进行安装，可以使用pip包管理工具安装，具体方法为：pip install

2021-11-04 11:51:17 913

Fiddler安装工具无需破解直接解压安装

java服务端开发合集-netty&并发&maven;

非线性RK方法求解微分代数方程

非线性系统控制及解耦

SSM框架+mybatis自动生成代码

Python算法教程_中文版

流畅的python（中文版）

mobi阅读器

空空如也