华师数据学院·王嘉宁-CSDN博客

目前大模型和ChatGPT的发展迅速，NLP算法的技术更新快速，网上涌现出大量关于大模型、NLP、算法等相关博客、公众号文章以及学术论文。资料内每个PDF文件都会有作者和购买者的水印以便追踪版权所有者和使用者，因此，请勿将资料和密码分享给他人，或上传至互联网并公开。博主整理了共计13个大类知识体系，并汇总了一份完整的电子书，另外附赠大模型/NLP算法工程师求职用的算法题和面经，以及一些工具的使用。呈现给各位读者用户，方便全面系统的掌握NLP的基础知识、算法、大模型等内容。

2023-06-29 23:50:29 2461 5

原创详谈大模型训练和推理优化技术

本文介绍大模型的训练和推理优化技术，包括混合精度训练、分布式训练DeepSpeed、INT8模型量化、参数有效性学习、混合专家训练、梯度检查点、梯度累积、Flash Attention等。

2023-05-19 18:03:31 10199 2

原创 HugNLP发布，集成多种NLP任务，可训ChatGPT类模型

HugNLP框架发布，集成大量NLP任务，可训练ChatGPT类模型，开源地址：https://github.com/HugAILab/HugNLP

2023-05-08 10:49:02 613

原创 Prompt-Tuning——深度解读一种新的微调范式

Prompting——深度解读一种全新的微调范式自从GPT、EMLO、BERT的相继提出，以Pre-training + Fine-tuning 的模式在诸多自然语言处理（NLP）任务中被广泛使用，其先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-trained Language Model，PrLM），然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调（Fine-tuning），以获得适应下游任务的模型。这种模式在诸

2021-11-19 17:38:33 59835 72

原创基于深度学习的命名实体识别与关系抽取

基于深度学习的命名实体识别与关系抽取摘要：构建知识图谱包含四个主要的步骤：数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素：命名实体识别（NER）、实体关系抽取（RE）和属性抽取。其中命名实体识别（NER）和实体关系抽取（RE）是自然语言处理（NLP）任务中非常重要的部分。本文将以深度学习的角度，对命名实体识别和关系抽取进行分析，在阅读本文之前，读者...

2020-03-10 09:53:45 63959 58

原创【通览一百个大模型】Baize（UCSD）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-10-24 00:57:47 437

原创论文解读：Large Language Models as Analogical Reasoners

*归纳提示学习（analogical prompting）**旨在模型在解决一个新的问题时，能够自发性地寻找相似的已有的知识。对于像code-generation等复杂的任务，low-level exemplar generation不一定能过让模型很好地解决此类问题，因此本文提出一种high-level generation方法。上图中展示出，当模型规模越大时，解题的准确性也越高，同时我们提出的self-generation方法与baseline的提升幅度也越大。发现本文提出的方达到了SOTA。

2023-10-24 00:46:49 529

原创论文解读：Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

生成的内容与输入存在冲突：Input-conflicting hallucination, where LLMs generate content that deviates from the source input provided by users;

2023-09-19 11:40:08 1275

原创论文解读：Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentati

开放域问答中，给定一个问题qqq以及一个文档库Ddii1mDdii1m，目标是给定一个回答aaa。先前的方法是通过一个retriever检索文档库，并获得与问题相关的文档，随后使用机器阅读理解的方式回答问题。afLLMpqafLLMpq，其中ppp表示prompt。如果使用检索增强的方式，则为afLLMpqLafLLMpqL，其中LL表示检索得到的support document。

2023-07-29 23:18:20 548 2

原创论文解读：Contrastive Learning Reduces Hallucination in Conversations

给定一个问题或上下文xxx，一个对应检索的知识KK，目标是根据上下文和知识来生成回复yyy。KB模式：根据对话上下文检索知识库，获得检索到的文档后结合上下文生成回复；LM模式：现如今的语言模型范式，即让语言模型先在知识库上预训练，然后再直接回答；本文则关注LM模式（1）Pre-training：采用BART作为语言模型：（2）SFT（Fine-tuning）：采用MLE目标在对话数据集上进行自回归式训练：然而MLE损失鼓励模型盲目模仿训练数据并导致模型幻觉。

2023-07-29 23:16:42 510

原创论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

简单来说，就是当模型在decoding阶段时，当预测第t个位置的token时，对t-1以及之前的某些token替换为mask，相当于模型在含有mask的prefix text来进行预测。预训练预料为Wikipedia，且饱含aligned的实体。在decoding阶段，如果在预测实体时，预测当前的token时，不再是输入真实的预测token，而是mask。当解码器预测实体标记时，噪声被注入，并且先前生成的部分实体标记对于后者是看不到的。，这可以激励模型更好地学习仅依赖于上下文来预测实体。

2023-07-29 23:14:22 164

原创中文大模型评估数据集——C-Eval

作者强调了在这种具有挑战性的环境中评估LLM的重要性，因为目前的LLM发展已经超越了创建一个休闲的聊天机器人–它涉及到能够与各种数据类型互动、接收反馈、推理和使用工具、甚至执行行动的复杂系统或代理的发展（Mialon等人，2023）。（Muennighoff等人，2022）是通过将多任务提示微调与预训练的多语言BLOOM模型（Scao等人，2022）相结合而创建的，不仅使用英语提示，还使用机器翻译的提示来匹配多语言任务的语言，并且被认为能够进行任务和语言无关的泛化。是对原LLaMA在中文环境中的改编。

2023-07-29 23:11:43 1235

原创论文解读：Factuality Enhanced Language Models for Open-Ended Text Generation

而往往为了降低GPU显存，通常采用chunk机制，导致很多文档被分割化，这些被分割后的文档可能只有一些代词，这会导致信息“碎片化”，并导致出现在具有相似上下文的独立文档中的实体的错误关联。模型的生成是逐个字符生成的，因此如果模型在没有任何prefix的前提下生成文本时，生成的最开始阶段的一些词是不会存在幻觉的，而随着不断地生成过程中，后面生成的词会促使整个文本产生幻觉。目前一个很大的挑战是如何评估模型的事实性，尤其是开放文本生成领域内，其需要涉及到定位真实知识在无数个世界知识内的位置。

2023-07-29 23:09:10 1613

原创大模型幻觉评估方法——忠实性（Faithfulness）与事实性（Factuality）

在本篇文章中，我们首先通过一篇早期工作讨论了忠实度和真实度的含义是什么。然后，我们综述了评估文本摘要忠实度/真实度/一致性的各种方法。可以看到不管是对于不同任务还是不同评价维度，较为普遍的趋势是趋向于大而统一：更大的元评估实验设定、更多的预训练、更大的模型、更统一的视角，等等等等。当下，GPT-4的出色表现引起热议，但是似乎构建更可控、可解释、鲁棒的文本生成指标仍然是一个开放问题，还有很长的路要走。下篇文章中，我们会探讨一下提升近期文本摘要的忠实性的相关工作。

2023-07-20 11:34:07 1964 2

原创 HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

尽管现在大模型拥有前所未有的能力，其依然会生成出一些幻觉文本，即生成出存在冲突或无法通过已有知识来验证的内容。本文探索：what types of content and to which extent LLMs tend to hallucinate？本文提出HalEval Benchmark，包括35000个幻觉/正常的样本，用于分析和评估大模型。其包含5000个通用的用户对话查询问题以及30000个任务相关的问题（包括QA、知识对话和文本摘要）。

2023-07-20 11:22:48 594

原创深度探讨大模型位置编码及其外推性

现如今很多大模型都开始支持超过4096长度的推理，例如GPT-4支持超过30k，ChatGLM2-6B也支持最长为32K的文本，但是由于显存资源的限制，这些大模型在真正在训练过程中不一定要训练这么长的文本，通常在预训练时只会设计到4k左右，因此**如何确保在模型推理阶段可以支持远远超过预训练时的长度**，是目前大模型的核心问题之一，我们将这一问题归为**大模型的外推性**。

2023-07-16 18:38:12 1931 2

原创【通览一百个大模型】GLM（THU）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-07-15 21:29:16 1286 2

原创【通览一百个大模型】MASS（Microsoft）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-07-15 21:13:35 457

原创【通览一百个大模型】XLNet（Google）

从宏观来看，XLNet 实现了站在巨人 BERT 肩膀上的新的突破，将 AR 模型和双向训练有机地结合在一起。从微观来看，XLNet 引入的几个改进方法各有所长：Permutation LM 使得语言模型在训练时可以充分利用上下文的信息；Two-stream encoding 很好地区分了预测目标和非预测目标的 attention 的计算使结果更训练更加合理；

2023-07-15 20:44:18 362 1

原创基于ChatGLM的微调实现

下面描述具体的实现过程。

2023-07-15 20:06:54 1860

原创【通览一百个大模型】CodeX（OpenAI）

主要介绍CodeX大模型

2023-07-09 14:29:45 1852

原创【通览一百个大模型】Pythia（EleutherAI）

Pythia，一个由70M到12B个参数的解码器自回归语言模型套件，旨在专门促进科学研究。模型覆盖了多个数量级的模型规模。所有模型都按照相同的顺序在相同的数据上进行训练。数据和中间检查点可供公开研究使用。作者在Pile和去重后的Pile上训练了8个模型规模，提供了两套可以进行比较的套件副本。作者利用Pythia的这些关键特性，首次研究了精确的训练数据处理和模型规模对性别偏见、记忆能力和少样本学习等属性的影响。减轻性别偏见（Mitigating Gender Bias ）

2023-07-09 13:44:20 621

原创【通览一百个大模型】Anthropic LLM（Anthropic）

主要介绍Anthropic LLM大模型

2023-07-08 15:25:11 711

原创【通览一百个大模型】UL2（Google）

Prompt 主要适用于三个场景：低资源、低算力、统一场景。也曾在知乎上发表过想法：Prompt 在某种程度上可以进行模型的专家化(expertization)或者模块化(modularization)，需要和进行沟通。这篇文章使用 paradigm prompt 进行 denoiser 的 mode switching，有进一步的启发意义。脱离 denoiser 的 mixture，可能会有更加宏大的 picture.

2023-07-08 15:17:09 619

原创【通览一百个大模型】FLAN（Google）

主要介绍FLAN大模型

2023-07-08 15:07:09 770

原创【通览一百个大模型】LaMDA（Google）

LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的对话机器人，全称Language Models for Dialog Applications，是一个在海量对话跟web数据上进行预训练再在人工标注数据上做进一步微调后得到的参数量高达137B的大模型。LaMDA除了在生成文本质量有所提升外，通过在人工标注数据上做进一步finetune以及让模型学会检索利用外部知识源的能力，使得模型在安全性以及事实性这两个关键问题上获得明显提升。

2023-07-08 14:50:15 979

原创 RLHF中的PPO算法原理及其实现

ChatGPT是基于InstructGPT实现的多轮对话生成式大模型。博主在之前的文章中已经介绍过关于）以及关于。那么除了如何训练一个基本的生成式模型外，大模型还需要关注于。在之前的文章中已经介绍了ChatGPT以及最近开源的一些类ChatGPT模型是如何实现对齐的，这里我们也详细介绍一下InstructGPT中进行人类对齐的核心算法——RLHF（人类对齐的强化学习）PPO算法。

2023-05-22 20:57:23 3496 1

原创【Chain-of-Thought 专题】The Unreliability of Explanations in Few-Shot In-Context Learning

实验中选择GPT-3作为测试，所有in-context example的input-output和explanation按照E-P或P-E进行拼接，在最大长度限制内尽可能拼接所有的example。如上图，相比一致性（解释与预测标签是否一致），GPT-3生成的解释信息更有可能是nonfactual（生成解释与文本中的事实不符）。因此，我们可以定义一个score，来量化factuality，并通过这个score，来调整预测label的概率分布。，那么GPT-3生成的解释信息是否靠谱呢？

2023-04-26 12:05:26 349

原创 InstructGPT原理讲解及ChatGPT类开源项目

本文分析InstructGPT以及相关开源项目

2023-04-26 11:32:49 2622

原创基于DeepSpeed训练ChatGPT

教你如何使用DeepSpeed自行训练一个ChatGPT

2023-04-18 18:34:27 10955 3

原创【In-Context Learning】Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

In-Context Learning（ICL）是最近比较火热的方向，其主要针对超大规模模型（例如1750B参数量的GPT-3模型），在只提供少量标注样本作为提示的前提下，即可以实现很惊艳的效果。本文主要探索In-Context Learning的影响因素有哪些。

2023-03-28 16:56:21 1965 3

原创【In-Context Learning】What Makes Good In-Context Examples for GPT-3?

In-Context Learning是最近比较火热的方向，其主要针对超大规模模型（例如1750B参数量的GPT-3模型），在只提供少量标注样本作为提示的前提下，即可以实现很惊艳的效果。In-Context Learning的影响因素有很多，本文主要关注在样本的挑选上。

2023-03-28 15:40:53 1706 5

原创【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

本文提出Self-consistency进一步提升Chain-of-Thought的效果

2023-03-28 14:17:39 1620

原创【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chain of Thought（CoT）—— a series of intermediate reasoning steps—significantly improves the ability of large language models to perform complex reasoning.

2023-03-15 20:36:59 609 1

原创【算法题——字符串&数组专栏】回文串系列

回文串系列编程算法题，实时更新。

2023-03-15 17:43:42 435

原创【In-Context Learning】Meta-learning via Language Model In-context Tuning

In-Context Learning是最近比较火热的方向，其主要针对超大规模模型，在只提供少量标注样本作为提示的前提下，即可以实现很惊艳的效果。

2022-11-28 17:37:02 2375 1

原创论文解读：PromptBERT: Improving BERT Sentence Embeddings with Prompts

介绍promptbert用于解决预训练语言模型对句子表征存在的各项异性问题。

2022-06-29 20:36:55 2411

原创论文解读：Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Proje

小样本实体识别（Few-shot NER）旨在给定目标domain非常少的标注数据（例如符合 N-way K-shot 规则的support set）的前提下，能够识别出文本中指定类型的所有实体。而通常实体识别是视为一种序列标注（sequence labeling）任务。目前与实体识别相似的任务还有槽位填充（Slot Tagging）。本文介绍ACL2020的一篇工作试图解决基于Few-shot的序列标注问题。...

2022-06-29 19:52:06 1169

原创论文解读：Example-Based Named Entity Recognition

Example-based NER指给定support set少量的样本，对应的所有entity type只有很少的实体。给定一个query时，模型会分别根据support set中的entity type寻找query对应的实体。

2022-06-28 16:34:43 827

Movie Review.rar

免费提供NLP情感分析数据集Movie Review。Pytorch实现版本代码可详情：https://blog.csdn.net/qq_36426650/article/details/105172198

2020-04-25

NYT（New York Times）Dataset for Distant Supervision Relation Extraction

我们提供NYT数据集，该数据集一共包含233081实体对，由FreeBase对齐，关系数量为57（如果使用53关系的可自行过滤多余的关系及句子）。

2020-03-20

SemEval2010_task8_all_data.rar

关系抽取数据集，公开数据集，主要为监督学习方法。一共包含8000个训练句子、2717个测试句子，目前在测试集上最好结果f1值为89.5.

2019-11-24

数据结构图谱构建与关系抽取数据集.rar

本数据集主要提供对数据结构学科知识图谱的构建，主要包含500+数据结构方面的知识实体，9种关系，176000+示例，16000+实体对，已标注好3676个实体对关系。通过模型学习已标注的实体对来对未知实体对进行关系抽取，实现最终的图谱构建。对应博客：https://blog.csdn.net/qq_36426650/article/details/87719204

2019-11-11