Mars_prime-CSDN博客

原创 Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning

所有通过我们的增强训练的模型都经过微调，以允许更快的收敛，并看看我们是否可以减少模型的“学习”偏差。此外，通过使用完美标签（图。B-4：Bleu-4，M：Meteor，C：苹果酒，S：Spice，S：Spice-U，CHs：CHAIRs，CHi：CHAIRi，UD：UpDown，AoA：注意上的注意， Uni：均匀采样，Inv：逆多项式采样，Occ：共现更新。更具体地说，我们通过提供对象标签作为附加输入来调整任何现有的字幕模型，并采用简单而有效的采样策略，其中包括人为地更改字幕中的对象，例如将句子“一个。

2024-04-16 14:33:00 648

原创 SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION----自我反思：学会通过自我反思来检索

尽管大型语言模型（LLM）具有非凡的能力，但由于它们完全依赖于它们封装的参数知识，因此通常会产生包含事实不准确的响应。检索增强生成（RAG）是一种通过检索相关知识来增强语言模型的临时方法，可以减少此类问题。然而，不加区别地检索和合并固定数量的检索到的段落，无论检索是否必要，或者段落是否相关，都会降低 LM 的多功能性或可能导致生成无用的响应。我们引入了一个名为自反射检索增强生成（SELF-RAG）的新框架，它通过检索和自反射来提高 LM 的质量和事实性。

2024-03-28 11:59:35 1010

原创 Contrastive Decoding: Open-ended Text Generation as Optimization----对比解码：开放式文本生成作为优化

给定语言模型（LM），对于开放式生成来说，最大概率是一个很差的解码目标，因为它会产生简短且重复的文本。另一方面，采样通常会产生偏离原始主题的不连贯的文本。我们提出了对比解码（CD），这是一种可靠的解码方法，可以在合理性约束下优化对比目标。对比目标返回大型 LM（称为专家，例如 OPT-13B）和小型 LM（称为业余爱好者，例如 OPT-125M）下的可能性之间的差异，并且约束确保输出是合理的。

2024-03-26 22:43:26 863

原创 Trusting Your Evidence: Hallucinate Less with Context-aware Decoding----相信你的证据：通过上下文感知解码减少幻觉

语言模型 (LM) 通常很难对输入上下文给予足够的关注，并生成不忠实或包含幻觉的文本。为了缓解这个问题，我们提出了上下文感知解码（CAD），它遵循对比输出分布，放大了在有上下文和没有上下文的情况下使用模型时输出概率之间的差异。我们的实验表明，在没有额外训练的情况下，CAD 可以显着提高不同 LM 系列的忠实度，包括用于摘要任务的 OPT、GPT、LLaMA 和 FLAN-T5（例如，LLaMA 在事实性指标中提高了 14.3%）。

2024-03-26 20:07:21 768

原创 DOLA: DECODING BY CONTRASTING LAYERS IMPROVES FACTUALITY IN LARGE LANGUAGE MODELS----DOLA：通过对比层进行解

尽管大型语言模型（LLM）的能力令人印象深刻，但它很容易产生幻觉，即生成与预训练期间看到的事实不同的内容。我们提出了一种简单的解码策略，通过预训练的 LLM 来减少幻觉，不需要对检索到的外部知识进行调节，也不需要额外的微调。我们的方法通过对比将后面的层与前面的层投影到词汇空间所获得的逻辑差异，利用 LLM 中的事实知识通常被证明局限于特定的转换器层这一事实，来获得下一个标记分布。我们发现这种通过对比层解码（DoLa）方法能够更好地呈现事实知识并减少错误事实的产生。

2024-03-25 20:31:00 592

原创 Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance----通过

大视觉语言模型（LVLM）的进步日益凸显了它们容易产生图像中不存在物体的幻觉这一关键问题。为了解决这个问题，以前的工作重点是使用专门策划的数据集或强大的 LLM（例如 GPT-3.5）来纠正 LVLM 的输出。然而，这些方法需要昂贵的培训/微调或 API 访问高级 LLM 来纠正模型的输出生成后。在本文中，我们通过引入一个名为“Mitigating幻觉通过无分类指导（MARINE）”的框架来应对这一挑战，该框架既无需训练，也无需API，可以有效且高效地减少生成过程中的物体幻觉。

2024-03-25 15:16:41 1125

原创 CRG Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training---

突出显示图像中特别相关的区域可以通过引导模型更密切地关注这些感兴趣的区域来提高视觉语言模型（VLM）在各种视觉语言（VL）任务中的性能。例如，VLM 可以得到“视觉提示”，其中边界框等视觉标记描绘出关键图像区域；这种方法之所以流行，是因为它改进了需要区域级信息的任务。然而，当前可以结合视觉引导的 VLM 要么是专有的且昂贵的，要么需要对包含视觉提示的精选数据进行昂贵的培训。我们引入对比区域引导（CRG），这是一种无需培训的引导方法，使开源 VLM 能够响应视觉提示。

2024-03-22 21:58:39 990

原创 Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-E

大型语言模型在预训练过程中内化了大量的参数知识。同时，现实的应用程序需要外部上下文知识来帮助底层任务的模型。这引发了一个被称为知识冲突的关键困境，即上下文知识与参数知识发生冲突。然而，现有的解码工作专门用于解决知识冲突，并且在没有冲突的情况下可能会无意中降低性能。在本文中，我们提出了一种自适应解码方法，称为上下文信息熵约束解码（COIECD），以识别知识冲突是否发生并解决它们。它可以提高模型对冲突上下文的忠实度，同时在非冲突上下文中保持高性能。

2024-03-19 19:13:08 591

原创 An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-La

在这项研究中，我们发现了大视觉语言模型 (LVLM) 中的低效注意力现象，特别是在 LLaVA-1.5、QwenVL-Chat 和 Video-LLaVA 等著名模型中。我们发现，在流行的 LVLM 的深层中，视觉标记的注意力计算效率极低，这表明与文本数据处理相比，需要一种更稀疏的方法。为此，我们引入了 FastV，这是一种多功能的即插即用方法，旨在通过在早期层中学习自适应注意力模式并在后续层中修剪视觉标记来优化计算效率。

2024-03-18 21:52:25 794

原创 Visual Commonsense in Pretrained Unimodal and Multimodal Models----预训练单峰和多峰模型中的视觉常识

22年五月四号摘要我们关于物体的常识性知识包括其典型的视觉属性；我们知道香蕉通常是黄色或绿色的，而不是紫色的。文本和图像语料库受到报道偏见的影响，以不同程度的忠实度代表了这种世界知识。在本文中，我们研究了单模态（仅语言）和多模态（图像和语言）模型在多大程度上捕获了广泛的视觉显着属性。为此，我们为超过 5000 名受试者创建了涵盖 5 种属性类型（颜色、形状、材质、大小和视觉共现）的视觉常识测试 (ViComTe) 数据集。

2024-03-16 21:33:18 636

原创 Adaptive Chameleon or Stubborn Sloth: REVEALING THE BEHAVIOR OF LARGE LANGUAGE MODELS IN KNOWLEDGE C

通过向大型语言模型 (LLM) 提供外部信息，工具增强（包括检索增强）已成为解决 LLM 静态参数内存限制的有前途的解决方案。然而，LLM对此类外部证据的接受程度如何，尤其是当证据与他们的参数记忆相冲突时？我们对LLM在遇到知识冲突时的行为进行了首次全面的、受控的调查。我们提出了一个系统框架，从LLM中引出高质量的参数记忆，并构建相应的反记忆，这使我们能够进行一系列受控实验。我们的调查揭示了LLM看似矛盾的行为。

2024-03-05 15:39:06 806

原创 Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language

大视觉语言模型 (LVLM) 表现出非凡的能力，但与“幻觉”（图像与其描述之间的不一致）作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉，但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中，我们介绍了幻觉的精确分类法，其中包括一个新类别：事件幻觉。然后，我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据，特别关注事件幻觉，为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。

2024-03-04 16:23:04 903

原创 Flamingo: a Visual Language Model for Few-Shot Learning----Flamingo：用于少样本学习的视觉语言模型

文本生成由 Transformer 解码器执行，以感知器重采样器生成的视觉表示为条件。我们将预训练和冻结的纯文本 LM 块与从头开始训练的块交错，这些块交叉参与感知器重采样器的视觉输出。在冻结的预训练 LM 中交错新的 GATED XATTN-DENSE 层。我们冻结预训练的 LM 块，并在原始层之间插入门控交叉注意力密集块（图 4），从头开始训练。为了确保在初始化时，条件模型产生与原始语言模型相同的结果，我们使用 tanh 门控机制 [41]。

2024-03-04 14:48:18 791

原创 Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic----Shikra：释放多模式法学硕士的参考对话魔力

在人类对话中，个人在向他人讲话时可以指出场景中的相关区域。反过来，如果有必要，对方也可以通过提及特定区域来做出回应。在当前的多模态大语言模型（MLLM）中，对话中的这种自然参考能力仍然不存在。为了填补这一空白，本文提出了一种名为 Shikra 的 MLLM，它可以处理自然语言的空间坐标输入和输出。其架构由视觉编码器、对齐层和 LLM 组成。它的设计简单明了，不需要额外的词汇、位置编码器、前/后检测模块或外部插件模型。所有输入和输出都是自然语言形式。参考对话是各种视觉语言（VL）任务的超集。

2024-01-18 13:52:31 999

原创 MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE MINIGPT-4：利用先进的大型语言模型增强视觉语言理解

最近的 GPT-4 展示了非凡的多模式能力，例如直接从手写文本生成网站以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。然而，GPT-4 背后的技术细节仍未公开。我们相信 GPT-4 增强的多模态生成能力源于复杂的大语言模型 (LLM) 的利用。为了研究这一现象，我们提出了 MiniGPT-4，它使用一个投影层将冻结的视觉编码器与冻结的高级 LLM、Vicuna 对齐。

2024-01-16 20:50:44 977 1

原创 Visual Instruction Tuning----视觉指令调整

使用机器生成的指令跟踪数据进行指令调优大型语言模型 (LLM) 已被证明可以提高新任务的零样本能力，但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对此类生成数据进行指令调整，我们推出了 LLaVA：大型语言和视觉助手，这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来视觉指令跟随的研究，我们构建了两个具有多样化且具有挑战性的面向应用的任务的评估基准。

2024-01-15 18:29:44 1013

原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越高。本文提出了 BLIP-2，这是一种通用且高效的预训练策略，可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练。BLIP-2 通过轻量级查询转换器弥补了模态差距，该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段从冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数比现有方法少得多，但 BLIP-2 在各种视觉语言任务上实现了最先进的性能。

2024-01-14 18:02:54 911

原创细粒度语义对齐

大规模的视觉语言预训练在广泛的下游任务中显示出令人印象深刻的进展。现有方法主要通过图像和文本的全局表示的相似性或对图像和文本特征的高级跨模态关注来模拟跨模态对齐。然而，他们未能明确学习视觉区域和文本短语之间的细粒度语义对齐，因为只有全局图像-文本对齐信息可用。在本文中，我们介绍放大镜，一个细粒度语义的Ligned visiOn-langUage PrE 训练框架，从博弈论交互的新视角学习细粒度语义对齐。为了有效地计算博弈论交互作用，我们进一步提出了一种不确定性感知神经Shapley交互学习模块。实验表明，L

2023-12-23 16:34:38 1149

原创细粒度语义对齐的视觉语言预训练

大规模的视觉语言预训练在广泛的下游任务中显示出令人印象深刻的进展。现有方法主要通过图像和文本的全局表示的相似性或对图像和文本特征的高级跨模态关注来模拟跨模态对齐。然而，他们未能明确学习视觉区域和文本短语之间的细粒度语义对齐，因为只有全局图像-文本对齐信息可用。在本文中，我们介绍放大镜，一个细粒度语义的Ligned visiOn-langUage PrE 训练框架，从博弈论交互的新视角学习细粒度语义对齐。为了有效地计算博弈论交互作用，我们进一步提出了一种不确定性感知神经Shapley交互学习模块。实验表明，L

2023-12-23 16:31:35 966

原创 Generalization and Hallucination of Large Vision-Language Models through a Camouflaged Lens

大视觉语言模型（LVLM）最近得到了蓬勃发展并日益受到关注。在本文中，我们提出了一种新颖的框架，即迷彩感知视觉语言框架（CPVLF），以探索 LVLM 是否可以以免训练的方式泛化到具有挑战性的伪装物体检测（COD）场景。在泛化过程中，我们发现由于LVLM内部的幻觉问题，它会错误地感知伪装场景中的物体，产生反事实的概念。此外，由于 LVLM 没有经过专门训练来精确定位伪装物体，因此它在准确定位这些物体时表现出一定程度的不确定性。因此，我们提出视觉感知链，从语言和视觉角度增强LVLM对伪装场景的感知，减少幻觉问

2023-12-22 14:44:41 916

原创认识“DRESS”：通过自然语言反馈与人类协调和互动的大视觉语言模型 (LVLM)

来自 SRI International 和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了 DRESS，这是一种 LVLM，在这项工作中使用法学硕士产生的自然语言反馈 (NLF) 进行独特的教学（参见图 1）。这是一个新颖的分类。此外，虽然之前的研究鼓励以多轮形式组织视觉指令调整样本，但 LVLM 的交互能力受到不同轮之间的弱连接和相互依赖的限制。实验结果表明，与早期的 LVLM 相比，DRESS 可以提供符合人类价值观的回复，并具有卓越的交互能力，使其能够从反馈中学习并根据需要有效地修改响应。

2023-12-22 14:32:12 753

原创 Lyrics: Boosting Fine-grained Language-Vision Alignment via Semantic-aware Visual Objects

大视觉语言模型 (LVLM) 在各种视觉语言对话场景中展示了令人印象深刻的零样本能力。然而，细粒度视觉对象检测的缺乏阻碍了模型理解图像的细节，导致不可挽回的视觉幻觉和事实错误。在本文中，我们提出了 Lyrics，这是一种新颖的多模式预训练和指令微调范例，可以通过细粒度的跨模式协作引导视觉语言对齐。Lyrics 在 BLIP-2 的基础上构建，将从视觉细化器中提取的局部视觉特征（包括图像标记、对象检测和语义分割模块）注入到查询转换器中，而在文本方面，语言输入配备了边界框和标签源自视觉细化器。

2023-12-21 20:19:01 1229

原创 ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF----将大型多模态模型与事实增强的 RLHF 结合起来

大型语言模型（LLM；Brown 等人（2020）；Chowdhery 等（2022）；OpenAI（2023））可以通过图像-文本对的进一步预训练来深入研究多模态领域（Alayrac 等人；Awadalla 等人，2023）或通过专门的视觉指令调整数据集对其进行微调（Liu 等人，2023a；Zhu 等人，2023），导致强大的大型多模态模型（LMM）的出现。然而，开发 LMM 面临挑战，特别是多模式数据与纯文本数据集的数量和质量之间的差距。

2023-12-21 15:31:06 1097

原创 Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

近年来，多模态大语言模型取得了显着的进步，但它们仍然面临着一个被称为“幻觉问题”的常见问题，即模型生成的文本描述包含图像中不准确或不存在的内容。为了解决这个问题，本文引入了一种新颖的策略：幻觉感知直接偏好优化（HA-DPO）。我们的方法将幻觉问题视为一个独特的偏好选择问题，其中模型经过训练，在出现同一图像的两个响应（一个是准确的，一个是幻觉的）时支持非幻觉响应。本文还提出了一种构建幻觉样本对的有效流程，以确保高质量、风格一致的样本对，从而实现稳定的 HA-DPO 训练。

2023-12-20 21:03:26 835

原创 VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

视觉编码器和大语言模型（LLM）的集成推动了多模态大语言模型（MLLM）的最新进展。然而，视觉语言任务的高质量指令调整数据的稀缺仍然是一个挑战。当前领先的范例，例如 LLaVA，依赖于仅语言的 GPT-4 来生成数据，这需要预先注释的图像标题和检测边界框，这在理解图像细节方面遇到了困难。该问题的一个实用解决方案是利用可用的多模态大语言模型（MLLM）来生成视觉语言任务的指令数据。然而，值得注意的是，目前可用的 MLLM 不如相应的 LLM 强大，因为它们往往会产生不充分的响应并生成虚假信息。

2023-12-20 14:51:54 978

原创 HALLUSIONBENCH: An Advanced Diagnostic Suite for Entangled Language Hallucination & Visual Illusion

我们推出“HALLUSIONBENCH1”，这是一个专为评估图像上下文推理而设计的综合基准。该基准测试强调对视觉数据的细致入微的理解和解释，对高级大型视觉语言模型 (LVLM)（例如 GPT-4V(ision) 和 LLaVA-1.5）提出了重大挑战。该基准包括 346 张图像和 1129 个问题，全部由人类专家精心制作。我们为这些视觉问题引入了一种新颖的结构，旨在建立对照组。这种结构使我们能够对模型的响应倾向、逻辑一致性以及各种故障模式进行定量分析。

2023-12-19 19:06:31 901

原创 Learn to Explain: Multimodal Reasoning viaThought Chains for Science Question Answering科学问答的思维链

在 ScienceQA 的问题中，10,332 个 (48.7%) 有图像上下文，10,220 个 (48.2%) 有文本上下文，6,532 人 (30.8%) 两者都有。讲座和解释提供分别得出正确答案的一般外部知识和具体原因。ScienceQA 展示了以下功能的实用性语言模型中的 CoT，因为 CoT 在少样本 GPT-3 中将问答性能提高了 1.20% 微调的 UnifiedQA 中为 3.99%。我们通过思想链 (CoT) 构建一个小样本 GPT-3 模型，提示生成随后的答案通过讲座和解释。

2023-12-19 14:36:53 401

原创 Compositional Chain-of-Thought Prompting for Large Multimodal Models大型多模态模型的组合思想链提示

强大的视觉主干和大型语言模型 (LLM) 推理的结合使大型多模态模型 (LMM) 成为各种视觉和语言 (VL) 任务的当前标准。然而，最近的研究表明，即使是最先进的 LMM 仍然难以捕获组合视觉推理的各个方面，例如对象之间的属性和关系。一种解决方案是利用场景图（SG）——对象及其关系和属性的形式化，已被广泛用作视觉和文本领域之间的桥梁。然而，场景图数据需要场景图注释，收集这些注释的成本很高，因此不易扩展。此外，基于 SG 数据微调 LMM 可能会导致灾难性地忘记预训练目标。

2023-12-18 21:06:28 960

原创 Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理，在复杂推理方面表现出了令人印象深刻的性能。然而，现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT，它将语言（文本）和视觉（图像）模态合并到一个两阶段框架中，将基本原理生成和答案推理分开。通过这种方式，答案推理可以更好地利用基于多模态信息生成的基本原理。

2023-12-18 20:59:56 1646

原创 Fine-Grained Semantically Aligned Vision-Language Pre-Training细粒度语义对齐的视觉语言预训练

接下来，我们将 softmax-normalization 应用于一个获得一个~.对于我-th 区域，我们将其最大对齐分数计算为麦克斯�⁡一个~我�.然后，我们使用所有区域的平均最大对齐分数作为细粒度图像与文本的相似度�1.同样，我们可以获得细粒度的文本与图像的相似度�2，并且可以定义总的细粒度相似度分数：�=(�1+�2)/2.直观地讲，假设一组补丁标记对应图像中的视觉实例，那么它们往往具有很强的交互性，形成对应实例的完整语义，这有助于更好地判断与配对文本的相似度。，我们设计了一个轻量级的区域生成模块。

2023-12-13 19:38:33 1207

原创 Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval暴露和减轻跨模态检索的虚假相关性

模式检索方法是在数据库中搜索与查询图像最匹配的文本的首选工具，反之亦然。然而，图像文本检索模型通常学习记住训练数据中的虚假相关性，例如频繁的对象共现，而不是查看图像中预测的实际根本原因。对于图像文本检索，这体现在提及查询图像中不存在的对象的检索句子中。在这项工作中，我们引入了 ODmAP@k，一种对象去相关度量，用于衡量模型对训练数据中的虚假相关性的鲁棒性。我们使用自动图像和文本操作来控制指定测试数据中此类对象相关性的存在。

2023-12-13 15:11:40 974

原创 Aligning Large Multi-Modal Model with Robust Instruction Tuning将大型多模态模型与稳健的指令调整相结合

尽管多模态任务取得了有希望的进展，但当前的大型多模态模型（LMM）很容易产生与相关图像和人类指令不一致的描述的幻觉。本文通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题，该数据集名为大规模鲁棒视觉（LRV）指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成，涵盖 16 个具有开放式指令和答案的视觉和语言任务。与主要关注正面指令样本的现有研究不同，我们设计的包含正面和负面指令，以实现更稳健的视觉指令调整。我们的否定指令是在两个语义级别设计的：（i）不存在的元素操作和。

2023-12-12 14:20:51 1051

原创 Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning

用缺失或不存在的对象来解释图像被称为图像字幕中的对象偏差（幻觉）。这种行为在最先进的字幕模型中非常常见，这是人类所不希望的。为了减少字幕中的物体幻觉，我们提出了三种简单而有效的句子训练增强方法，不需要新的训练数据或增加模型大小。通过广泛的分析，我们表明所提出的方法可以显着减少我们的模型对幻觉指标的对象偏差。此外，我们通过实验证明我们的方法减少了对视觉特征的依赖。我们所有的代码、配置文件和模型权重均可在线获取1。1介绍在他的开创性著作中 [24]，库恩表示，异常现象的发现通常会带来新的范式。

2023-12-12 14:20:28 858

原创 MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language ModelsMME：多模态大语言模型综合评估基准

在本节中，我们对 MME 基准进行了大量实验，以评估总共 12 个开源 MLLM，包括 BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、LLaMA-Adapter-v2、Otter、Multimodal-GPT、 InstructBLIP、VisualGLM-6B、PandaGPT、ImageBind-LLM 和 LaVIN。细粒度的识别更多的是测试MLLM的知识资源。为了推断出正确的答案，MLLM需要遵循指令，感知图像的内容，并调用LLM中保留的知识，这比单一的感知任务更具挑战性。

2023-12-11 15:18:50 1422

原创 Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉

在第 3 节的实证结果中，我们揭示了 LVLM 中物体幻觉问题的严重性，并强调了现有评估方法的局限性，例如对指令敏感和偏向短字幕。此外，现有的方法大多依赖于解析生成的标题来提取预测的对象，这通常需要人为设计的复杂规则，并且仍然不可避免地遗漏或错误分类对象。因此，我们考虑设计一种更适合LVLM稳定、公平和灵活的物体幻觉评估的方法，即基于轮询的物体探测评估（POPE）。具体来说，POPE 将对象幻觉的评估制定为二元分类任务，提示 LVLM 输出“是”或“否”，例如“图像中有一把椅子吗？

2023-12-11 13:05:29 1435

原创 Aligning Large Multi-Modal Model with Robust Instruction Tuning

尽管多模态任务取得了有希望的进展，但当前的大型多模态模型（LMM）很容易产生与相关图像和人类指令不一致的描述的幻觉。LRV-指令。我们通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题，该数据集名为大规模鲁棒视觉（LRV）指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成，涵盖16 个具有开放式指令和答案的视觉和语言任务。我们还设计了 LRV-Instruction，以包含正向和负向指令，以实现更强大的视觉指令调整。我们的否定指令是在两个语义级别设计的：（i）不存在的元素操作。

2023-12-08 15:46:26 935

Machine Unlearning: A Survey HENG XU, TIANQING ZHU*, 论文解读

编译原理语法分析器实验报告

Microsoft.Office.Interop.Word(mar).zip

glut-3.7.6-bin.zip

openEuler操作系统实验手册-华为云版v1.5.2a (1).docx

空空如也