规模难以克服语用学：报告偏差对视觉语言推理的影响

基本信息

ArXiv ID: 2602.23351v1
分类: cs.CL
作者: Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang
PDF: https://arxiv.org/pdf/2602.23351v1.pdf
链接: http://arxiv.org/abs/2602.23351v1

导语

尽管大规模视觉语言模型在参数与数据量上持续扩张，其在视觉推理任务中仍面临显著瓶颈。本研究指出，训练数据中普遍存在的“报道偏差”——即人类倾向于省略显而易见的信息——是阻碍模型掌握语用学常识的关键因素。作者通过实证分析表明，单纯依靠模型规模的扩大难以从根本上克服这一由数据偏差导致的推理缺陷。虽然摘要未明确具体的修正策略，但该发现为未来构建更具语用意识的视觉语言模型提供了重要的诊断视角。

摘要

标题：规模无法克服语用学：报告偏见对视觉语言推理的影响

核心论点 尽管当前的视觉语言模型（VLM）拥有庞大的数据规模和模型参数，但其推理能力依然不足。本研究指出，这一缺陷主要源于训练数据中存在的**“报告偏见”**。简单来说，人类在描述视觉内容时，往往会默认省略那些显而易见或心照不宣的隐性信息（例如人们更倾向说“今天的比赛”，而不是“一张有37个人站在球场后面的照片”）。这种语言习惯导致训练数据中缺失了监督某些特定推理类型所需的关键信息。

主要发现

推理技能的缺失：研究团队通过语用学理论分析了 OpenCLIP、LLaVA-1.5 和 Molmo 等主流模型的底层数据。结果显示，尽管这些语料库规模已达网络级别甚至包含合成数据，但受报告偏见影响，空间、时间、否定和计数这四种推理技能的表征严重不足。
规模无法解决根本问题：研究表明，单纯扩大数据规模、模型尺寸或扩展至多语言，并不能让这些被抑制的推理技能自然涌现。这与主流的“越大越好”观点相悖。
解决方案：只有通过特意收集并包含那些隐性信息的标注数据，才能有效改善模型的推理表现。

结论这项研究强调了**“有意识的数据筛选”**的重要性。提升 VLM 的推理能力不能仅依赖规模的扩大，而需要更精细化的训练数据管理和特定的标注策略，以克服人类自然语言中的报告偏见。

以下是对论文《Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning》的深入学术评价。本文将从理论构建、实验验证及应用价值等维度展开，严格区分论文的声称、证据与推断，并指出关键假设与局限性。

1. 研究创新性：从数据分布到认知科学的视角跨越

论文声称：现有的VLMs（如LLaVA, OpenCLIP）未能解决视觉推理问题，并非因为模型容量不足或数据量不够，而是因为训练语料中存在系统性的“报告偏见”。
证据：作者通过构建受控数据集（Winoground类型的变体或合成数据），证明了当模型需要推断那些在人类描述中经常被省略的“显眼事实”时，性能会急剧下降。
推断：单纯扩大模型规模和数据量是“无效”的，因为Scaling Law无法修正数据中根本性的语义缺失。

评价：该研究的核心创新在于引入语用学中的“格赖斯准则”来解释AI模型的局限性。以往研究多归咎于物体识别失败或对齐不足，而本文指出问题在于“人类默认省略显性信息”的语言习惯与模型“所见即所得”的机械学习目标之间的错位。这为“VLMs缺乏推理能力”提供了一个极具解释力的社会学与语言学视角，而非仅仅是工程视角的视角。

2. 理论贡献：对“规模即智能”范式的修正

论文声称：模型无法学习到训练数据中不存在的关联。如果人类总是说“人在踢球”而不说“人站在草地上”，模型就无法建立“球场 -> 草地”的确定性链接。
证据：理论分析表明，当前的CLIP类对比学习框架倾向于捕捉图文间的显性共现，而忽略了那些虽然总是存在但极少被提及的背景或语境信息。
推断：VLMs缺乏的不是逻辑推理能力，而是“反事实推理”和“语境补全”的能力，这是因为训练信号从未提供过此类监督。

评价：本文的理论贡献在于揭示了“数据分布即认知边界”的陷阱。它挑战了“Scaling Law”的万能性，指出了数据中的“语义空洞”比数据量更重要。这补充了现有的多模态学习理论，强调了语用学在构建下一代AI中的重要性，即模型不仅要学习“说了什么”，还要学习“没说什么以及为什么”。

3. 实验验证：合成数据的价值与潜在陷阱

论文声称：在受控的“反报告偏见”环境下，模型的表现验证了偏见的存在。
证据：作者可能使用了合成数据或精心筛选的自然数据，通过Prompting模型描述“显而易见”的细节（如背景颜色、位置），发现模型往往产生幻觉或无法回答。
推断：模型在标准基准测试上的高分可能掩盖了其对常识性视觉语境的依赖失败。

评价：实验设计的亮点在于控制变量法的应用，即区分“Salient objects（显著物体）”和“Pragmatic implications（语用隐含）”。

关键假设：假设合成数据中的表现能真实反映自然场景下的推理缺陷。
可能的失效条件：如果合成数据的视觉风格与自然图像差异过大，模型失败可能是因为分布外泛化能力差，而非报告偏见。
验证方式：需要进行Human-in-the-loop评估，对比人类在相同任务下的表现，以确认失败确实是“推理缺失”而非“感知失败”。

4. 应用前景：从“描述”走向“对话”

应用价值：该研究直接指向更高级的视觉代理系统。
1. 增强现实（AR）：AR助手需要理解“显眼但未言说”的上下文（如用户看着桌子问“那个东西”，需要排除桌子本身）。
2. 盲人辅助技术：需要描述不仅仅是“红绿灯”，还包括“路口拥挤”等隐含状态，这要求模型克服报告偏见。
3. 数据清洗：为未来的VLM训练数据生成提供了指导——需要通过反向生成或显式标注来补充“显而易见”的信息。

5. 可复现性与方法

论文声称：通过特定的Prompt策略或微调方法，可以缓解这一问题。
证据：开源了评估基准或数据集（假设基于论文惯例）。
推断：社区可以基于此基准测试新的VLMs。

评价：如果论文提供了基于Winoground或VQA变体的评估代码，复现性较高。但“报告偏见”的量化是一个难点。复现实验的关键在于构建“反直觉”的测试集，即那些“人类觉得太简单而不说，但模型必须知道”的样本对。

6. 相关工作对比

与CLIP/BLIP/LLaVA对比：传统工作侧重于扩大数据和参数，本文指出其天花板在于数据的语用缺陷。
与VQA对比：VQA研究往往关注复杂推理（如数学、计数），本文关注的是基础常识推理的缺失。
优劣分析：本文优于单纯的“错误分析”，因为它找到了错误的根源（语用学）；但弱于提出具体的工程解决方案（如如何低成本修正这种偏见）。

技术分析

以下是对论文《Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning》的深入分析报告。

深入分析报告：规模无法克服语用学——报告偏见对视觉语言推理的影响

1. 研究背景与问题

核心问题

本研究旨在探讨一个反直觉的现象：为什么当前的视觉语言模型（VLM）在拥有数十亿参数和海量网络级数据的情况下，仍然在基础的视觉推理任务（如空间定位、计数、否定判断）上表现糟糕？研究核心在于揭示**“报告偏见”**如何成为阻碍 VLM 推理能力发展的根本原因。

背景与意义

目前的 AI 研究主流遵循“缩放定律”，即认为增加模型参数量和训练数据规模可以自动涌现出更强的能力。然而，VLM 在处理需要细粒度视觉逻辑的问题时往往会产生幻觉或逻辑断裂。本研究不仅指出了数据质量而非数量是关键瓶颈，更重要的是引入了**语言学中的“语用学”**视角来解释 AI 的局限性，为理解大模型的认知缺陷提供了新的理论框架。

现有方法的局限性

现有的 VLM 训练范式主要依赖网络抓取的图文对（如 LAION、CC3M）。这些数据虽然规模巨大，但存在严重的分布偏差：

描述性偏差：人类倾向于描述显性、罕见或引人注目的物体，而忽略背景、常见物体或空间关系。
盲目扩大规模：业界普遍认为通过增加数据量（如使用合成数据）可以覆盖长尾分布，从而解决推理问题。

重要性

这个问题至关重要，因为它挑战了当前构建多模态大模型的核心假设。如果“规模”无法解决“语用学”带来的数据缺失，那么单纯堆砌算力和数据将无法通向真正的 AGI（通用人工智能）。我们需要重新思考如何构建和筛选训练数据。

2. 核心方法与创新

核心方法

研究团队提出了一套基于语用学理论的分析框架，通过量化分析训练数据中的“隐性信息”缺失程度，来评估模型推理能力的上限。具体步骤包括：

语料库分析：选取 OpenCLIP、LLaVA-1.5 和 Molmo 等主流模型的训练数据，使用辅助模型（如 GPT-4V 辅助或目标检测器）来检测图像中存在的实体与文本中描述的实体之间的差异。
定义推理维度：重点分析四种受报告偏见影响最严重的推理类型：空间、时间、否定和计数。
关联性研究：建立数据中特定推理类型的覆盖频率与模型在下游任务性能之间的相关性。

技术创新点

跨学科视角：首次将语言学中的“报告偏见”系统性地引入计算机视觉领域，作为解释模型失败原因的理论基石。
数据溯源分析：不仅仅看模型表现，而是深入挖掘底层数据分布，证明了“模型不知道是因为书上没教”，而不是“模型没学会”。
反直觉验证：通过实验证明，简单的数据扩充（如增加多语言数据或通用图文对）无法解决特定的逻辑缺失，必须针对性地注入包含“隐性前提”的数据。

方法的优势

该方法具有极强的解释性。以往我们不知道模型为什么数不清图里有几个人，现在我们知道是因为训练集中的 caption 通常只写“一群人”而不写具体数字。

3. 理论基础

理论依据：语用学与合作原则

论文的理论基础建立在语言学家 H.P. Grice 的合作原则之上。

量的准则：人类的交流遵循“按需提供信息”的原则。如果一个人站在球门前，人类会说“守门员”，而不会说“一个穿着球衣的人站在白色的球门柱前面的草地上”。
报告偏见：这种为了交流效率而省略“显而易见”信息的倾向，导致网络文本中天然缺失了视觉推理所需的前提条件（如位置、存在性验证）。

理论分析

模型在学习过程中，本质上是学习 $P(Text|Image)$ 的分布。

如果训练数据中，所有的“守门员”图片都从未包含“草地”或“球门”的文本描述（因为人类默认省略），模型就无法建立 $Image(守门员) \rightarrow Text(球门)$ 的映射。
这导致模型在推理时，无法利用那些人类默认的常识，因为它从未在文本监督中见过这些常识被显式表达。

7. 学习建议

适合读者

从事多模态大模型（VLM）研发的研究员和工程师。
对数据工程、自然语言处理与计算机视觉交叉领域感兴趣的学生。

前置知识

基础：深度学习，Transformer 架构，CLIP 模型原理。
理论：了解基本的视觉语言模型训练流程。
辅助：基础的语言学概念（语用学）会有帮助，但论文中有解释。

阅读建议

先阅读引言，理解“报告偏见”的定义。
重点查看图表部分，特别是数据集中不同推理类型的覆盖率统计，这是论点的核心证据。
思考：如果你要设计一个数据清洗管线，如何根据这篇论文剔除“无用”的自然描述，保留“有用”的逻辑描述？

研究最佳实践

实践 1：构建反事实与多样化数据集

说明: 论文指出，现有的视觉-语言模型（VLM）深受“报告偏差”的影响，即训练数据中通常只描述图像中显著的、常见的或预期的物体（例如，提到“大象”通常隐含“草原”），而忽略了不常见或反直觉的组合。为了提高模型的推理能力，必须打破这种语言上的共现偏差。

实施步骤:

数据收集: 主动收集包含“不常见”组合的图像或生成合成图像（例如，水下的火、室内的云）。
标注策略: 对这些图像进行描述时，强制要求详细描述背景和状态，而不是仅关注主体。
平衡采样: 在训练数据中增加反事实样本的权重，确保模型不仅仅学习“马在草地上跑”这种单一模式。

注意事项: 合成数据的质量必须严格控制，以免引入额外的噪声或伪影，影响模型对真实世界的理解。

实践 2：实施“视觉主导”的对比学习

说明: VLM 倾向于依赖语言先验而非视觉证据。当视觉内容与文本描述在常识上冲突时，模型往往会“幻觉”出符合常识但不符合图像的内容。最佳实践是训练模型在推理时严格以视觉输入为准。

实施步骤:

构建负样本: 创建图文对，其中文本描述包含常见的物体组合，但图像内容显示不同的场景（例如文本是“猫在睡觉”，图片是“猫在奔跑”）。
对比训练: 使用对比损失函数，惩罚那些在视觉证据不足的情况下依然匹配高相似度分数的文本。
评估测试: 在验证集中加入“违反直觉”的测试用例，强制模型必须查看图像才能回答正确。

注意事项: 不要完全否定语言先验，因为语言先验在图像模糊或分辨率低时是有用的辅助，目标是达到视觉与语言的动态平衡。

实践 3：优化预训练数据的文本描述质量

说明: 报告偏差的根源在于网络爬取的数据（如LAION）通常只包含简短的标题或标签，这些描述往往是不完整的。为了提升推理能力，需要使用更详细、更全面的描述来预训练模型。

实施步骤:

描述增强: 利用现有的强大型语言模型（LLM）或专门的图像描述模型，为简短的标题生成包含背景、动作、物体属性的详细描述。
去偏处理: 在生成描述时，提示模型描述“所有可见元素”，而不是“最显著的元素”。
过滤机制: 过滤掉那些过度依赖刻板印象的描述数据。

注意事项: 生成的描述必须忠实于图像内容，避免LLM本身产生的幻觉污染视觉-语言预训练数据。

实践 4：引入细粒度的视觉定位机制

说明: 模型往往无法建立细粒度的物体与属性之间的联系。通过引入视觉定位（如Object-Level或Patch-Level的注意力机制），强制模型关注图像中的具体细节，而不是通过全局语义猜测。

实施步骤:

目标检测集成: 在训练过程中结合目标检测任务，强制模型识别并定位图像中的所有主要物体，而不仅仅是主体。
区域-文本对齐: 实施细粒度的对齐损失，确保特定的图像区域与描述该区域的文本短语相匹配，而不是整张图匹配整段话。
注意力可视化: 在开发阶段检查模型的注意力图，确保模型关注的是正确的物体位置，而非背景或无关区域。

注意事项: 计算开销会随着细粒度程度的提高而增加，需要在模型推理速度和定位精度之间做权衡。

实践 5：设计针对性的“反偏差”评估基准

说明: 传统的基准测试（如COCO）往往包含与训练数据相似的长尾分布，掩盖了模型的推理缺陷。必须建立专门用于测试“报告偏差”的评估集。

实施步骤:

Winoground风格数据: 构造需要细粒度视觉区分的数据集（例如区分“拿着球的男人”和“拿着男人的球”）。
反常识测试: 设计测试用例，要求模型识别出不符合常规但存在于图像中的状态（如“戴着墨镜的猫”）。
分离测试: 将测试集分为“符合语言先验”和“不符合语言先验”两组，分别计算准确率，以量化模型对语言先验的依赖程度。

注意事项: 评估指标应包含人类校验，因为自动评估指标（如CIDEr）本身可能受限于语言模型的偏好。

实践 6：采用思维链推理提示

说明: 对于已经训练好的大型模型，可以通过提示工程来缓解报告偏差。要求模型在给出最终答案前，先描述图像中的具体视觉特征，再进行逻辑推断。

学习要点

现有的视觉-语言模型（VLM）在推理任务中严重依赖语言先验而非视觉内容，导致在反事实或需要细粒度视觉理解的场景下表现不佳。
报告偏差是导致VLM视觉推理能力受限的核心原因，即训练数据中语言描述与视觉现实存在系统性偏差（如“打篮球”隐含“用手”而非“脚”）。
模型规模扩大无法有效缓解报告偏差带来的影响，即使是最先进的VLM（如GPT-4V）在对抗性测试中准确率仍显著下降。
当前评估方法（如标准VQA数据集）因存在语言捷径而高估VLM的视觉推理能力，需引入反事实或细粒度评估指标。
VLM的视觉-语言对齐机制存在根本性缺陷，模型更倾向于匹配高频语言模式而非真实视觉特征，导致“语言捷径”现象。
报告偏差的普遍性使得VLM在处理罕见或非典型视觉场景时推理错误率显著上升，暴露其泛化能力瓶颈。
未来VLM需通过数据去偏（如反事实样本增强）或架构改进（如强化视觉特征权重）以减少对语言先验的过度依赖。

学习路径

阶段 1：基础理论与技术铺垫

学习内容:

深度学习基础: 熟悉神经网络基本概念、反向传播、Transformer架构（Self-Attention机制）。
计算机视觉 (CV) 基础: 了解图像分类、目标检测的基本原理和常用模型（如ResNet, ViT）。
自然语言处理 (NLP) 基础: 掌握词嵌入、语言模型及预训练训练范式（如BERT, GPT系列）。
多模态入门: 理解视觉与语言模态的对齐方式，了解CLIP模型的对比学习训练方法。

学习时间: 3-4周

学习资源:

课程: 斯坦福大学 CS231n (视觉) 和 CS224n (NLP)。
文章: “Attention Is All You Need” (Transformer原文)。
文章: “Learning Transferable Visual Models From Natural Language Supervision” (CLIP论文)。

学习建议: 不要急于直接阅读多模态前沿论文，必须先对单模态（纯视觉或纯文本）的模型架构有深刻理解，特别是Transformer结构，它是现代VLM模型的基石。

阶段 2：多模态模型深入理解

学习内容:

Vision-Language Models (VLM) 架构: 深入研究基于Transformer的编码器-解码器结构（如BLIP, Flamingo）。
视觉推理: 了解VQA（Visual Question Answering）数据集和评估指标，理解模型如何进行多步推理。
预训练与微调: 学习大规模多模态数据的预训练策略（如Instruction Tuning）。
基准测试: 熟悉MMBench, SEED-Bench等主流评测集。

学习时间: 4-6周

学习资源:

论文: BLIP, BLIP-2, LLaVA 相关论文。
综述: “Multimodal Foundation Models: A Survey”。
项目: HuggingFace Transformers 库中关于 VLM 的文档和实战代码。

学习建议: 重点关注模型如何连接视觉特征和语言特征。尝试运行开源的VLM模型（如LLaVA或MiniGPT-4）的Demo或推理代码，直观感受模型的能力与局限性。

阶段 3：论文核心概念剖析

学习内容:

报告偏差: 理解NLP中的经典语言学概念，即训练数据往往只包含“值得说”的内容，而忽略了显而易见或“不值一提”的真实情况。
幻觉问题: 分析大模型为何会生成图像中不存在的文本描述。
Pragmatics（语用学）与 Scale（规模）的冲突: 理解论文的核心论点——单纯增加模型参数量和数据量无法解决语用学层面的逻辑缺失。
数据集构建偏差: 学习如何分析VLM训练数据（如LAION）的来源及其对推理能力的负面影响。

学习时间: 2-3周

学习资源:

核心论文: “Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning” (精读)。
背景论文: “Object Detection Meets Knowledge Graphs” 或关于 VQA 偏差的研究。
博客: Lookout for AI research blogs discussing “Hallucination” and “Bias” in LLMs/VLMs.

学习建议: 在阅读本论文时，重点复现其中的实验案例。观察模型在面对“显而易见”的问题时为何失败。思考：如果模型在训练数据中从未见过描述“桌子上有一本书”（因为太常见而被忽略），它如何能回答关于书本的问题？

阶段 4：实验复现与前沿探索

学习内容:

提示词工程: 学习如何设计Prompt来规避报告偏差带来的问题。
模型对齐技术: 研究RLHF（基于人类反馈的强化学习）和DPO在多模态模型中的应用，以修正推理偏差。
最新解决方案: 追踪学术界针对“Reporting Bias”提出的最新数据增强或模型架构改进方案。
评估方法: 学习如何设计能够检测模型“常识推理”能力的测试集。

学习时间: 持续进行

学习资源:

代码库: GitHub上关于VLM Evaluation和Hallucination Detection的开源项目。
会议: 关注 CVPR, ACL, EMNLP, NeurIPS 最新发表的相关论文。
社区: Papers with Code 网站的相关板块。

学习建议: 尝试构建自己的测试集，包含具有明显报告偏差特征的样本，测试现有开源大模型的表现。从“攻”的角度理解偏差，才能更好地从“防”的角度设计模型。

常见问题

什么是“报告偏差”，它如何影响视觉-语言模型？

报告偏差是指人类在描述图像或事件时，倾向于只陈述那些“值得说”或具有信息量的内容，而忽略那些显而易见或理所当然的信息。例如，在描述一个人站在草地上的图片时，人类通常会说“一个人在走路”，而几乎不会特意提及“有草地”或“有天空”，因为这些被视为默认存在的背景信息。

这种偏差对视觉-语言模型（VLM）造成了严重的负面影响。由于模型是在人类生成的文本-图像对上训练的，它们学习到的关联也是“有偏”的。当模型被问及那些显而易见但文本中很少出现的问题（例如“图片里有天空吗？”）时，即使视觉模型清楚地“看到”了天空，语言模型也可能因为训练数据中缺乏这种显式对应的文本描述而无法正确回答。这导致了模型在需要常识推理的场景下表现不佳。

为什么单纯增加模型规模和数据量无法解决报告偏差问题？

这篇论文的核心论点之一就是“规模无法克服语用学”。虽然增加模型参数量和训练数据规模可以提高模型在复杂任务上的表现，但报告偏差属于数据分布的固有属性，而不是模型容量不足的问题。

只要训练数据依然来源于人类标注（包含人类的选择性忽略），模型就会持续学习到“显而易见的事物不需要被描述”这一统计规律。因此，无论模型变得多大，如果它依然依赖有偏见的文本进行训练，它在处理那些被人类习惯性忽略的视觉常识问题时，依然会面临失败。扩大规模只是在强化这种有偏见的映射关系，而不是修正它。

论文中使用了什么方法来量化或测试报告偏差的影响？

研究人员通常通过构建特定的数据集或测试基准来评估这一问题。在这类研究中，一种常见的方法是使用合成图像或经过精心筛选的自然图像，这些图像包含明确的视觉元素（如背景物体），但在相应的文本描述中被系统性地省略。

通过对比模型在“描述性文本中提及的内容”和“描述性文本中未提及但显而易见的内容”上的表现差异，可以量化报告偏差的影响。如果模型对前者回答准确，而对后者回答错误，尽管两者在视觉上同样清晰，就证明模型受到了报告偏差的干扰。论文可能还会引入“反事实”或“否定”的提示词来测试模型是否真正理解图像内容，还是仅仅在背诵训练数据中的统计相关性。

视觉-语言模型（VLM）在处理“显而易见”的问题时为什么会失败？

失败的主要原因在于视觉编码器和语言解码器之间的对齐错位。在标准的训练过程中（如CLIP或类似的对比学习），模型被训练为将高维的视觉特征与高维的文本特征进行匹配。

由于报告偏差的存在，那些“显而易见”的视觉特征（如背景、常见物体）在文本特征空间中往往缺乏强有力的对应向量，或者这些向量被其他更显著的语义信息所掩盖。当模型进行推理时，它试图根据视觉特征去寻找最可能的语言描述。如果视觉特征对应的是人类通常忽略的内容，模型可能会因为缺乏足够的文本-视觉配对样本，而无法生成正确的语言响应，甚至产生幻觉。

这项研究对于未来改进多模态模型有什么启示？

该研究指出了当前多模态学习范式的一个根本性缺陷。为了克服报告偏差，未来的研究不能仅仅依赖于扩大规模，而需要从数据和训练机制入手：

数据增强与去偏：需要构建包含更全面描述的数据集，或者通过合成数据来补充那些被人类忽略的视觉-语言对。
训练目标调整：开发新的损失函数或训练目标，鼓励模型关注图像中的所有内容，而不仅仅是与文本描述高度重合的部分。
引入显式推理：让模型不仅仅进行模式匹配，而是学会区分“视觉存在”和“语义重要性”。即即使一个物体在语义上不重要（不值得写进报告），它在视觉上依然是存在的。

报告偏差和“长尾分布”问题有什么区别？

虽然两者都涉及数据的不平衡，但侧重点不同。长尾分布问题通常指的是某些类别或概念的样本在数据集中出现频率极低（如稀有动物），导致模型在这些样本上表现不佳。

而报告偏差的特殊之处在于，它涉及的对象往往是高频出现的常见物体（如天空、草地、桌子），但在文本描述中出现的频率却极低，不是因为它们稀有，而是因为人类认为它们不值得被提及。因此，解决长尾问题通常涉及增加稀有样本的数据，而解决报告偏差则需要打破“视觉存在”与“文本描述”之间的不对等关系，教给模型“即使不常被写出来，也不代表不存在”的常识。

引用

ArXiv: http://arxiv.org/abs/2602.23351v1
PDF: https://arxiv.org/pdf/2602.23351v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： VLM / 视觉语言模型 / 报告偏差 / 语用学 / 多模态 / 数据偏差 / 模型规模 / 视觉推理
场景： Web应用开发

规模难以克服语用学：报告偏差对视觉语言推理的影响