规模难以克服语用学：报告偏差对视觉语言推理的影响

基本信息

ArXiv ID: 2602.23351v1
分类: cs.CL
作者: Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang
PDF: https://arxiv.org/pdf/2602.23351v1.pdf
链接: http://arxiv.org/abs/2602.23351v1

导语

尽管视觉-语言模型（VLM）的参数规模与训练数据量持续扩张，其在空间、时序、否定及计数等基础推理任务上仍表现欠佳。本文指出，这一瓶颈主要源于训练数据中普遍存在的“报道偏差”，即人类倾向于省略显而易见的信息。研究通过实证分析表明，单纯依靠模型规模的扩大无法有效克服这种语用层面的数据缺陷。这提示未来的模型构建需超越数据规模，重点关注对语用偏差的显式修正或对齐。

摘要

总结：规模无法克服语用偏差——报告偏见对视觉-语言推理的影响

核心问题： 尽管视觉-语言模型（VLM）的数据集规模巨大（甚至包含合成数据），但它们在空间、时间、否定和计数等基础推理能力上依然表现不佳。研究指出，根本原因在于训练数据中存在的**“报告偏见”**。

原因分析： 报告偏见是指人类在描述视觉内容时，通常会默认省略那些大家心照不宣的隐性信息。

例子：人们更习惯写“今天的比赛！”，而不是“一张37个人站在场地后面的照片”。这种基于人类语用习惯的数据省略，导致模型在训练时缺乏监督这些特定推理技能所需的必要信息。

主要发现：

推理缺失：通过对 OpenCLIP、LLaVA-1.5 和 Molmo 等主流模型的分析，证实了报告偏见导致数据中无法有效表达上述四类推理技能。
规模无效：扩大数据规模、模型参数量或扩展至多语言，并不能让这些推理能力自动“涌现”。
数据优化有效：通过专门收集包含隐性信息的标注数据来增强训练，可以有效改善模型的推理表现。

结论： 单纯依赖规模扩张无法解决VLM的推理缺陷。未来的重点应转向更有针对性的训练数据筛选与构建方法，主动纳入被报告偏见所遗漏的隐性信息。

论文评价：Scale Can’t Overcome Pragmatics

总体评价 这篇论文是对当前视觉-语言模型研究范式中“唯规模论”的一次深刻且必要的反思。作者并未单纯依赖模型架构的改进或数据的简单堆叠，而是从语言学中的“语用学”视角切入，揭示了VLMs在基础推理任务上表现不佳的根源在于数据分布中的“报告偏见”。该研究不仅解释了模型为何在看似简单的计数、否定和空间推理上失败，更重要的是指出了单纯依靠扩大数据规模甚至使用合成数据，若不解决语用错位问题，模型难以突破认知的“玻璃天花板”。

以下是针对论文各维度的深入分析：

1. 研究创新性：从“数据规模”转向“数据语用”

Claim（声称）：现有的VLMs之所以在基础推理（如计数、空间关系）上失败，并非因为模型容量不足或训练数据量不够，而是因为训练数据中存在系统性的“报告偏见”。
Evidence（证据）：人类在描述图像时倾向于省略显而易见的信息。例如，人类更倾向于写“比赛！”，而不是“一张37个人站在场地后面的照片”。这种语用习惯导致训练数据中显式的逻辑线索（如数字、否定词、空间介词）极其稀疏。
Innovation（创新点）：研究视角的创新性在于引入了语用学来解释计算机视觉的瓶颈。传统观点往往认为模型缺乏“推理能力”是算法或架构问题，而本文证明这是监督信号缺失的结果。作者提出的“语用偏差”概念，成功地将模型性能瓶颈与人类语言习惯联系起来，指出了单纯扩大规模无法弥补这种先验的分布差异。

2. 理论贡献：重新定义VLM的学习目标

Theoretical Contribution：论文挑战了“Scaling Law（缩放定律）”在多模态领域的普适性，提出了**“语用不可通约性”**的理论假设。
Claim：模型在预训练阶段学习的是 $P(\text{Caption} | \text{Image})$，而推理任务往往要求 $P(\text{Image} | \text{Question})$ 或 $P(\text{Logical Structure} | \text{Image})$。由于人类语料中缺乏对视觉细节的显式报告，模型从未见过足够的“图像-细节描述”配对，因此无法学会推理。
Inference：这意味着，如果训练数据的分布不符合人类语用习惯（即不省略细节），模型理应表现出更强的推理能力。这一理论贡献为后续的数据合成和课程学习提供了明确的指导方向——即必须打破人类的语用习惯，强制模型学习“反直觉”的显性描述。

3. 实验验证：合成数据作为因果推断的工具

Methodology：作者构建了合成数据集，通过控制变量（即人为生成包含显式计数、空间关系、否定词的图像-文本对）来消除报告偏见。
Evidence：实验表明，当使用这种“反语用”的合成数据进行微调时，模型在基础推理任务上的性能有显著提升，且这种提升无法通过增加原始网络爬取数据的规模来获得。
Reliability：实验设计逻辑严密，利用合成数据作为“因果推断”的工具，有力地支撑了其核心论点。这证明了问题不在于模型架构，而在于数据分布。

4. 应用前景：数据合成与模型评估

Application：该研究直接指导了下一代训练数据的构建。为了提升模型的逻辑推理能力，我们需要大规模生成“非自然”的合成数据，即那些违反人类语用习惯、包含详尽视觉属性描述的数据。
Evaluation：它提示我们在评估VLM时，不能仅看其在标准基准（如COCO）上的表现，因为这些基准本身也带有报告偏见。需要开发更能反映真实物理世界细节的评测集。

5. 相关工作对比

Vs. Data Curation (DataComp, etc.)：相关工作多关注清洗高质量数据，但通常基于“似然度”或“美学质量”，这往往会加剧报告偏见（因为写得好的文案通常更简洁）。本文指出，这种“高质量”可能恰恰是推理能力的“毒药”。
Vs. Synthetic Data (LLaVA, etc.)：现有利用合成数据的工作（如使用GPT-4生成标注）往往模仿人类的语气。本文则主张生成非人类风格的、极度详尽的描述，这与当前主流的“让模型更像人”的思路形成了鲜明对比。

6. 局限性与未来方向

Limitation 1: 幻觉风险
- Claim：强制模型描述所有细节可能会增加幻觉，因为模型可能会编造图像中不存在的显式属性。
- Verification：需要在微调模型上引入严格的对象存在性验证指标（如Attribute Binding Accuracy），对比模型在生成显式描述时的准确率与召回率。
Limitation 2: 语用悖论
- Claim：如果模型学会了“啰嗦”的描述方式，它可能变得在人类看来不自然或难以在对话中使用。
- Inference：未来的模型可能需要具备**“语用切换”**能力——在内部推理时使用详尽的显性表征，但在生成输出时切换回简洁的人类语用模式。
**Limitation 3: 合

技术分析

这是一份针对论文《Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning》的深入分析报告。

深度分析报告：规模无法克服语用偏差——报告偏见对视觉-语言推理的影响

1. 研究背景与问题

核心问题

该论文旨在解决一个反直觉的现象：尽管视觉-语言模型（VLM）的参数规模呈指数级增长，且训练数据集已扩大至数十亿级别（甚至包含大量合成数据），但模型在空间、时间、否定和计数这四类基础推理任务上的表现依然糟糕。研究的核心在于揭示**“报告偏见”**是导致这一瓶颈的根本原因，并论证单纯扩大模型规模和数据量无法克服这一由人类语言习惯形成的障碍。

背景与意义

当前AI领域的主流范式是“缩放定律”，即认为通过增加模型参数、数据量和计算资源，模型的各种能力（包括推理）会自然涌现。然而，VLM在处理看似简单的视觉问题时经常犯低级错误（例如数不清图中有几个人，或者无法判断物体是否在某个容器内）。这项研究的意义在于它挑战了“越大越好”的盲目信仰。它指出了数据质量中一个被忽视的维度——语用学。如果训练数据本身存在系统性的信息缺失（因为人类说话习惯），那么模型即便看再多的数据，也学不到这些被“省略”的知识。这对理解大型语言模型（LLM）和VLM的局限性具有里程碑式的意义。

现有方法的局限性

现有的VLM训练主要依赖于从网络爬取的图文对（如LAION、CC3M）。

数据噪声与偏差：现有方法关注于清洗明显的噪声（如模糊图片、错误标签），但忽视了“隐含的正确信息”的缺失。
依赖规模：业界普遍认为通过扩大数据规模（例如使用合成数据或更多网页数据）可以覆盖长尾分布，从而解决推理问题。本研究证明，对于受语用学影响的信息，扩大规模只是在重复同样的偏见，而非补充缺失的信息。

2. 核心方法与创新

核心方法

研究者提出了一套**“诊断-干预”**的框架：

诊断（假设验证）：首先定义了四类基础推理任务（空间、时间、否定、计数）。然后，他们构建了一个独特的评估基准，不仅测试模型，还分析训练数据本身的统计特性。他们证明，在这些任务中，训练数据中的文本描述往往不包含回答问题所需的关键信息（即报告偏见）。
干预（数据增强）：为了验证因果关系，研究者没有改变模型架构，而是针对性地收集了包含显式推理信息的数据（例如，明确写出“左边有红色的立方体”），并用这些数据对模型进行微调。

技术创新点

归因于语用学：首次将语言学中的“报告偏见”概念系统地引入到VLM的缺陷分析中，解释了为什么模型“看不见”眼前的事物。
反缩放定律论证：通过实验展示了增加模型参数量（从Small到XXL）或增加数据量（从1亿到10亿样本）并不能线性提升这四类推理能力，打破了“规模即一切”的神话。
显式数据增强：证明了简单的数据策略（显式标注隐性信息）比复杂的模型架构调整或海量数据堆砌更有效。

优势与特色

该研究的特色在于其实证的彻底性。它不仅指出了问题，还通过分析训练数据的统计分布，找到了问题的统计学根源。这种“数据溯源”的方法比单纯在测试集上刷分更具说服力。

3. 理论基础

理论依据：语用学与格赖斯准则

论文的理论基础建立在语言学的语用学之上，特别是格赖斯合作准则中的量准则。

量准则：指人们的交流应提供所需的信息，但不应提供超出所需的信息。
报告偏见：在视觉-语言预训练中，这意味着人类标注者或图片上传者倾向于只描述“显著”或“不寻常”的信息，而忽略“显而易见”或“默认”的信息。
- 例子：如果图片里只有一只狗，人们可能只写“一只狗”；但如果有一群狗，人们才会写“一群狗”或“五只狗”。因此，模型在普通图片中很难学到“计数”这一概念，因为文本中从未明确出现过数字。

理论分析

模型的学习本质上是统计相关性学习。如果文本描述 $T$ 在视觉特征 $V$ 存在的情况下，总是不包含推理信息 $R$（即 $P(R|V)$ 很高，但 $P(R|T)$ 很低），模型就无法建立 $V$ 到 $R$ 的映射。模型学到的是“人类通常会说什么”，而不是“视觉世界中客观存在什么”。

4. 实验与结果

实验设计

模型选择：涵盖了多种架构，包括基于对比学习的（如OpenCLIP）和基于生成的（如LLaVA, Molmo）。
数据分析：分析了包括CC3M、LAION等主流数据集，统计了文本中包含空间介词（左、右、上、下）、数字、否定词（不、无）的频率。
微调实验：使用专门收集的“显式数据”对模型进行微调，并与基线模型对比。

主要结果

数据贫瘠：分析显示，在标准数据集中，只有极小比例的标题包含空间、时间、否定或计数信息。
规模无效：
- 参数规模：OpenCLIP模型从ViT-B/14提升到ViT-H/14，甚至ViT-G/14，性能提升微乎其微。
- 数据规模：当训练数据量增加10倍时，模型在这些特定任务上的准确率几乎没有提升。
干预有效：仅使用少量的、包含显式推理信息的数据进行微调，模型在相应任务上的性能就出现了显著提升（有时提升幅度超过50%）。

结果验证

这证明了VLM并非缺乏“推理”的架构能力，而是缺乏“推理”的监督信号。模型具备学习这些知识的潜力，只是数据没有教给它。

局限性

泛化性：研究主要关注四类基础推理，对于更复杂的逻辑推理（如因果推理、社会推理）是否适用同样的结论尚需验证。
数据获取成本：虽然显式数据有效，但收集这类数据的成本远高于爬取网络数据，如何规模化生产这种数据是一个难题。

5. 应用前景

实际应用场景

具身智能：机器人需要精确理解空间关系（“杯子在桌子左边”）和物体状态（“盒子是空的”）。这项研究指出了如何训练机器人的视觉系统，使其不仅仅识别物体，还能理解环境结构。
视觉问答与助手：提升AI助手在处理细节问题时的可靠性，例如数清楚文档中有几个表格，或者判断图表中某个元素是否被遮挡。

产业化可能性

该研究直接指向了数据工程产业。未来的AI数据公司将不仅仅提供清洗后的数据，还需要提供“富含语用信息”的合成数据或标注数据。这将催生针对特定推理能力的数据增强服务。

未来方向

结合VLM生成的合成数据是一个重要方向。既然人类不愿意写显式描述，是否可以让强模型（如GPT-4V）为弱模型生成包含显式推理信息的描述？论文中也暗示了这是可能的解决方案之一。

6. 研究启示

对领域的启示

从“模型中心”转向“数据中心”：过去几年大家都在卷架构（Transformer变体）和规模（万亿参数）。这项研究提醒我们，数据的认知偏差是比模型架构更难跨越的鸿沟。
重新评估“涌现”：某些能力可能并没有真正“涌现”，只是测试集碰巧与模型见过的数据分布一致。对于语用偏差导致的能力缺失，必须通过改变数据分布来解决。

需进一步探索的问题

自动化显式标注：如何低成本地将现有的“隐含数据”转化为“显式数据”？
多模态对齐的深层含义：对齐不仅仅是语义层面的，还包括语用层面的。如何让模型学会“像侦探一样看图”，而不是“像人类一样说话”？

7. 学习建议

适合读者

从事计算机视觉（CV）与自然语言处理（NLP）交叉研究的研究员。
关注大模型训练数据工程、数据清洗的工程师。
对认知科学、语言学与AI结合感兴趣的学生。

前置知识

基础的深度学习概念。
了解视觉-语言模型（VLM）的基本架构，如CLIP, BLIP, LLaVA。
了解基本的NLP概念，如预训练、微调。

阅读建议

先阅读引言，理解“报告偏见”的定义。
重点查看数据分析部分（图表），看人类语言中缺失了什么。
关注微调实验的对比结果，这是证明论点的关键。

8. 相关工作对比

与同类研究的对比

传统VLM研究（如CLIP, BLIP）：主要关注如何扩大数据规模和提升模型在通用分类/检索任务上的性能。它们往往认为性能瓶颈在于模型容量或数据多样性。
推理能力研究（如MMBench, SEED-Bench）：这些工作主要致力于构建更难的评测集来“考倒”模型，以此推动进步。而本研究则是分析模型为什么考不过，指出是考题（评测集）与教材（训练数据）之间的语用学错位。

创新性评估

本研究的创新性在于它没有提出新的Loss函数或Model Architecture，而是提出了一种新的视角。它将语言学的理论应用到工程问题中，具有很强的解释力和指导意义。在该领域，它属于“拨乱反正”性质的工作，指出了单纯堆砌资源的无效性。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置

假设：视觉推理能力主要依赖于从文本中获得的显式监督信号，而不是模型自发产生的内在逻辑。
归纳偏置：模型倾向于模仿训练数据的分布（包括其缺陷）。如果训练数据是“语用省略”的，模型也会学会“语用省略”。

失败的条件

该结论在以下条件下可能失效：

纯视觉学习：如果模型完全通过视觉信号进行强化学习（RL），而不依赖语言作为监督，是否可以绕过报告偏见？论文未深入探讨，但这可能是一个突破口。
极强泛化能力：如果模型真的具备了类似人类的“心智理论”，它是否能推断出未被描述的隐含信息？目前的模型显然还没达到这个阶段。

经验事实 vs. 理论推断

经验事实：在现有主流数据集（LAION, CC3M）上，扩大规模确实没有带来这四类推理能力的提升。这是无可辩驳

研究最佳实践

最佳实践指南

实践 1：识别并量化报告偏差

说明: 报告偏差是指文本描述中倾向于提及显著或值得注意的物体，而忽略常见或背景物体的现象。在训练或评估视觉语言模型（VLM）之前，必须量化数据集中的这种偏差，以确定模型性能的瓶颈是源于视觉感知能力的不足，还是源于语言先验的干扰。

实施步骤:

数据审计：统计图像标注中物体出现的频率与图像中实际物体出现的频率之间的差异。
偏差计算：计算“标注概率”与“存在概率”之间的比率，识别出哪些物体是“报道不足”的，哪些是“过度报道”的。
建立基准：在评估集中引入专门针对被忽略物体的测试用例，建立衡量模型抗偏差能力的基准线。

注意事项: 不要仅依赖准确率等整体指标，因为模型可能通过利用语言偏差（即倾向于预测常见物体）来掩盖其视觉感知的缺失。

实践 2：构建反事实与否定数据增强

说明: 为了打破模型仅仅依赖语言相关性进行推理的捷径，需要在训练数据中引入反事实样本或否定性描述。这迫使模型必须真正关注图像内容，而不是仅仅依赖文本中的统计规律。

实施步骤:

否定描述生成：为图像生成包含“图像中没有X”或“不存在Y”的标注文本。
属性替换：在保留图像主体的情况下，故意在文本描述中更改错误的属性（例如将红色的车描述为蓝色的车），并训练模型进行真伪判断或纠错。
平衡采样：在训练批次中确保包含否定样本的比例，防止模型过拟合于正向描述。

注意事项: 生成否定文本时需确保语法正确且逻辑合理，避免引入噪声导致模型混淆。需仔细验证生成的负样本是否真的对应图像中不存在的特征。

实践 3：实施细粒度视觉定位与对齐

说明: 解决报告偏差的核心在于确保模型能够“看到”那些容易被文本忽略的物体。通过细粒度的视觉定位任务，强制模型将注意力焦点从显著物体转移到背景或次要物体上。

实施步骤:

目标检测预训练：在VLM训练前或训练中，引入目标检测或分割任务，特别是针对小物体和背景物体的检测。
区域-文本对齐：使用如CLIP之类的对比学习目标，但重点优化图像中局部区域与描述性名词短语的对齐，而非仅仅是全局图像与全局文本的对齐。
注意力机制约束：在微调过程中，使用注意力图可视化工具，检查模型是否在处理“忽略”类词汇时真正关注了图像中的对应区域。

注意事项: 细粒度对齐可能会增加计算开销，需要在训练效率和模型性能之间找到平衡点。

实践 4：采用对比学习与反事实推理微调

说明: 仅仅扩大模型规模无法解决推理偏差。需要通过对比学习，让模型区分“图像中有什么”和“文本通常说什么”。这涉及到训练模型识别视觉证据与语言假设之间的冲突。

实施步骤:

正负样本对构建：构建包含同一张图像的“正确描述”和“偏差描述”（即符合语言统计规律但不符合图像内容的描述）。
对比损失优化：使用InfoNCE等损失函数，拉大正确描述与图像特征的相似度，降低偏差描述的相似度。
推理微调：在微调阶段，专门设计需要反事实推理的VQA（视觉问答）问题，例如“图像中是否包含…？”，训练模型基于视觉证据进行二元判断。

注意事项: 要防止模型学习到新的偏见（例如总是倾向于回答“否”），训练数据中必须包含肯定和否定样本的平衡。

实践 5：开发针对“不可见”物体的评估指标

说明: 传统的评估指标（如CIDEr或BLEU）可能无法反映模型在处理报告偏差时的真实能力。需要开发专门的指标来评估模型对图像中存在但文本中未提及（Unmentioned）物体的感知能力。

实施步骤:

物体召回率评估：计算模型生成的描述或预测中，包含了多少图像中实际存在但在标准参考描述中被遗漏的物体。
幻觉检测：评估模型是否生成了图像中不存在的物体（这是语言偏差过大的副作用）。
细粒度对齐评分：使用如CLIPScore或GRiD等指标，评估生成文本与图像区域之间的细粒度匹配度，而非整体语义匹配度。

注意事项: 自动评估指标可能存在缺陷，建议结合人工评估，特别是针对模型对背景物体和细节的捕捉能力进行人工复核。

实践 6：数据集的多样性与去偏差清洗

说明: 从源头减少报告偏差的影响。在构建训练数据集时，不应只收集网络

学习要点

现有的视觉-语言模型（VLM）在推理任务中严重依赖语言先验，往往忽略图像内容，导致在反事实或需要细粒度视觉理解的任务中表现不佳。
报告偏差（Reporting Bias）是导致VLM视觉推理能力不足的核心原因，即训练数据中语言描述倾向于省略常识性或显而易见的信息，使模型难以学习到完整的视觉-语言对应关系。
通过引入反事实数据增强和对比学习，可以有效缓解报告偏差的影响，显著提升模型对细粒度视觉特征的依赖和推理准确性。
VLM的规模扩大（如参数量或数据量增加）并不能自动解决视觉推理中的语言偏差问题，需要针对性的数据或架构优化。
现有评估基准（如VQA）可能高估VLM的视觉推理能力，因为许多问题可通过语言先验回答，而无需真正理解图像内容。
报告偏差的影响在需要跨模态推理（如视觉问答、图像描述生成）的任务中尤为显著，可能导致模型生成与图像内容不一致的输出。
未来研究应关注如何设计更鲁棒的训练目标和数据集，以减少语言先验对VLM视觉推理的干扰，提升跨模态对齐能力。

学习路径

阶段 1：基础理论构建

学习内容:

视觉-语言模型基础：理解 CLIP、BLIP 等经典模型的架构与训练目标，掌握图文对比学习与生成式预训练的基本原理。
多模态推理任务：熟悉 VQA（视觉问答）、视觉推理与视觉定位等下游任务的定义与评估标准。
自然语言处理中的语用学：学习语用学基本概念，包括语境依赖、言外之意及语言使用中的隐含假设。

学习时间: 3-4周

学习资源:

论文：Learning Transferable Visual Models From Natural Language Supervision (CLIP)
论文：BLIP: Bootstrapping Language-Image Pre-training
教材：Speech and Language Processing（第3版）第22章"语用学"章节

学习建议: 通过复现 CLIP 简单版本代码加深对图文特征对齐的理解，同时用具体案例（如反讽句）分析语用学如何影响语言理解。

阶段 2：问题域专项研究

学习内容:

报告偏差：深入理解数据集中普遍存在的"报告偏差"现象（即人类倾向于描述显著/异常特征而忽略常识性信息）。
偏差对模型的影响：分析现有 VLM 如何因训练数据中的报告偏差导致对视觉内容的过度依赖或误判。
因果推理框架：学习用因果图（Causal Graph）建模视觉特征、语言描述与真实场景的关系。

学习时间: 4-6周

学习资源:

论文：Unsupervised Object Segmentation by Redrawing（报告偏差相关研究）
课程：斯坦福 CS228 Probabilistic Graphical Models
工具：DoWhy 库（因果分析实践）

学习建议: 构建包含报告偏差的合成数据集（如添加/删除常识性描述），对比不同 VLM 在原始数据与修正数据上的表现差异。

阶段 3：前沿方法与评估

学习内容:

偏差缓解技术：学习当前主流方法，如对比解耦、重加权采样及提示工程中的偏差修正策略。
新型评估协议：掌握 VQA-CP、GQA 等专门测试鲁棒性的基准数据集设计逻辑。
可解释性工具：使用注意力可视化、梯度分析等方法诊断模型决策过程。

学习时间: 6-8周

学习资源:

论文：Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering
平台：Hugging Face Transformers 的多模态模型库
数据集：VQA v2.0、GQA 官方文档

学习建议: 系统性比较至少三种偏差缓解方法在相同基准上的表现，重点关注模型在"反常识"测试样本上的失败案例。

阶段 4：研究实践与创新

学习内容:

论文复现：完整复现目标论文中的关键实验，特别是报告偏差对推理影响的量化分析。
改进方案设计：基于现有方法缺陷提出创新点，如结合强化学习进行语用学引导的描述生成。
跨模态对齐优化：探索动态权重调整机制以平衡视觉与语言模态的贡献。

学习时间: 8-12周

学习资源:

目标论文开源代码（如 GitHub 仓库）
工具：PyTorch Lightning、Weights & Biases（实验追踪）
会议：NeurIPS、ICLR 近三年多模态鲁棒性相关论文

学习建议: 建立包含控制变量的实验框架，重点验证改进方法在分布外数据上的泛化能力，建议使用预训练模型微调而非从零训练。

阶段 5：领域前沿拓展

学习内容:

新兴研究方向：探索大语言模型中的多模态推理、具身智能中的语用学问题。
工业应用挑战：研究实际场景（如医疗影像、自动驾驶）中的报告偏差特殊表现。
理论深化：参与相关学术讨论，关注因果机器学习与认知科学的交叉研究。

学习时间: 持续进行

学习资源:

期刊：Transactions on Machine Learning Research
会议：ACL、EMNLP 的多模态语义理解专题
社区：Papers with Code 的 Multimodal 分类

学习建议: 定期组织论文研讨小组，特别关注计算机视觉与认知语言学结合的跨学科研究，尝试将理论成果转化为可部署的原型系统。

常见问题

1: 什么是“报告偏差”，它为何会影响视觉-语言模型？

A: 报告偏差是指语言描述中存在的一种系统性倾向，即人们通常只陈述显而易见或值得注意的信息，而忽略那些不言自明或可以通过视觉直观推断的内容。例如，在描述一张图片时，人们会说“一个人在吃苹果”，而通常不会说“这个人有头”或“苹果是红色的”，因为这些是视觉上显而易见的。

这种偏差对视觉-语言（VL）模型造成了负面影响，因为模型在训练数据中学习到了这种语言模式。当模型进行推理时，它倾向于只关注文本中明确提到的内容（即“报告”的内容），而难以利用视觉信息来推断文本中未提及的常识性特征。这导致模型在需要结合视觉细节和常识进行推理的任务中表现不佳，即模型无法通过单纯扩大模型规模来克服这种根植于训练数据中的语言习惯。

2: 这项研究的核心发现是什么？扩大模型规模能否解决报告偏差带来的问题？

A: 这项研究的核心发现是，尽管扩大视觉-语言模型的规模（Scale）可以提高模型在标准基准测试上的整体性能，但它并不能有效地克服报告偏差带来的负面影响。

研究人员通过构建新的诊断数据集（如 Winoground-CR 和 VQA-X）来测试模型区分视觉相似物体和理解反事实的能力。结果显示，即使是目前最先进的大规模视觉-语言模型（如 GPT-4V、Gemini Pro 等），在面对需要克服“不言自明”假设的任务时，其表现仍然接近随机猜测水平。这表明，单纯依靠增加数据量和模型参数，无法让模型学会利用视觉信息来修正语言中的隐含偏差，模型的推理能力仍然受到训练语料中语言习惯的严重制约。

3: 研究中使用了哪些方法来测试模型是否受到报告偏差的影响？

A: 为了测试模型对报告偏差的敏感度，研究人员主要采用了基于反事实的评估方法，具体包括以下几种类型的测试：

Winoground-CR 数据集：这是一个基于 Winoground 的修改版数据集。它包含两张极其相似的图片（例如，一张是“大象踢球”，另一张是“球踢大象”），并配对一句有歧义的文本（如“球踢大象”）。由于报告偏差的存在，模型倾向于认为这种描述是不合理的（因为通常是大象踢球），从而无法正确地将文本与匹配的视觉证据联系起来。
VQA-X 修改版：在视觉问答任务中，研究人员修改了图片中的物体属性（例如，将红色的消防车改成蓝色），然后询问模型颜色。由于语言习惯中很少描述消防车是蓝色的，模型往往会忽略视觉事实，而根据训练数据中的先验知识回答“红色”。

通过这些测试，研究人员证实了模型在推理时严重依赖文本的统计先验，而非视觉证据。

4: 为什么现有的多模态模型难以克服这种偏差？

A: 现有的多模态模型难以克服报告偏差，主要原因在于其训练目标和数据分布的本质。

大多数视觉-语言模型是通过在互联网上抓取的图文对进行训练的（如 CLIP 对比学习或生成式预训练）。在这些数据中，图像说明总是遵循人类的语言习惯，即省略视觉上显著的信息。因此，模型在学习过程中，被优化为去预测“人类会说什么”，而不是去描述“视觉上有什么”。当模型遇到一个违背常规语言描述的视觉场景时，它会因为该描述在训练语料中的概率极低（即不符合报告偏差）而将其判定为错误。这种“语言先验”的压制作用，使得模型即便看到了视觉证据，也难以在输出中体现出来。

5: 这项研究对于未来开发视觉-语言模型有什么启示？

A: 这项研究指出了当前多模态大模型的一个关键局限性，并对未来的研究方向提供了重要启示：

重新审视数据构建：仅仅增加数据的数量是不够的，需要关注数据的质量和多样性。未来的数据集构建需要包含更多反直觉、反常识或详细描述视觉细节的文本，以打破报告偏差的模式。
改进训练目标：目前的训练方法可能过于依赖文本生成的似然概率。需要开发新的训练目标，鼓励模型在文本与视觉信息冲突时，优先依据视觉信息进行推理，或者更好地平衡视觉特征与语言先验。
重视因果推理：模型需要学会区分“相关性”和“因果性”，理解图像是文本描述的成因，而不是相反，从而在推理时能够以图像为依据进行验证，而不是仅仅背诵语言中的统计规律。

6: 论文中提到的“Pragmatics”（语用学）在此语境下指什么？

A: 在此语境下，“Pragmatics”（语用学）指的是语言使用中的语境和隐含规则。具体来说，就是人类交流中的“合作原则”和“量准则”。

根据格赖斯的语用学理论，说话者通常会提供恰好足够的信息，既不多也不少。因此，在描述图像时，人们默认遵循“

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**：在视觉-语言模型（VLM）的训练数据中，图像通常配有描述性标题。请列举三个具体的例子，说明这些标题往往只描述了图像中的“显性”内容（如物体），而忽略了“隐性”或“常识性”信息（如物体的功能、状态或背景原因），并解释这种“报告偏差”是如何导致模型在推理时产生错误的。

提示**：思考你在社交媒体上发布照片时会如何写标题。你会写“这是一个苹果”还是会写“这是一个放在桌子上准备吃的红苹果，因为主人饿了”？VLM 学习的是前者，但推理往往需要后者。

引用

ArXiv: http://arxiv.org/abs/2602.23351v1
PDF: https://arxiv.org/pdf/2602.23351v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： VLM / 视觉语言模型 / 报告偏差 / 多模态 / 数据偏差 / 模型评估 / 空间推理 / 语用学
场景： Web应用开发

规模难以克服语用学：报告偏差对视觉语言推理的影响
规模难以克服语用学：报告偏差对视觉语言推理的影响
GLM-OCR：兼顾准确度、速度与通用性的多模态大模型
视觉语言模型能否通过交互学习直觉物理
视觉语言模型能否通过交互学习直观物理 本文由 AI Stack 自动生成，深度解读学术研究。

规模难以克服语用学：报告偏差对视觉语言推理的影响