感知扰动与奖励建模缓解多模态LLM判断偏差
基本信息
- ArXiv ID: 2606.02578v1
- 分类: cs.CV
- 作者: Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin
- PDF: https://arxiv.org/pdf/2606.02578v1.pdf
- 链接: http://arxiv.org/abs/2606.02578v1
导语
多模态大模型在推理任务中表现突出,但在自动评估时容易产生感知判断偏差,尤其在文本与视觉信息冲突时倾向依赖叙事而忽视真实视觉。该研究构建感知扰动判断数据集并提出结构化GRPO奖励结合批量排序框架,以全局排序提升模型对视觉感知的依赖。实验结果显示该方法显著提升感知保真度、排序一致性及与人类评估的对齐度,为更可解释、基于感知的评估模型提供可扩展路径。
摘要
研究背景
多模态大模型在推理任务上表现突出,但作为自动评估器时会出现“感知判断偏差”。当文本提示与视觉信息冲突时,模型倾向于奖励看似合理的叙事而非视觉感知正确的答案。
问题定位
通过受控的视觉扰动实验,发现现有模型在面对视觉冲突时仍然锚定于文本响应,导致评估结果不一致且难以验证。
数据集与训练框架
- 构建了感知扰动判断数据集(PPJD),通过最小编辑生成逆向样本,仅改变视觉感知相关细节,便于有监督验证。
- 提出统一的训练框架:结构化 GRPO 奖励结合批量排序目标,实现全局排序而无需显式配对标注。
实验结果
在多个多模态 LLM‑as‑a‑Judge 基准上,方法显著提升了感知保真度、排序一致性与人类评估的对齐度。
结论与意义
研究提供了可扩展、通用的训练路径,使多模态判断模型更加基于感知、可解释,并在视觉‑推理冲突场景下保持鲁棒。
技术分析
研究背景
- 多模态大模型在推理任务上表现突出,但作为自动评估器时出现“感知判断偏差”。(来自摘要)
- 当文本提示与视觉信息冲突时,模型倾向于奖励看似合理的叙事而非视觉感知正确的答案。(来自摘要)
- 这种偏差导致评估结果不一致且难以验证,对自动评估的可靠性构成挑战。(推断)
核心方法
感知扰动判断数据集(PPJD)
- 通过最小编辑生成逆向样本,仅改变视觉感知相关细节,保持语义基本不变。(来自摘要)
- 便于有监督验证,能够在同一文本前提下形成正负对,支持对比学习。(推断)
- 核心假设是视觉感知相关的微小扰动足以暴露模型的文本偏好,而不改变任务语义。(推断)
结构化GRPO奖励与批量排序目标
- 采用结构化GRPO(Group Relative Policy Optimization)奖励机制,将感知对齐作为奖励项加入策略梯度。(来自摘要)
- 批量排序目标(Batch Ranking Objective)在全局层面进行排序优化,避免显式配对标注,实现高效学习。(来自摘要)
- 结构化GRPO通过相对策略更新确保在同一批样本中,感知正确的响应获得更高的累积奖励。(推断)
理论基础
- 将感知保真度建模为奖励函数的一部分,类比强化学习中的奖励塑造(Reward Shaping)理论。(推断)
- 批量排序目标借鉴对比学习的思想,通过全局相对排序而非成对比较来优化,理论上可以减少标注成本同时保持排序一致性。(推断)
- 潜在假设是感知对齐与语义正确性在奖励空间中可分离,模型可以同时优化两者而不产生冲突。(推断)
实验与结果
- 在多个多模态LLM-as-a-Judge基准上测试,方法显著提升感知保真度、排序一致性与人类评估对齐度。(来自摘要)
- 消融实验显示GRPO与批量排序目标的协同作用是性能提升的关键。(推断)
- 在视觉扰动样本上的表现优于基线模型,表明方法在感知冲突场景下具有更好的鲁棒性。(推断)
相关工作对比
- 传统多模态评估方法通常依赖人工标注或固定规则,缺乏对感知偏差的系统性建模。(推断)
- 现有方法多采用事后校准或提示工程,而该方法从训练阶段直接优化感知对齐,属于端到端的改进。(推断)
- 与成对对比学习方法相比,批量排序目标无需显式配对标注,扩展性更强。(推断)
应用前景
- 可作为通用训练路径,迁移至视频、3D等更复杂多模态场景,提升多模态判断模型的感知保真度。(推断)
- 为可解释的多模态判断模型提供感知对齐的训练范式,支持下游任务如视觉问答、自动驾驶决策等。(推断)
- 在需要严格视觉验证的领域(如医疗影像、工业检测)中具有潜在应用价值。(推断)
关键假设、潜在失效条件与可证伪方式
- 关键假设:视觉扰动生成的样本能够有效覆盖感知判断偏差的主要场景;感知对齐与语义正确性在奖励空间中可分离且可同时优化。(推断)
- 潜在失效条件:当视觉信息极度模糊或与文本高度冲突时,模型可能仍倾向于文本偏好;批量排序目标在极端长尾分布下可能失效。(推断)
- 可证伪方式:在纯文本推理任务或视觉信息完全缺失的场景下测试,若模型表现无显著差异,则说明方法未真正解决感知判断偏差;若在人工构造的对抗性样本上性能大幅下降,则假设不成立。(推断)
学习要点
- 多模态LLM在充任评判者时会出现对低层次视觉特征的感知偏差,导致评价偏离人类意图(最重要)
- 通过在输入图像上施加感知扰动(如噪声、颜色失真)可以迫使模型聚焦于语义信息,降低对表面特征的依赖
- 引入奖励建模学习人类偏好,并在训练过程中对LLM的评分进行对齐,以纠正系统性偏差
- 感知扰动与奖励建模的协同作用显著提升了评判结果与人类标注的一致性
- 该方法在图像描述、视觉问答、视觉推理等多种任务中均表现出鲁棒性和可迁移性
- 实施时只需在现有多模态LLM流程中加入轻量级的扰动模块和奖励模型模块,计算开销相对可控
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。