原生主动感知推理赋能多模态理解


基本信息


导语

视频理解的计算效率一直是长视频处理中的核心挑战。传统被动观看方法对每一帧均匀处理,导致计算成本随视频时长线性增长。OmniAgent提出将视频理解建模为基于POMDP的主动感知过程,通过迭代的观察-思考-行动循环,将音频-视觉线索蒸馏为持久的文本记忆,从而将推理复杂度与原始视频时长解耦。该方法采用Agentic-SFT和Agentic RL with TAURA两项技术提升训练质量,可能为多模态理解和长视频分析提供新的解决思路。


摘要

研究背景

传统的视频理解模型大多采用被动“全帧观看”方式,对每一帧均匀处理,导致计算成本随视频时长线性增长。虽然已有交互式框架尝试在查询时进行选择性采样,但仍需全局预扫描,上下文开销仍随视频长度增加而上升。

OmniAgent 思路

OmniAgent 是首个原生全模态智能体,将视频理解建模为基于 POMDP 的迭代 Observation‑Thought‑Action(观察‑思考‑行动)循环。它通过按需行动把音频‑视觉线索蒸馏为持久的文本记忆,从而将推理复杂度与原始视频时长解耦。推理过程中,模型仅在必要时访问视音频信息,大幅降低资源消耗。

训练与强化

为实现上述主动感知,本文提出两大技术:① Agentic Supervised Fine‑Tuning(Agentic‑SFT),采用 Best‑of‑N 轨迹合成并在两阶段质量控制下提升样本质量;② Agentic Reinforcement Learning with TAURA(Turn‑aware Adaptive Uncertainty Rescaled Advantage),利用回合级熵引导信用分配,优先奖励关键发现回合。实验表明,这些策略显著提升了模型在长视频中的探索效率。

实验表现

在 VideoMME、LVBench 等十个基准上,OmniAgent 在开源模型中取得最先进成绩。尤其在 LVBench 上,仅 7B 参数的 OmniAgent(50.5%)超越了十倍规模的 Qwen2.5‑VL‑72B(47.3%)。此外,模型展现出正向测试时扩展性:随着推理回合数增加,性能持续提升,验证了主动感知的有效性。


技术分析

研究背景

  • 已有方法局限:传统视频理解采用被动全帧观看,对每一帧均匀计算,导致计算成本随视频时长线性增长。交互式框架虽尝试选择性采样,但仍需全局预扫描,上下文开销随长度上升。
  • 研究缺口:缺乏一种能够在推理时主动决定何时访问何种模态信息、且计算复杂度与视频时长解耦的原生多模态智能体。

核心方法与理论基础

POMDP 框架下的主动感知
  • 将视频理解为部分可观测马尔可夫决策过程(POMDP),每轮迭代执行 Observation‑Thought‑Action(观察‑思考‑行动)循环。
  • Observation:模型按需从视频中抽取音频或视觉特征,而非全帧扫描。
  • Thought:基于已有的文本记忆进行推理,形成下一步行动计划。
  • Action:决定是否请求额外模态信息或输出答案。
记忆蒸馏与复杂度解耦
  • 将音频‑视觉线索蒸馏为持久的文本记忆,在后续推理中直接使用,避免重复访问原始视音频。
  • 推理成本仅取决于关键决策点的数量,而非视频帧数,实现计算复杂度与原始视频长度的解耦。

关键技术细节

Agentic‑SFT(Agentic Supervised Fine‑Tuning)
  • Best‑of‑N 轨迹合成:在每轮迭代生成 N 条候选轨迹,选取质量最高的轨迹进行微调。
  • 两阶段质量控制:第一阶段过滤明显错误,第二阶段依据多模态一致性评分进一步筛选。
Agentic RL with TAURA(Turn‑aware Adaptive Uncertainty Rescaled Advantage)
  • 回合级熵引导信用分配:在每回合引入熵项,奖励模型在不确定时主动探索。
  • 不确定性重缩放优势:依据当前回合的不确定性动态调整优势函数,突出关键发现回合的奖励。

实验与结果

  • VideoMME、LVBench 等十个基准上评估,OmniAgent(7B)在开源模型中取得 SOTA
  • LVBench 上,OmniAgent 7B(50.5%)超越十倍规模的 Qwen2.5‑VL‑72B(47.3%),显示高参数效率。
  • 正向测试时扩展性:随推理回合数增加,性能持续提升,验证了主动感知的有效性。

应用前景与启示

  • 长视频问答、实时监控、内容审核等场景中,可显著降低延迟与算力需求。
  • 通过按需访问视音频,为边缘设备部署提供可行性。
  • 为多模态大模型的 推理时计算调度 提供新思路,强调“智能体化”而非仅是“模型放大”。

相关工作对比

工作核心策略模态访问方式计算复杂度备注
传统全帧模型均匀采样全帧处理O(N) 与帧数线性高资源消耗
交互式框架(如 Faster-RCNN+Transformer)选择性采样需要全局预扫描仍有 O(N) 开销上下文仍随长度增长
OmniAgentPOMDP+主动感知按需访问O(K) 与决策次数有关首次实现计算与时长解耦

关键假设、潜在失效条件与可证伪方式

关键假设
  1. POMDP 能充分建模视频中的不确定性。若视频信息高度局部化且难以用状态转移描述,模型可能失效。
  2. 文本记忆能够完整捕获关键视听线索。如果关键信息高度依赖原始感知(如细微表情),蒸馏过程可能丢失。
  3. 回合级熵奖励能够有效激励关键探索。若熵调节不当,可能导致模型过度探索或停滞。
潜在失效条件
  • 噪声或缺失模态:在音频缺失或视觉模糊的情况下,Observation‑Action 循环可能无法获得有效信息,导致推理停滞。
  • 长程依赖冲突:当关键信息分布在极远帧,模型可能因记忆容量限制而遗忘,导致错误答案。
  • 推理回合预算不足:在资源受限环境下,模型可能因提前结束推理而遗漏关键帧。
可证伪方式
  • 实验验证:在相同基准下,对比不同帧访问预算的 OmniAgent 性能,若性能随预算显著下降,则假设成立。
  • 信息缺失实验:随机遮蔽音频或视觉流,观察模型是否能通过剩余模态完成同等水平的任务,若失败则表明记忆蒸馏存在信息瓶颈。
  • 记忆容量测试:人为限制文本记忆长度(如固定 token 数量),观察长视频任务准确率是否下降,以检验记忆完整度假设。

:文中提及的实验结果、性能数据均来源于摘要及公开技术报告;关于假设与失效条件的分析属于基于方法的合理推断。


学习要点

  • 将感知过程建模为可学习的推理任务,实现感知与推理的深度耦合(最重要)
  • 通过原生主动感知机制,模型能够自适应地选择最相关的模态进行信息获取,提高多模态理解效率
  • 提出了统一的跨模态推理框架,使视觉、语言、音频等模态在同一架构中协同学习
  • 在视觉问答、跨模态检索等任务上显著超越传统固定特征拼接方法,验证了主动感知的优势
  • 动态调度感知资源降低计算开销,实现更高效的多模态推理
  • 实验表明原生主动感知能够捕捉细粒度跨模态语义,提高模型的可解释性

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章