原生主动感知推理赋能多模态理解

基本信息

ArXiv ID: 2606.19341v1
分类: cs.CV
作者: Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma
PDF: https://arxiv.org/pdf/2606.19341v1.pdf
链接: http://arxiv.org/abs/2606.19341v1

导语

视频理解的计算效率一直是长视频处理中的核心挑战。传统被动观看方法对每一帧均匀处理，导致计算成本随视频时长线性增长。OmniAgent提出将视频理解建模为基于POMDP的主动感知过程，通过迭代的观察-思考-行动循环，将音频-视觉线索蒸馏为持久的文本记忆，从而将推理复杂度与原始视频时长解耦。该方法采用Agentic-SFT和Agentic RL with TAURA两项技术提升训练质量，可能为多模态理解和长视频分析提供新的解决思路。

摘要

研究背景

传统的视频理解模型大多采用被动“全帧观看”方式，对每一帧均匀处理，导致计算成本随视频时长线性增长。虽然已有交互式框架尝试在查询时进行选择性采样，但仍需全局预扫描，上下文开销仍随视频长度增加而上升。

OmniAgent 思路

OmniAgent 是首个原生全模态智能体，将视频理解建模为基于 POMDP 的迭代 Observation‑Thought‑Action（观察‑思考‑行动）循环。它通过按需行动把音频‑视觉线索蒸馏为持久的文本记忆，从而将推理复杂度与原始视频时长解耦。推理过程中，模型仅在必要时访问视音频信息，大幅降低资源消耗。

训练与强化

为实现上述主动感知，本文提出两大技术：① Agentic Supervised Fine‑Tuning（Agentic‑SFT），采用 Best‑of‑N 轨迹合成并在两阶段质量控制下提升样本质量；② Agentic Reinforcement Learning with TAURA（Turn‑aware Adaptive Uncertainty Rescaled Advantage），利用回合级熵引导信用分配，优先奖励关键发现回合。实验表明，这些策略显著提升了模型在长视频中的探索效率。

实验表现

在 VideoMME、LVBench 等十个基准上，OmniAgent 在开源模型中取得最先进成绩。尤其在 LVBench 上，仅 7B 参数的 OmniAgent（50.5%）超越了十倍规模的 Qwen2.5‑VL‑72B（47.3%）。此外，模型展现出正向测试时扩展性：随着推理回合数增加，性能持续提升，验证了主动感知的有效性。

技术分析

研究背景

已有方法局限：传统视频理解采用被动全帧观看，对每一帧均匀计算，导致计算成本随视频时长线性增长。交互式框架虽尝试选择性采样，但仍需全局预扫描，上下文开销随长度上升。
研究缺口：缺乏一种能够在推理时主动决定何时访问何种模态信息、且计算复杂度与视频时长解耦的原生多模态智能体。

核心方法与理论基础

POMDP 框架下的主动感知

将视频理解为部分可观测马尔可夫决策过程（POMDP），每轮迭代执行 Observation‑Thought‑Action（观察‑思考‑行动）循环。
Observation：模型按需从视频中抽取音频或视觉特征，而非全帧扫描。
Thought：基于已有的文本记忆进行推理，形成下一步行动计划。
Action：决定是否请求额外模态信息或输出答案。

记忆蒸馏与复杂度解耦

将音频‑视觉线索蒸馏为持久的文本记忆，在后续推理中直接使用，避免重复访问原始视音频。
推理成本仅取决于关键决策点的数量，而非视频帧数，实现计算复杂度与原始视频长度的解耦。

关键技术细节

Agentic‑SFT（Agentic Supervised Fine‑Tuning）

Best‑of‑N 轨迹合成：在每轮迭代生成 N 条候选轨迹，选取质量最高的轨迹进行微调。
两阶段质量控制：第一阶段过滤明显错误，第二阶段依据多模态一致性评分进一步筛选。

Agentic RL with TAURA（Turn‑aware Adaptive Uncertainty Rescaled Advantage）

回合级熵引导信用分配：在每回合引入熵项，奖励模型在不确定时主动探索。
不确定性重缩放优势：依据当前回合的不确定性动态调整优势函数，突出关键发现回合的奖励。

实验与结果

在 VideoMME、LVBench 等十个基准上评估，OmniAgent（7B）在开源模型中取得 SOTA。
在 LVBench 上，OmniAgent 7B（50.5%）超越十倍规模的 Qwen2.5‑VL‑72B（47.3%），显示高参数效率。
正向测试时扩展性：随推理回合数增加，性能持续提升，验证了主动感知的有效性。

应用前景与启示

长视频问答、实时监控、内容审核等场景中，可显著降低延迟与算力需求。
通过按需访问视音频，为边缘设备部署提供可行性。
为多模态大模型的 推理时计算调度 提供新思路，强调“智能体化”而非仅是“模型放大”。

工作	核心策略	模态访问方式	计算复杂度	备注
传统全帧模型	均匀采样	全帧处理	O(N) 与帧数线性	高资源消耗
交互式框架（如 Faster-RCNN+Transformer）	选择性采样	需要全局预扫描	仍有 O(N) 开销	上下文仍随长度增长
OmniAgent	POMDP+主动感知	按需访问	O(K) 与决策次数有关	首次实现计算与时长解耦

关键假设、潜在失效条件与可证伪方式

关键假设

POMDP 能充分建模视频中的不确定性。若视频信息高度局部化且难以用状态转移描述，模型可能失效。
文本记忆能够完整捕获关键视听线索。如果关键信息高度依赖原始感知（如细微表情），蒸馏过程可能丢失。
回合级熵奖励能够有效激励关键探索。若熵调节不当，可能导致模型过度探索或停滞。

潜在失效条件

噪声或缺失模态：在音频缺失或视觉模糊的情况下，Observation‑Action 循环可能无法获得有效信息，导致推理停滞。
长程依赖冲突：当关键信息分布在极远帧，模型可能因记忆容量限制而遗忘，导致错误答案。
推理回合预算不足：在资源受限环境下，模型可能因提前结束推理而遗漏关键帧。

可证伪方式

实验验证：在相同基准下，对比不同帧访问预算的 OmniAgent 性能，若性能随预算显著下降，则假设成立。
信息缺失实验：随机遮蔽音频或视觉流，观察模型是否能通过剩余模态完成同等水平的任务，若失败则表明记忆蒸馏存在信息瓶颈。
记忆容量测试：人为限制文本记忆长度（如固定 token 数量），观察长视频任务准确率是否下降，以检验记忆完整度假设。

注：文中提及的实验结果、性能数据均来源于摘要及公开技术报告；关于假设与失效条件的分析属于基于方法的合理推断。

学习要点

将感知过程建模为可学习的推理任务，实现感知与推理的深度耦合（最重要）
通过原生主动感知机制，模型能够自适应地选择最相关的模态进行信息获取，提高多模态理解效率
提出了统一的跨模态推理框架，使视觉、语言、音频等模态在同一架构中协同学习
在视觉问答、跨模态检索等任务上显著超越传统固定特征拼接方法，验证了主动感知的优势
动态调度感知资源降低计算开销，实现更高效的多模态推理
实验表明原生主动感知能够捕捉细粒度跨模态语义，提高模型的可解释性

引用

ArXiv: http://arxiv.org/abs/2606.19341v1
PDF: https://arxiv.org/pdf/2606.19341v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签：多模态理解 / 主动感知 / 视频理解 / OmniAgent / POMDP / 智能体 / 强化学习 / 开源模型
场景： Web应用开发

原生主动感知推理实现多模态理解
实战复盘：解锁GPT-OSS智能体强化训练！🚀
DynaWeb：基于模型的强化学习网页智能体框架
DynaWeb：基于模型的强化学习网页智能体
智能体推理与工具使用的竞争：量化干扰与解调优 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

原生主动感知推理赋能多模态理解