原生主动感知推理赋能多模态理解
基本信息
- ArXiv ID: 2606.19341v1
- 分类: cs.CV
- 作者: Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma
- PDF: https://arxiv.org/pdf/2606.19341v1.pdf
- 链接: http://arxiv.org/abs/2606.19341v1
导语
视频理解的计算效率一直是长视频处理中的核心挑战。传统被动观看方法对每一帧均匀处理,导致计算成本随视频时长线性增长。OmniAgent提出将视频理解建模为基于POMDP的主动感知过程,通过迭代的观察-思考-行动循环,将音频-视觉线索蒸馏为持久的文本记忆,从而将推理复杂度与原始视频时长解耦。该方法采用Agentic-SFT和Agentic RL with TAURA两项技术提升训练质量,可能为多模态理解和长视频分析提供新的解决思路。
摘要
研究背景
传统的视频理解模型大多采用被动“全帧观看”方式,对每一帧均匀处理,导致计算成本随视频时长线性增长。虽然已有交互式框架尝试在查询时进行选择性采样,但仍需全局预扫描,上下文开销仍随视频长度增加而上升。
OmniAgent 思路
OmniAgent 是首个原生全模态智能体,将视频理解建模为基于 POMDP 的迭代 Observation‑Thought‑Action(观察‑思考‑行动)循环。它通过按需行动把音频‑视觉线索蒸馏为持久的文本记忆,从而将推理复杂度与原始视频时长解耦。推理过程中,模型仅在必要时访问视音频信息,大幅降低资源消耗。
训练与强化
为实现上述主动感知,本文提出两大技术:① Agentic Supervised Fine‑Tuning(Agentic‑SFT),采用 Best‑of‑N 轨迹合成并在两阶段质量控制下提升样本质量;② Agentic Reinforcement Learning with TAURA(Turn‑aware Adaptive Uncertainty Rescaled Advantage),利用回合级熵引导信用分配,优先奖励关键发现回合。实验表明,这些策略显著提升了模型在长视频中的探索效率。
实验表现
在 VideoMME、LVBench 等十个基准上,OmniAgent 在开源模型中取得最先进成绩。尤其在 LVBench 上,仅 7B 参数的 OmniAgent(50.5%)超越了十倍规模的 Qwen2.5‑VL‑72B(47.3%)。此外,模型展现出正向测试时扩展性:随着推理回合数增加,性能持续提升,验证了主动感知的有效性。
技术分析
研究背景
- 已有方法局限:传统视频理解采用被动全帧观看,对每一帧均匀计算,导致计算成本随视频时长线性增长。交互式框架虽尝试选择性采样,但仍需全局预扫描,上下文开销随长度上升。
- 研究缺口:缺乏一种能够在推理时主动决定何时访问何种模态信息、且计算复杂度与视频时长解耦的原生多模态智能体。
核心方法与理论基础
POMDP 框架下的主动感知
- 将视频理解为部分可观测马尔可夫决策过程(POMDP),每轮迭代执行 Observation‑Thought‑Action(观察‑思考‑行动)循环。
- Observation:模型按需从视频中抽取音频或视觉特征,而非全帧扫描。
- Thought:基于已有的文本记忆进行推理,形成下一步行动计划。
- Action:决定是否请求额外模态信息或输出答案。
记忆蒸馏与复杂度解耦
- 将音频‑视觉线索蒸馏为持久的文本记忆,在后续推理中直接使用,避免重复访问原始视音频。
- 推理成本仅取决于关键决策点的数量,而非视频帧数,实现计算复杂度与原始视频长度的解耦。
关键技术细节
Agentic‑SFT(Agentic Supervised Fine‑Tuning)
- Best‑of‑N 轨迹合成:在每轮迭代生成 N 条候选轨迹,选取质量最高的轨迹进行微调。
- 两阶段质量控制:第一阶段过滤明显错误,第二阶段依据多模态一致性评分进一步筛选。
Agentic RL with TAURA(Turn‑aware Adaptive Uncertainty Rescaled Advantage)
- 回合级熵引导信用分配:在每回合引入熵项,奖励模型在不确定时主动探索。
- 不确定性重缩放优势:依据当前回合的不确定性动态调整优势函数,突出关键发现回合的奖励。
实验与结果
- 在 VideoMME、LVBench 等十个基准上评估,OmniAgent(7B)在开源模型中取得 SOTA。
- 在 LVBench 上,OmniAgent 7B(50.5%)超越十倍规模的 Qwen2.5‑VL‑72B(47.3%),显示高参数效率。
- 正向测试时扩展性:随推理回合数增加,性能持续提升,验证了主动感知的有效性。
应用前景与启示
- 长视频问答、实时监控、内容审核等场景中,可显著降低延迟与算力需求。
- 通过按需访问视音频,为边缘设备部署提供可行性。
- 为多模态大模型的 推理时计算调度 提供新思路,强调“智能体化”而非仅是“模型放大”。
相关工作对比
| 工作 | 核心策略 | 模态访问方式 | 计算复杂度 | 备注 |
|---|---|---|---|---|
| 传统全帧模型 | 均匀采样 | 全帧处理 | O(N) 与帧数线性 | 高资源消耗 |
| 交互式框架(如 Faster-RCNN+Transformer) | 选择性采样 | 需要全局预扫描 | 仍有 O(N) 开销 | 上下文仍随长度增长 |
| OmniAgent | POMDP+主动感知 | 按需访问 | O(K) 与决策次数有关 | 首次实现计算与时长解耦 |
关键假设、潜在失效条件与可证伪方式
关键假设
- POMDP 能充分建模视频中的不确定性。若视频信息高度局部化且难以用状态转移描述,模型可能失效。
- 文本记忆能够完整捕获关键视听线索。如果关键信息高度依赖原始感知(如细微表情),蒸馏过程可能丢失。
- 回合级熵奖励能够有效激励关键探索。若熵调节不当,可能导致模型过度探索或停滞。
潜在失效条件
- 噪声或缺失模态:在音频缺失或视觉模糊的情况下,Observation‑Action 循环可能无法获得有效信息,导致推理停滞。
- 长程依赖冲突:当关键信息分布在极远帧,模型可能因记忆容量限制而遗忘,导致错误答案。
- 推理回合预算不足:在资源受限环境下,模型可能因提前结束推理而遗漏关键帧。
可证伪方式
- 实验验证:在相同基准下,对比不同帧访问预算的 OmniAgent 性能,若性能随预算显著下降,则假设成立。
- 信息缺失实验:随机遮蔽音频或视觉流,观察模型是否能通过剩余模态完成同等水平的任务,若失败则表明记忆蒸馏存在信息瓶颈。
- 记忆容量测试:人为限制文本记忆长度(如固定 token 数量),观察长视频任务准确率是否下降,以检验记忆完整度假设。
注:文中提及的实验结果、性能数据均来源于摘要及公开技术报告;关于假设与失效条件的分析属于基于方法的合理推断。
学习要点
- 将感知过程建模为可学习的推理任务,实现感知与推理的深度耦合(最重要)
- 通过原生主动感知机制,模型能够自适应地选择最相关的模态进行信息获取,提高多模态理解效率
- 提出了统一的跨模态推理框架,使视觉、语言、音频等模态在同一架构中协同学习
- 在视觉问答、跨模态检索等任务上显著超越传统固定特征拼接方法,验证了主动感知的优势
- 动态调度感知资源降低计算开销,实现更高效的多模态推理
- 实验表明原生主动感知能够捕捉细粒度跨模态语义,提高模型的可解释性
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
相关文章
- 原生主动感知推理实现多模态理解
- 实战复盘:解锁GPT-OSS智能体强化训练!🚀
- DynaWeb:基于模型的强化学习网页智能体框架
- DynaWeb:基于模型的强化学习网页智能体
- 智能体推理与工具使用的竞争:量化干扰与解调优 本文由 AI Stack 自动生成,深度解读学术研究。