ActCam：视频生成中的零样本相机与3D运动控制

基本信息

ArXiv ID: 2605.06667v1
分类: cs.CV
作者: Omar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque, Ulysse Mizrahi
PDF: https://arxiv.org/pdf/2605.06667v1.pdf
链接: http://arxiv.org/abs/2605.06667v1

导语

ActCam聚焦于视频生成中的相机与3D运动联合控制难题，提出一种零样本方法实现无需额外训练的精准控制。该研究在技术层面的突破体现在将相机轨迹与物体运动解耦并协同建模，可能为影视预演、虚拟现实内容创作等场景提供新的生成范式。然而实验细节与对比方法等信息无法从摘要确认，其实际效果仍待完整论文发表后进一步评估。该方向有望推动生成式AI在空间感知类视频应用中的发展。

摘要

背景

视频生成在艺术创作中需要同时控制演员动作和摄像机轨迹，实现细粒度的表演与镜头调度。

方法

ActCam 是一种零样本方法，基于任意预训练的图转视频扩散模型（接受深度和姿态条件）。给定驱动视频和目标相机运动，ActCam 生成逐帧几何一致的姿态与稀疏深度条件。采用两阶段调节策略：去噪早期同时利用姿态和稀疏深度约束场景结构，随后去除深度，仅用姿态引导细化高频细节，避免过度约束。

实验与评估

在多种基准数据集上测试，涵盖不同角色动作和大视角变化。结果表明，相比仅姿态控制及其他姿态‑相机协同方法，ActCam 在相机吻合度和动作保真度上显著提升，且在大视角变化时更受人类评价偏好。

结论

通过细致的相机一致调节和分阶段引导，无需额外训练即可实现强联合相机与动作控制，为艺术视频生成提供了灵活高效的解决方案。项目页面：https://elkhomar.github.io/actcam/

方法创新性评估

ActCam的核心贡献在于实现零样本条件下相机轨迹与角色动作的联合控制，这一目标在视频生成领域具有实际应用价值。论文声称其两阶段调节策略能够有效避免过度约束，该设计思路具有一定合理性，因为早期利用稀疏深度约束场景结构可以提供几何先验，后期移除深度约束则防止细节损失。然而，这一策略的有效性高度依赖于预训练模型本身对深度和姿态条件的接受程度，这构成一个关键假设。当预训练模型对这些条件的响应不佳时，两阶段策略可能难以发挥预期效果。

证据支撑分析

论文在多个基准数据集上测试，涵盖不同角色动作和大视角变化场景，实验结果表明ActCam在相机吻合度和动作保真度上显著优于仅姿态控制及其他协同方法。从现有描述看，证据来源较为可靠，但缺乏具体的定量指标和对比数值支撑。此外，数据集的选择范围、评估标准的客观性以及是否存在选择性报告等问题仍需进一步审视。由于摘要未提供完整的实验细节，无法完全验证这些声称的普适性。

潜在失效条件与局限

该方法的潜在失效条件值得注意。首先，对于极端相机运动或快速动作切换的场景，稀疏深度约束可能不足以维持时序一致性，导致运动模糊或几何畸变。其次，零样本设定虽然提升了通用性，但牺牲了对特定领域（如医学影像、工业检测）的适配能力。第三，两阶段策略中深度约束的去除时机若把握不当，可能引入时序抖动。验证这些问题可通过在更具挑战性的长视频生成任务中测试，观察相机与动作的协同稳定性。

推断与展望

从技术路径推断，ActCam的零样本特性使其具备快速部署优势，尤其适合需要灵活切换相机和动作控制的内容创作场景。若后续能够提供完整的开源实现和标准化基准对比其实验结果，可进一步验证其声称的可推广性。总体而言，该工作为视频生成中的多模态控制提供了一种有潜力的解决思路，但在复杂场景下的鲁棒性仍需更充分的实验验证。

技术分析

研究背景与问题定义

视频生成技术在艺术创作领域正扮演着日益重要的角色。创作者往往需要在生成视频时同时控制演员的动作表现和摄像机的运动轨迹，以实现精细的表演指导和专业的镜头调度。这种联合控制需求在电影预览、动画制作和虚拟制片等场景中尤为突出。传统的视频生成方法要么仅支持单一维度的控制，要么需要针对特定任务进行模型微调，限制了其在多样化创作需求中的灵活性和适用性。

核心技术方法

ActCam 提出了一种零样本（Zero-Shot）联合控制框架，其核心创新在于能够在不改变预训练模型参数的前提下，实现相机运动与角色动作的协同控制。该方法基于支持深度图和姿态条件输入的图像到视频扩散模型，通过两阶段调节策略完成控制信号的注入与融合。在第一阶段（去噪早期），模型同时接收姿态序列和稀疏深度图作为条件约束，利用姿态信息编码人体运动模式，借助稀疏深度建立场景三维几何结构的初步估计。在第二阶段（去噪后期），逐步移除深度条件的引导，仅保留姿态信息来细化高频细节和局部纹理，这一设计有效避免了深度约束对最终画面自由度的过度限制，确保生成结果既保持几何一致性又不失视觉真实感。

技术实现细节

从方法论角度分析，ActCam 的设计遵循了渐进式条件退火的思想，通过时序上的条件权重调整实现控制粒度的动态变化。稀疏深度条件的选择体现了计算效率与结构信息保留的平衡——相比稠密深度，稀疏采样大幅降低了条件计算的复杂度，同时保留了足够的几何约束能力。该方法假设驱动视频提供的人物姿态估计足够准确，且预训练模型的潜空间能够有效分离姿态特征与外观特征，这是实现零样本迁移的技术前提。

实验验证与性能评估

研究团队在多个基准数据集上进行了系统性评测，数据集涵盖了不同体型、穿着和动作类型的角色，以及包含大角度相机旋转的复杂镜头运动场景。评估指标重点关注相机轨迹吻合度和动作保真度两个维度，实验结果表明 ActCam 在两项指标上均显著优于仅依赖姿态控制的基础方案，以及其他姿态-相机协同控制方法。特别值得注意的是，在涉及大视角变化的测试子集上，人类主观评价结果显示 ActCam 生成的视频更受评价者偏好，说明其在处理大幅度相机运动时的优势更为明显。

应用前景与价值

该技术的零样本特性使其具有广泛的适用场景。对于内容创作者而言，无需额外训练即可将任意预训练模型适配到新的相机运动模式中，极大降低了创作门槛和计算成本。在虚拟制片工作流中，ActCam 有望实现实时的摄像机路径预览与演员动作协同，帮助导演快速迭代创意方案。此外，其模块化设计思路也为后续集成更复杂的多模态控制信号提供了扩展空间。

研究局限与潜在失效条件

该方法的有效性建立在若干假设之上，当这些假设不成立时可能出现性能退化。首先，驱动视频的姿态估计精度直接影响控制信号的可靠性，若输入视频存在遮挡、模糊或姿态估计模型未能覆盖的异常姿态，控制效果将受到显著影响。其次，该方法假设预训练扩散模型具备足够的生成能力和条件解耦能力，若模型本身对姿态或深度条件的响应较弱，则两阶段调节策略难以发挥预期效果。在相机运动方面，若目标相机轨迹与训练数据中的运动分布差异过大，或涉及极端焦距变化，生成结果的几何一致性可能难以维持。此外，该方法尚未在多人场景和复杂交互动作中验证其鲁棒性，多目标协同控制可能带来额外的技术挑战。

学习要点

要点一（最重要）提出一种零样本的联合相机视角和三维运动控制框架，无需对模型进行微调即可直接控制视频生成。
要点二通过在扩散模型的噪声空间引入相机参数和运动向量，实现视角与物体运动的解耦与精确控制。
要点三利用3D感知特征（如深度图或点云）确保相机运动和物体运动在空间上的一致性，显著提升生成视频的真实感。
要点四实验表明，ActCam在相机轨迹和运动轨迹的准确性上大幅超越传统基于关键帧或光流的控制方法。
要点五该方法具备良好的通用性，可与多种主流视频生成模型无缝集成，仅通过改变输入条件即可实现新场景的控制。
要点六通过时序一致性和光流平滑度评估，证明联合控制能够显著提升视频的时间连贯性，降低闪烁和跳帧现象。

引用

ArXiv: http://arxiv.org/abs/2605.06667v1
PDF: https://arxiv.org/pdf/2605.06667v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签：视频生成 / 零样本学习 / 相机控制 / 3D运动控制 / 计算机视觉 / 生成式AI / 动作控制 / 视频模型
场景： AI/ML项目

Waymo 世界模型：利用生成式世界模拟提升自动驾驶决策
超越VLM奖励：扩散原生潜在奖励建模
V2M-Zero：零样本时序对齐视频配乐生成
潜在色彩子空间：高维混沌中的涌现秩序
🤖抽屉打不开？揭秘零样本组合动作识别中的“物体捷径”！ 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

ActCam：视频生成中的零样本相机与3D运动控制