多镜头视频生成实体一致性评估框架

基本信息

ArXiv ID: 2605.15199v1
分类: cs.CV
作者: Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez
PDF: https://arxiv.org/pdf/2605.15199v1.pdf
链接: http://arxiv.org/abs/2605.15199v1

导语

多镜头视频生成中，跨镜头实体一致性是关键难题。现有评测缺乏对多镜头连贯性的系统考察。EntityBench提出2491个镜头、140集的基准测试，从三个维度评估并设计“忠实门控”机制防止评分稀释。EntityMem通过记忆库存储视觉参考，在角色外观一致性上取得显著提升。该工作为跨镜头视频生成的标准化评估提供了新的思路，对长视频叙事和多镜头内容创作具有应用价值。

摘要

背景与挑战

多镜头视频生成要求在多个镜头间保持角色、物体、场景的一致性，形成连贯的视觉叙事。当前评测往往使用独立生成的提示集合，覆盖实体有限、指标单一，难以实现跨镜头一致性的标准化对比。

基准设计

规模：共 140 集、2 491 个镜头，分为易、中、难三档；最长可达 50 镜头、13 个跨镜头角色、8 处跨镜头场景、22 件跨镜头物体，实体回顾间隔最高达 48 镜头。
标注：每个镜头配备显式的实体调度表，追踪角色、物体、位置的同时出现情况。
评估体系：三支柱评估套件分别衡量镜头内部质量、提示跟随度以及跨镜头一致性；采用“忠实门控”机制，只将准确出现的实体计入跨镜头得分，确保评价不被错误出现稀释。

基线方法

提出 EntityMem，一种记忆增强的生成系统：在生成前为每个实体在持久化记忆库中存储经核验的视觉参考，生成时直接调用对应记忆，从而提升角色外观的一致性。

实验结果

在现有方法中，跨镜头实体一致性随回顾距离迅速下降。EntityMem 在角色外观忠实度上取得最高 Cohen’s d = +2.33，且在实体出现率方面领先。实验验证了显式实体记忆对维持长期一致性的显著优势。

资源

代码与数据已开源：https://github.com/Catherine-R-He/EntityBench/

技术分析

研究背景

背景与挑战

多镜头视频生成需在多个镜头间保持角色、物体、场景的一致性，以形成连贯的视觉叙事。当前评测大多采用独立生成的提示集合，覆盖实体有限且指标单一，难以标准化跨镜头一致性评估。该段内容直接来源于摘要第一段。

实体一致性难点

在长序列中，角色外观随时间变化、视角切换或光照变化容易漂移；物体可能被遮挡或重新出现；场景背景亦可能切换。这些因素导致跨镜头一致性快速衰减。该分析为推断，基于视频生成中常见的挑战。

核心方法

EntityBench 基准设计

规模：140 集、共 2 491 镜头，分为易、中、难三档；最长 50 镜头、13 个跨镜头角色、8 处跨镜头场景、22 件跨镜头物体，实体回顾间隔最高 48 镜头。
标注：每个镜头配备显式的实体调度表，记录角色、物体、位置的共现信息。
评估体系：三支柱评估套件分别衡量镜头内部质量、提示跟随度以及跨镜头一致性；采用“忠实门控”机制，仅将准确出现的实体计入跨镜头得分。

基线方法：EntityMem

设计：在生成前为每个实体在持久化记忆库中存储经核验的视觉参考，生成时直接检索对应记忆，以提升角色外观一致性。
理论基础：记忆增强神经网络（Memory‑augmented NN）和键值记忆检索机制，类似于 Memory Networks。核心假设是实体视觉原型可被可靠记忆并在后续镜头中准确召回。

实验与结果

实验设置

对现有方法在 EntityBench 上进行评测，重点关注跨镜头实体一致性与回顾距离的关系。

主要发现

跨镜头实体一致性随回顾距离迅速下降，尤其在回顾间隔超过 20 镜头时衰减显著。
EntityMem 在角色外观忠实度上取得最高 Cohen’s d = +2.33，并在实体出现率上领先。
“忠实门控”有效防止错误出现的实体稀释跨镜头得分。

上述实验结果来源于摘要，结论的显著性基于统计效应值推断。

应用前景

为长篇故事类视频（如影视预告、虚拟导演）提供标准化的质量评估平台。
可作为生成模型的训练目标，通过显式实体记忆提升一致性。
适合用于跨领域迁移，如机器人视觉叙事生成、游戏关卡脚本创作。

研究启示

显式记忆机制是解决长期一致性的关键路径之一。
细粒度的实体调度标注能帮助模型学习跨镜头关联。
未来工作可探索动态记忆更新、跨模态记忆融合以及在开放域场景下的鲁棒性。

关键假设与潜在失效

关键假设

实体的视觉原型能够在记忆库中被可靠存储与检索。
实体调度表准确反映真实出现情况。
忠实门控的阈值设定足以区分正确与错误出现。

潜在失效条件

记忆库中的原型因光照、姿态或遮挡产生偏差时，检索会产生错误匹配。
当镜头间实体身份出现歧义（如同一角色不同服装），记忆库未区分导致外观混淆。
忠实门控若对噪声过于敏感，可能导致跨镜头得分被错误压低。

可证伪方式

通过人为注入记忆错误（如替换原型），观察跨镜头一致性指标的显著下降。
在不同场景或跨域数据上重新评估，检验记忆机制的泛化能力。

总结

该文提出首个面向多镜头、跨实体一致性的标准化基准 EntityBench，并通过 EntityMem 验证显式记忆对提升长期一致性的有效性。基准的细粒度标注与三支柱评估体系为后续研究提供了可复现的实验平台。

学习要点

EntityBench 提供首个针对长时多镜头视频的实体一致性评测基准，包含多样化场景和标注。
提出多维度实体一致性度量（外观、姿态、空间位置），实现细粒度评估。
对比当前主流视频生成模型（如扩散模型、Transformer）在长序列和多镜头下的表现，指出普遍存在实体漂移问题。
实验表明加入实体级身份向量和跨镜头注意力机制可显著降低实体不一致率，提升视觉连贯性。
通过用户研究验证实体一致性提升对叙事流畅度和观看体验的积极影响。
开放源码、数据集和评测脚本，便于复现并推动实体一致性研究。

引用

ArXiv: http://arxiv.org/abs/2605.15199v1
PDF: https://arxiv.org/pdf/2605.15199v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文
标签：视频生成 / 实体一致性 / 多镜头 / 基准评估 / 跨镜头一致性 / 记忆增强 / 开源 / EntityMem
场景： Web应用开发

EntityBench：长视频多镜头实体一致性评估
EntityBench：长时多镜头视频生成实体一致性评测
长距离多镜头视频生成的实体一致性基准
Qwen Image 2 与 Seedance 2：中国生成式媒体进展
VideoGPA：提取几何先验实现三维一致视频生成 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

多镜头视频生成实体一致性评估框架