EntityBench：长时多镜头视频生成实体一致性评测

基本信息

ArXiv ID: 2605.15199v1
分类: cs.CV
作者: Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez
PDF: https://arxiv.org/pdf/2605.15199v1.pdf
链接: http://arxiv.org/abs/2605.15199v1

导语

多镜头视频生成在长序列中保持实体一致性是当前研究的重要挑战。为解决现有评估缺乏对实体复现细致覆盖的问题，研究者提出了EntityBench基准，该基准基于真实叙事媒体构建，涵盖140集共2491个镜头，并按难度分为三级，为评估模型在跨镜头实体保持方面的能力提供了统一标准。该工作提出的三支柱评估体系以及基线方法EntityMem，有望为后续多镜头视频生成研究提供系统性基准与参考。

摘要

关键挑战

多镜头视频生成需在长序列中保持角色、物体、场景等实体的跨镜头一致性；现有评估多使用独立提示，缺乏对实体复现的细致覆盖和统一的度量标准。

EntityBench 基准

源自真实叙事媒体，包含 140 集、共 2,491 镜头。
为每个镜头提供实体调度表，标注角色、物体、位置的出现与消失。
按难度划分为三级：
- Easy：≤10 镜头，少量实体。
- Medium：≤30 镜头，13 个跨镜头角色、8 个跨镜头位置、22 个跨镜头物体。
- Hard：≤50 镜头，实体间隔最远达 48 镜头。
数据与评估脚本开源，链接见文末。

评估体系

三支柱：

镜头内质量：单镜头画面清晰度、动作连贯性。
提示对齐：生成镜头与文本描述的匹配度。
跨镜头一致性：使用“忠诚门”仅将实体外观准确的镜头计入一致性得分，防止错误累计。

基线方法：EntityMem

在生成前，为每个角色、物体、位置分别建立持久视觉记忆库；生成时检索记忆库并约束外观，以提升跨镜头一致性。

实验发现

随实体重现距离增大，主流方法的跨镜头一致性显著下降。
EntityMem 在角色外观保持上取得最高忠诚度，Cohen’s d = +2.33，显著优于无记忆基准。

资源

代码与数据：https://github.com/Catherine-R-He/EntityBench/

研究动机与核心贡献

该工作针对多镜头视频生成中的实体一致性问题提出了系统性的基准框架。论文明确指出现有评估方法多采用独立提示，缺少对跨镜头实体复现的系统度量，这一诊断具有合理性——视频生成社区长期缺乏针对叙事一致性的专项评估工具。

从证据层面看，140集共2,491镜头的规模在视频生成基准中属中等体量，提供了可复现的实验基础。论文声称的三级难度划分（Easy≤10镜头、Medium≤30镜头、Hard≤50镜头）中，Medium级跨镜头实体规格（13角色、8位置、22物体）与Hard级实体间隔最远达48镜头的设定，为评估模型在不同跨度和复杂度下的表现提供了梯度参考。

关键假设与潜在失效条件

然而，评论者认为该基准的有效性建立在若干未经验证的假设之上。首先，论文假设实体一致性是评价视频生成质量的核心维度，但未论证其与叙事连贯性、动作流畅性等其他维度的相对权重。其次，实体调度表的标注方案——即角色、物体、位置的出现与消失标记——是否能够完整捕捉“一致性”的语义内涵值得商榷。例如，颜色或外观的渐变在跨镜头中的处理是否符合标注规范并未明确说明。

潜在失效条件包括：若模型在生成过程中对实体属性的编码与调度表存在系统性偏差，基准可能仅反映特定生成范式的适配度而非通用一致性能力。此外，三级难度划分的阈值（10/30/50镜头）缺乏消融实验支撑，其粒度是否足以区分模型能力仍有待验证。

应用价值与可验证性

从应用角度看，该基准的开源策略（数据与评估脚本）为社区复现和横向比较提供了便利，这一点值得肯定。可验证方式包括：在不同生成模型（自回归、扩散等）上运行基准并对比结果；在相同模型上改变实体数量或跨度，检验指标敏感性；邀请人工评估者对生成视频与调度表的一致性进行独立标注，与自动指标进行相关性分析。

评论者推断，若后续工作能够建立自动指标与人类判断的强关联，该基准有望成为视频生成一致性评估的标准工具；但当前阶段仍需更多实验验证其生态效度。

技术分析

研究背景与问题定义

多镜头视频生成技术旨在根据文本描述生成连贯的视频序列，在影视制作、内容创作等领域具有广阔的应用前景。论文指出，当前多镜头视频生成面临的核心挑战在于长序列中保持实体（角色、物体、场景）的跨镜头一致性。现有的评估方法主要采用独立提示生成镜头，缺乏对实体复现的细致覆盖和统一的度量标准，导致难以客观衡量模型在实体一致性方面的表现。这一问题的根源在于生成模型对长期视觉记忆的处理能力有限，随着镜头间隔增大，模型难以准确召回和再现早期出现的实体外观。

EntityBench基准的构建方法

论文构建了EntityBench基准数据集来解决实体一致性评估缺乏标准化工具的问题。该基准源自真实叙事媒体，包含140集共2,491个镜头，为每个镜头提供了详细的实体调度表，标注角色、物体、位置的出现与消失信息。根据难度将基准划分为三个等级：Easy级别包含不超过10个镜头和少量实体；Medium级别包含不超过30个镜头，涉及13个跨镜头角色、8个跨镜头位置和22个跨镜头物体；Hard级别包含不超过50个镜头，实体间隔最远可达48个镜头。这种分层设计使得评估能够系统地考察模型在不同难度下的表现，为方法对比提供了精细的基准。

评估体系的三支柱设计

EntityBench采用了三维度的评估框架。镜头内质量评估单镜头画面清晰度和动作连贯性，衡量生成视频的基础质量。提示对齐评估生成镜头与文本描述的匹配程度，确保语义一致性。跨镜头一致性是本文的核心关注点，采用"忠诚门"机制仅将实体外观准确的镜头计入一致性得分，防止错误在序列中累积导致的虚假高分。这一设计基于可确认事实，即通过实体调度表可以精确判定每个镜头中实体的外观是否正确。该评估体系的优势在于提供了统一的量化标准，使得不同方法在相同基准下的比较成为可能。

EntityMem方法的实现思路

论文提出的EntityMem基线方法在生成前为每个角色、物体和位置分别建立持久视觉记忆库。生成过程中，系统检索记忆库中的视觉特征并将其作为约束条件应用于外观生成，从而提升跨镜头一致性。这一设计基于可确认的假设：建立显式的视觉记忆库可以帮助模型克服生成过程中的遗忘问题。该方法的理论基础源于检索增强生成的思想，将其从文本领域迁移到视觉领域，在生成时主动召回相关视觉信息而非完全依赖模型内部参数。

实验结果与分析

实验结果显示，随着实体重现距离的增大，主流视频生成方法的跨镜头一致性呈现显著下降趋势，表明长间隔实体保持是当前方法的共同瓶颈。EntityMem在角色外观保持任务中取得了最高忠诚度，Cohen’s d值为正2.33，显著优于无记忆基准。这一结果基于论文报告的可确认数据。然而需注意，该数据来自角色外观评估，物体和位置的一致性提升幅度是否同等显著尚需进一步验证。

潜在假设与失效条件

该研究基于以下关键假设：实体调度表标注准确、视觉记忆库能够有效捕捉实体特征、检索机制能够正确匹配相关记忆。这些假设在以下条件下可能失效：极端光照变化导致的外观显著改变、快速镜头切换破坏空间连贯性、训练数据中从未出现的新实体。此外，“忠诚门"机制仅关注外观准确性，未考虑实体行为的合理性和场景语义的连贯性，这可能限制评估的全面性。

应用前景与研究启示

EntityBench为多镜头视频生成研究提供了标准化的评估工具，有助于推动该领域向更高的一致性水平发展。其提出的实体调度表标注方式可被扩展应用于其他需要长期视觉一致性的任务。EntityMem证明了检索增强机制在视觉一致性保持中的有效性，为后续研究提供了可改进的基线。然而当前方法在Hard级别数据集上的表现仍有提升空间，且计算成本与记忆库规模呈正相关，实际应用中的效率优化值得深入研究。

学习要点

EntityBench 是一个专门用于评估长距离多镜头视频生成中实体一致性的基准数据集，包含多种场景和实体变换。
为衡量实体在不同帧和镜头间的视觉一致性，作者提出了实体一致性得分 (ECS) 这一量化指标。
通过在 EntityBench 上对现有主流文本转视频扩散模型进行评测，发现它们普遍存在显著的实体身份漂移现象。
为解决该问题，论文提出一种基于参考引导注意力与记忆模块的生成模型，可在长视频中保持实体外观的一致性。
实验结果显示，新模型在 EntityBench 上取得了最高 ECS 分数，并在保持视频质量的前提下显著降低身份漂移。
该研究强调了长距离时序一致性在视频生成中的关键作用，为后续研究提供了评测框架和改进方向。
EntityBench 的开放源码和评测协议为社区提供了可重复的实验平台，促进实体一致性的系统性提升。

引用

ArXiv: http://arxiv.org/abs/2605.15199v1
PDF: https://arxiv.org/pdf/2605.15199v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / AI 工程
标签：视频生成 / 实体一致性 / 多镜头 / 评测基准 / 跨镜头一致 / 视觉记忆 / 开源 / 长时视频
场景： Web应用开发

Qwen Image 2 与 Seedance 2：中国生成式媒体进展
AutoFigure：自动生成与优化出版级科学插图
MonarchRT：面向实时视频生成的高效注意力机制
SenCache：基于敏感度感知缓存加速扩散模型推理
视频时间流感知与学习方法 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

EntityBench：长时多镜头视频生成实体一致性评测