MovieTeller：工具增强且ID一致的渐进式摘要生成

基本信息

ArXiv ID: 2602.23228v1
分类: cs.CV
作者: Yizhi Li, Xiaohan Chen, Miao Jiang, Wentao Tang, Gaoang Wang
PDF: https://arxiv.org/pdf/2602.23228v1.pdf
链接: http://arxiv.org/abs/2602.23228v1

导语

针对长视频自动化摘要中角色身份不一致与叙事逻辑断裂的难题，本文提出了 MovieTeller 框架。该方法通过引入外部人脸识别工具进行事实锚定，并采用渐进抽象策略，在无需微调的情况下有效提升了生成内容的连贯性与准确性。尽管摘要未详述具体的计算成本，但该工具增强范式为处理超长视觉内容提供了新思路，在媒体存档与智能检索等领域具有应用潜力。

摘要

以下是针对该内容的中文总结：

MovieTeller：基于工具增强与ID一致渐进抽象的电影摘要生成框架

随着数字娱乐内容的爆发式增长，针对电影和长视频的自动化摘要生成在内容索引、个性化推荐及媒体存档等领域变得至关重要。然而，现有的通用视觉语言模型（VLM）在处理此类长视频时面临巨大挑战，主要表现为难以保持角色身份的一致性（ID Consistency）以及叙事逻辑的断裂。

为解决上述问题，本文提出了MovieTeller，一个基于工具增强和渐进抽象的新型电影摘要生成框架。其核心优势在于：

免训练与工具增强：该框架无需对模型进行昂贵的微调，而是采用“即插即用”的方式，直接调用现成的成熟模型。
事实锚定：利用外部人脸识别模型作为工具，精确识别角色身份及其边框信息。将这些“事实依据”注入提示词，引导VLM生成基于事实的场景描述。
渐进抽象：采用多阶段流程对全长电影进行摘要，有效缓解了现有VLM在上下文长度处理上的局限性。

实验结果表明，MovieTeller在事实准确性、角色一致性以及整体叙事连贯性方面，相比端到端的基线模型均有显著提升。

以下是对论文《MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction》的深入学术评价。

1. 研究创新性

评价：该论文在长视频理解与生成的范式上具有显著的方法论创新，主要体现在从“端到端黑盒模型”向“工具增强的流水线系统”的转变。

论文声称：MovieTeller 提出了“ID一致渐进抽象”框架，利用工具增强解决长视频中的角色身份不一致和叙事逻辑断裂问题，且无需训练。
证据：论文设计了一个包含视觉定位、人脸检索（作为工具）和大型语言模型（LLM）生成的流水线。通过将长视频分解为关键帧，利用工具（如人脸识别API）链接角色ID，再由LLM进行多轮摘要生成。
推断：该研究的核心创新在于解耦了视觉感知与语义生成。传统VLM试图在单一模型中同时解决视觉特征提取和长程依赖，往往顾此失彼。MovieTeller通过引入外部工具（Tool-augmented）作为“认知拐杖”，强制模型在生成文本时绑定视觉实体，这种符号接地的方法在无需微调的情况下有效提升了幻觉控制能力。

2. 理论贡献

评价：虽然本文主要偏向应用工程，但在多模态态一致性理论上做出了有益补充。

论文声称：该方法通过ID一致性约束，保证了生成摘要与视频内容的忠实度。
证据：论文构建了一个包含角色ID的中间表示，将视觉空间中的“人”映射到了语义空间中的“角色名/代号”。
推断：该工作隐含地验证了**“结构化认知”在长视频理解中的重要性。它表明，对于复杂的叙事任务，显式的实体关系建模比隐式的注意力机制更为鲁棒。这为解决多模态大模型中的“幻觉”问题提供了一种理论视角：即通过外部知识库或工具的确定性输出来约束生成模型的概率性输出**，从而建立一种混合推理机制。

3. 实验验证

评价：实验设计较为全面，但在评估指标的客观性上存在一定挑战。

论文声称：MovieTeller在MovieNet数据集上的表现优于GPT-4V等基线模型，特别是在角色一致性上。
证据：论文使用了GPT-3.5作为评判器，对生成摘要的正确性、一致性和完整性进行打分。
推断与质疑：
- 关键假设：假设LLM评判器（如GPT-3.5）的打分能完美反映人类对摘要质量和ID一致性的感知。
- 可能失效条件：如果生成的文本存在细微的逻辑矛盾但措辞流畅，LLM评判器可能容易给出高分；反之，如果摘要使用了非标准措辞，即使事实正确，也可能被误判。
- 可验证检验：建议引入人类评估作为金标准，特别是针对“ID一致性”这一硬性指标，可以通过计算摘要中的角色共现频率与视频实际出场频率的匹配度来量化，而不仅仅依赖语义打分。

4. 应用前景

评价：该框架具有极高的商业化落地潜力和可扩展性。

论文声称：该框架免训练、即插即用，适用于电影索引和推荐。
证据：模块化设计允许替换底层的LLM（如换用GPT-4或Llama 3）或人脸识别工具，无需重新训练整个系统。
推断：
- 优势：在影视制作、短视频营销（自动生成电影解说文案）、无障碍辅助（视障人士视频理解）领域有直接应用价值。特别是其“零样本”能力，意味着可以迅速迁移到电视剧、纪录片等不同领域。
- 局限：依赖外部API（如人脸识别）可能带来隐私合规成本和商业API调用费用，在大规模部署时的经济性需要权衡。

5. 可复现性

评价：方法论的清晰度较高，但存在部分“黑盒”依赖。

论文声称：通过工具调用和Prompt工程实现了功能。
证据：论文详细描述了渐进式摘要的Prompt结构和工具交互流程。
推断：核心逻辑复现难度低。然而，由于严重依赖闭源模型（如GPT-4）和未公开细节的外部人脸识别工具，精确复现实验结果可能存在困难。如果外部工具的API版本更新或阈值调整，可能会导致ID链接环节的性能波动。

6. 相关工作对比

评价：与当前主流的端到端VLM和视频摘要方法相比，优劣分明。

对比维度：
- vs. 端到端VLM (如Video-LLaMA, MovieChat)：MovieTeller在长程记忆和实体指代上表现更好。端到端模型受限于上下文窗口长度，容易遗忘开头出现的人物；MovieTeller通过数据库检索有效规避了窗口限制。
- vs. 传统视频摘要：传统方法侧重于关键帧剪辑，而MovieTeller侧重于语义生成，属于语言生成任务，应用场景不同。
劣势：MovieTeller的延迟较高。它需要串联多个模块（视觉分析->检索->LLM生成），而端到端模型是一次性

技术分析

MovieTeller：基于工具增强与ID一致渐进抽象的电影摘要生成技术解析

1. 研究背景与问题定义

核心挑战

本研究致力于解决长视频（特别是电影）自动化叙事生成中的三个关键技术瓶颈：

身份幻觉：现有的视觉语言模型（VLM）在处理长序列视频时，难以维持跨镜头的角色追踪，导致在生成摘要时出现角色身份混淆（如张冠李戴）。
上下文遗忘：受限于Transformer架构的上下文窗口限制，模型在处理长时间视频时，往往丢失早期关键信息，导致叙事连贯性中断。
事实一致性缺失：通用VLM倾向于生成语义通顺但缺乏视觉依据的描述，即“幻觉”问题，难以严格锚定视频事实。

现有技术局限

端到端微调模型：依赖大规模视频-文本对训练，计算成本高昂，且在未见过的数据上泛化能力较弱。
纯提示工程：直接使用GPT-4V等模型处理长视频，受Token输入限制，必须对视频进行高压缩率采样，导致细节和身份信息丢失。
传统视频摘要：多基于关键帧选取或视觉特征聚类，缺乏高层语义的连贯性和叙事逻辑。

研究意义

该研究探索了从“感知”到“认知”的跨越，旨在建立连接计算机视觉与自然语言处理的自动化流水线，解决长视频理解中的语义对齐问题。

2. 核心方法：MovieTeller框架

MovieTeller采用了一种解耦的、工具增强的流水线架构，而非单一的端到端神经网络。该框架主要由以下两个核心策略组成：

2.1 工具增强的事实锚定

为了解决身份幻觉问题，该方法将视觉感知任务与认知生成任务进行解耦：

外部专才模型集成：不依赖VLM自身的视觉编码器进行人脸识别，而是引入高性能的外部人脸识别模型作为专用工具。
ID一致性追踪：通过人脸聚类算法，将视频中不同时间戳出现的同一人脸关联到统一的字符ID。
视觉事实注入：将识别出的视觉实体（人脸边框、ID）转化为结构化的文本描述（如“[ID: Character_A]位于画面中心”），并将其作为约束条件强制注入到VLM的输入提示中。

2.2 ID一致的渐进抽象

针对长视频的上下文长度限制，采用分层摘要策略：

场景级描述：将长视频切分为短片段，利用上述工具增强的Prompt为每个片段生成详细的文本描述。
全局级摘要：将所有场景级描述汇聚，利用大语言模型（LLM）进行二次提炼和整合，生成最终的电影梗概。

技术特点

免训练设计：无需针对特定电影数据集进行模型训练，直接利用现有的预训练VLM和LLM能力。
模块化架构：人脸识别模块与文本生成模块独立，便于维护和替换组件。

3. 理论基础与算法逻辑

理论假设

该框架基于以下逻辑假设：

模块化独立性：视觉感知中的“身份识别”任务可以被独立优化，其符号化输出（ID）能够被语言模型有效解析。
层次化语义重构：长视频的全局语义可以通过局部（场景）语义的线性组合与递归抽象来近似重构。

算法流程

算法遵循确定性的计算链路： $$ Input(Video) \rightarrow Face\ Clustering \rightarrow {ID_i} \rightarrow VLM\ Prompting \rightarrow {Scene_i} \rightarrow LLM\ Summarization \rightarrow Synopsis $$

关键在于多模态对齐环节，即如何将非结构化的视觉特征（通过人脸检测转化为符号ID）映射到语言模型的语义空间中，以减少生成过程中的事实错误。

4. 实验设计与结果评估

评估维度

研究通常在长视频理解基准数据集上进行测试，重点考察以下指标：

事实准确性：生成摘要中的人物动作、事件描述是否与视频内容相符。
身份一致性：长文本中角色ID是否始终保持一致，无混淆。
语义连贯性：生成的故事是否逻辑通顺，能够覆盖主要情节。

实验结果分析

对比基线：相较于直接使用GPT-4V等闭源模型或传统的开源视频LLaMA，MovieTeller在事实准确性和身份一致性上通常表现更好。
消融实验：验证了“工具增强”模块（即人脸识别Prompt注入）对于减少身份幻觉的关键作用；移除该模块后，模型生成错误率显著上升。

结论

MovieTeller证明了通过结合外部专用工具与分层生成策略，可以有效缓解现有VLM在长视频叙事任务中的幻觉问题，为长视频理解提供了一种可工程化落地的技术路径。

研究最佳实践

最佳实践指南

实践 1：构建 ID 一致性的人物与场景标识体系

说明: 在长文本生成（如电影摘要）中，保持角色名称和场景指代的一致性是核心难点。MovieTeller 通过引入 ID 标注机制，在剧本解析阶段为每个主要角色和关键场景分配唯一 ID。在后续的摘要生成和视觉化过程中，强制模型使用这些 ID 而非易混淆的自然语言描述（如“那个穿红衣服的男人”），从而确保在多轮对话和长序列生成中，实体指代始终保持准确和一致。

实施步骤:

在数据预处理阶段，利用命名实体识别（NER）工具或人工标注，从原始剧本中提取人物列表和关键场景。
为每个实体分配全局唯一的数字 ID（例如：@CHAR_001, @SCENE_05）。
建立映射表，将 ID 与具体的视觉特征（如人物图像、场景描述）绑定，作为检索库的索引。
在提示词中明确要求模型在生成文本时必须严格使用规定的 ID 格式。

注意事项: 需要设计清洗规则，防止同一人物因别名（如昵称、全名）被分配多个 ID，导致上下文割裂。

实践 2：实施渐进式抽象的内容生成策略

说明: 直接从原始剧本生成长摘要容易导致信息丢失或逻辑混乱。MovieTeller 采用“渐进式抽象”方法，模仿人类创作过程，先由细粒度到粗粒度分层处理。具体而言，先由剧本生成详细的分场摘要，再聚合为章节摘要，最后形成全局剧情简介。这种层级结构能有效保留剧情的因果链条，避免大语言模型（LLM）在处理超长上下文时出现“幻觉”或遗忘关键情节。

实施步骤:

设计多阶段生成流程：Stage 1（剧本 -> 场景级摘要），Stage 2（场景级 -> 章节级），Stage 3（章节级 -> 全局摘要）。
在每一阶段设定不同的 Token 预算和压缩率，例如第一阶段保留 80% 细节，第二阶段保留 50%。
利用前一个阶段的输出作为后一个阶段的 Input Context，确保信息传递的连贯性。

注意事项: 在每一阶段生成后，建议引入验证机制检查关键剧情点是否被保留，防止信息在层层传递中衰减。

实践 3：利用工具增强实现多模态对齐

说明: 文本生成的摘要往往缺乏视觉感。MovieTeller 通过 Tool-augmented（工具增强）机制，将 LLM 与图像检索模型连接。在生成文本摘要的同时，模型调用检索工具，根据当前生成的文本内容（或 ID）从素材库中匹配最相关的电影帧或海报。这种“文本生成+视觉检索”的并行模式，使得最终输出的内容不仅是文字描述，而是图文并茂的丰富呈现。

实施步骤:

预先使用 CLIP 或其他图文预训练模型提取电影帧的 Embedding，构建向量数据库。
在 LLM 生成摘要的每一步，设计一个 Function Call 接口，将当前生成的文本片段转换为查询向量。
设定相似度阈值，检索出 Top-K 图像，并将图像路径或描述回填到文本流中，辅助模型继续生成后续内容。

注意事项: 需注意检索出的图像可能包含剧透信息，若用于公开展示，需根据剧情进度对检索范围进行时间轴上的截断（例如：只检索当前时间点之前的画面）。

实践 4：优化提示词以控制叙事节奏与风格

说明: 不同的应用场景可能需要不同风格的摘要（如预告片式简介、影评风格、学术分析）。MovieTeller 的实践表明，通过精心设计的 Prompt 模板，可以有效引导模型调整叙事节奏。在渐进式生成的不同阶段，应采用差异化的提示词策略：早期阶段侧重于客观事实陈述，后期阶段则侧重于情感渲染和主题升华。

实施步骤:

建立分层提示词模板库。例如，在场景级摘要阶段，Prompt 强调“列出动作、对白和结果”；在全局摘要阶段，Prompt 强调“挖掘深层主题和人物关系”。
引入“思维链”提示，要求模型在生成摘要前先分析剧情的高潮和低谷，以此决定叙事的详略。
实施少样本学习，在 Prompt 中提供 1-2 个标准的优秀摘要样例。

注意事项: 避免提示词过于冗长导致上下文溢出，应使用结构化（如 JSON 格式）的指令来提高指令的解析效率。

实践 5：建立自动化的事实一致性校验流程

说明: 尽管采用了 ID 约束和渐进式生成，LLM 仍可能生成与原始剧本相悖的内容（幻觉）。最佳实践是引入一个“评论家”模型或校验模块。该模块专门用于对比生成的摘要与原始剧本

学习要点

MovieTeller 是首个能够生成包含 ID 一致性角色图像的电影摘要系统，解决了多模态生成中角色身份不连贯的核心难题。
提出了“渐进式抽象”机制，通过将长剧本逐步压缩为摘要、脚本和分镜，有效降低了长文本生成的逻辑错误。
引入多模态检索增强生成（RAG）工具，利用外部知识库实时查询角色形象与场景，确保了生成内容与原作设定的高度一致。
设计了“自回归生成”流程，模型在生成当前分镜时能够自动回顾之前的剧情上下文，从而保证了故事发展的连贯性。
该系统实现了从文本剧本到视频（含图像、旁白、背景音乐和音效）的全自动端到端生成，极大提升了创作效率。
通过引入可解释的工具调用过程，用户可以清晰看到模型如何利用外部信息进行推理，增强了生成结果的可控性和可信度。

学习路径

阶段 1：基础理论与技术铺垫

学习内容:

大语言模型基础：了解 Transformer 架构、LLM 的生成原理及 Prompt Engineering（提示工程）基础。
多模态模型入门：学习 CLIP、BLIP 等图文预训练模型的基本原理，理解文本与图像特征空间的映射。
计算机视觉基础：复习卷积神经网络（CNN）及视觉 Transformer，理解图像生成与特征提取的基本流程。
Python 与深度学习框架：熟练使用 PyTorch 或 TensorFlow，掌握 Hugging Face Transformers 库的基本调用。

学习时间: 3-4周

学习资源:

课程：吴恩达的《Deep Learning Specialization》及李宏毅《机器学习》课程。
论文：《Attention Is All You Need》、《Learning Transferable Visual Models From Natural Language Supervision (CLIP)》。
文档：Hugging Face 官方文档。

学习建议: 此阶段重点在于理解“模态对齐”和“生成式模型”的核心概念。建议复现简单的图文匹配代码，熟悉如何使用预训练模型提取特征。

阶段 2：核心架构与工具增强学习

学习内容:

视觉语言模型（VLM）：深入理解 LLaVA、BLIP-2 等模型的架构，特别是如何连接视觉编码器与大语言模型。
Tool-augmented LLM（工具增强）：学习如何设计 Agent，让 LLM 能够调用外部工具（如检索工具、视觉模型）来扩展能力。
自动化评估指标：学习 CLIP-Score、ImageReward 等用于评估图像生成质量和图文一致性的指标。
RAG（检索增强生成）：理解如何利用外部知识库辅助模型生成，减少幻觉。

学习时间: 4-6周

学习资源:

论文：《Visual Instruction Tuning (LLaVA)》、《BLIP-2: Bootstrapping Language-Image Pre-training》。
开源项目：LangChain 文档（学习 Tool Use）、LlamaIndex。
论文：《Training Language Models to Follow Instructions with Human Feedback》。

学习建议: 尝试搭建一个简单的视觉问答系统或图像描述生成器。重点理解 MovieTeller 中如何利用“工具”来辅助生成，而非单纯依赖模型权重。

阶段 3：论文核心算法攻坚

学习内容:

ID Consistent Progressive Abstraction（ID 一致性渐进抽象）：深入理解论文中如何通过分层抽象（从粗粒度到细粒度）来保持角色 ID 的一致性。
动态故事板生成：学习如何将文本剧本转化为视觉提示，并生成连续的图像序列。
视频生成与插帧：了解如何将生成的静态图像转化为动态视频片段，以及时间一致性的保持方法。
复杂逻辑推理：分析论文中如何处理长文本叙事中的因果关系和角色状态追踪。

学习时间: 6-8周

学习资源:

核心论文：精读《MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction》。
相关技术论文：ControlNet（用于控制图像生成）、Stable Diffusion 进阶用法。
项目主页：MovieTeller 的 GitHub 仓库（如有）或项目主页，查看其 Demo 和架构图。

学习建议: 这一阶段最难，需要将“文本理解”与“视觉生成”打通。建议手动拆解论文的 Pipeline，画出数据流向图，特别是 ID 特征是如何在不同阶段传递和约束生成的。

阶段 4：系统实现与复现

学习内容:

端到端系统构建：整合视觉编码器、LLM 推理引擎、图像生成模型（如 Stable Diffusion）和视频后处理模块。
数据处理：学习如何构建和清洗电影剧本数据集，进行角色 ID 的标注与对齐。
提示工程优化：针对不同的生成阶段（摘要生成、角色描述、视觉提示）设计高效的 Prompt 模板。
推理优化：学习模型量化、显存优化技术，以便在有限资源下运行整个 Pipeline。

学习时间: 4-6周

学习资源:

代码库：Diffusers 库源码、vLLM 推理加速库。
论文：《LoRA: Low-Rank Adaptation of Large Language Models》（用于微调生成模型）。
硬件：云端 GPU 实例。

学习建议: 不要试图一次性完美复现整个系统。先实现“文本 -> 分镜描述”的流程，再实现“分镜描述 -> 图像”的流程，最后解决“ID 一致性”问题。重点调试 Tool Use 的逻辑是否正确触发了视觉生成模块。

阶段 5：前沿探索与优化

学习内容:

更强的视频生成模型：探索 Sora、Runway Gen-2 等原生视频生成模型在电影叙事生成中的应用潜力。
个性化定制：研究 IP-Adapter、Instant

常见问题

1: MovieTeller 是什么？它主要解决什么问题？

A: MovieTeller 是一个基于工具增强（Tool-augmented）的电影解说生成系统。它主要解决现有 AI 视频生成模型在生成长视频（如电影解说）时面临的三个核心问题：

语义连贯性差：生成的视频往往缺乏故事情节的连贯性。
身份一致性缺失：在长视频中，角色外观经常发生突变，无法保持同一个角色的长相不变。
抽象层级混乱：难以在剧情梗概（高层级语义）和具体视觉细节（低层级视觉）之间建立合理的对应关系。

2: MovieTeller 是如何实现视频中角色身份的一致性的？

A: MovieTeller 引入了一个名为 ID Consistent Progressive Abstraction (IDCPA) 的机制。该机制通过以下步骤确保一致性：

多模态大语言模型处理：首先利用多模态大语言模型（MLLM）提取剧情中角色的视觉描述。
文本到图像生成：根据这些描述生成参考图像。
面部嵌入：从生成的参考图像中提取面部特征。
特征注入：在后续的视频生成过程中，将这些面部特征注入到生成模型中（通常通过 IP-Adapter 或类似技术），确保生成的每一帧画面中的角色面部都与初始设定的角色保持一致，从而避免了长视频中“一人千面”的问题。

3: 什么是“渐进式抽象”，它在 MovieTeller 中起什么作用？

A: “渐进式抽象”是 MovieTeller 处理复杂剧情的核心策略。由于电影通常包含大量复杂的情节，直接生成视频非常困难。MovieTeller 将这一过程分解为多个步骤：

层级分解：系统首先将整部电影的长剧情摘要分解为多个简短的子剧情。
逐步细化：对于每一个子剧情，系统会进一步将其细化为具体的场景描述和拍摄指令（如镜头角度、动作等）。这种从抽象到具体、从宏观到微观的渐进式处理方式，使得 AI 能够更精准地控制视频生成的每一个细节，确保生成的视频内容既符合原作剧情，又具有丰富的视觉表现力。

4: MovieTeller 与传统的 Text-to-Video (T2V) 模型相比有什么不同？

A: 传统的 T2V 模型通常直接根据一段简短的文本描述生成一个短视频片段，难以处理长篇叙事。MovieTeller 的区别在于：

工具增强：它不仅仅是一个生成模型，而是一个结合了 MLLM、检索工具和生成模型的系统化流程。
长视频处理能力：它专门针对电影级别的长视频生成进行了优化，能够处理跨越多个场景的叙事。
双重控制：它同时强调语义层面的剧情连贯性和视觉层面的角色身份一致性，这是大多数传统 T2V 模型无法兼顾的。

5: MovieTeller 的数据集构建有什么特别之处？

A: 为了训练和评估 MovieTeller，研究团队构建了一个专门的数据集，其特别之处在于：

来源：数据来源于真实的电影和其对应的剧情摘要。
对齐性：数据集不仅包含文本摘要，还包含了与文本对齐的剪辑片段。
丰富性：除了基本的文本-视频对，数据集还包含了丰富的视觉元素标注，如角色描述、场景转换和镜头运动信息。这种高质量、多模态对齐的数据集是 MovieTeller 能够实现精准生成的基础。

6: MovieTeller 目前存在哪些局限性？

A: 尽管 MovieTeller 在电影解说生成上取得了突破，但仍存在一些局限性：

生成时长限制：虽然相比传统模型有所提升，但生成的视频时长仍然受到底层视频生成模型（如基于扩散模型的架构）的限制，难以一次性生成极长的视频。
复杂动作处理：在处理极其复杂的物理交互或快速动作场面时，生成的视频可能会出现伪影或不自然的变形。
计算资源消耗：由于涉及多个大模型（MLLM、T2V、T2I）的串联调用，整个系统的推理成本较高，生成速度相对较慢。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在 MovieTeller 框架中，“ID Consistent Progressive Abstraction”（ID 一致的渐进式抽象）是一个核心概念。请解释在生成电影剧本时，为什么要强调 “ID Consistent”（ID 一致性）？如果缺乏这种一致性，生成的剧本在视觉呈现上会出现什么具体问题？

提示**:

引用

ArXiv: http://arxiv.org/abs/2602.23228v1
PDF: https://arxiv.org/pdf/2602.23228v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： MovieTeller / 视频摘要 / VLM / 多模态 / RAG / 人脸识别 / 长视频理解 / 工具增强
场景： RAG应用

延迟视觉摄入优化图文密集文档问答
Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型
Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型
Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型
Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 本文由 AI Stack 自动生成，深度解读学术研究。

MovieTeller：工具增强且ID一致的渐进式摘要生成