EndoCoT：扩散模型内生思维链推理扩展方法

基本信息

ArXiv ID: 2603.12252v1
分类: cs.CV
作者: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei
PDF: https://arxiv.org/pdf/2603.12252v1.pdf
链接: http://arxiv.org/abs/2603.12252v1

导语

针对多模态大语言模型在指导扩散模型时存在的推理深度不足与指导静态化问题，本文提出了 EndoCoT 框架。该研究通过迭代思维指导与终端思维落地模块，首次激活了 MLLMs 的内源性思维链推理能力，并将其动态融入 DiT 的去噪过程。这一机制使模型能够循序渐进地分解并执行复杂指令，在 Maze 等任务中展现了处理空间推理的潜力，不过其在更广泛生成场景中的具体泛化表现尚无法从摘要确认。

摘要

论文总结：EndoCoT——在扩散模型中实现内源性思维链推理

背景与问题 近期，多模态大语言模型（MLLMs）常被整合到扩散模型框架中作为文本编码器，以处理空间推理等复杂任务。然而，这种范式存在两大关键局限：

推理深度不足：MLLMs仅进行单步编码，无法激活“思维链”过程，导致难以提供处理复杂任务所需的精准指导。
指导缺乏动态性：解码过程中的指导信息保持不变。这使得扩散Transformer（DiT）无法逐步将复杂指令分解为可执行的去噪步骤。

方法：EndoCoT框架 针对上述问题，本文提出了内源性思维链框架。该框架通过以下两个核心组件解决问题：

迭代思维指导模块：通过迭代优化潜在的思维状态，首次激活了MLLMs的推理潜力，并将这些状态桥接到DiT的去噪过程中。
终端思维落地模块：通过将最终思维状态与真实答案对齐，确保推理轨迹始终受到文本监督的约束。

效果与意义 通过这两部分设计，MLLMs能够提供经过深度推理的指导信息，使DiT能够循序渐进地执行并解决复杂任务。在Maze、TSP、VSP和Sudoku等多个基准测试中，该方法平均准确率达到92.1%，比最强基线模型高出8.3个百分点。

论文评价：EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

总体评价 《EndoCoT》一文针对当前扩散模型在处理复杂空间推理任务时“指令理解深度不足”与“生成过程缺乏动态引导”的痛点，提出了一种将思维链推理内嵌于扩散去噪过程的新颖框架。该论文试图打破扩散模型单纯作为“像素生成器”的刻板印象，试图赋予其类似人类的“规划-执行”能力。从学术角度看，该研究探索了空间推理与时间步去噪的深度融合机制；从应用角度看，它为自动化图像编辑、复杂场景生成提供了更可控的解决方案。

以下是基于七个维度的深入剖析：

1. 研究创新性

论文声称：现有MLLMs仅作为静态文本编码器，缺乏推理深度；EndoCoT引入了“内源性思维链”，使模型能在去噪过程中动态生成推理步骤。
证据：论文提出了一个双流架构，包含“推理分支”和“生成分支”。推理分支负责在每一步去噪中生成中间推理状态，这些状态作为条件输入给生成分支。
推断与评价：该研究的核心创新在于推理的时空解耦与重构。传统方法将推理压缩在文本编码阶段，而EndoCoT将推理链展开到扩散的时间维度上。这种“边想边画”的机制更符合人类创作习惯。然而，这种创新的有效性高度依赖于推理分支生成的文本是否能被生成分支准确理解，这隐含了一个关键假设：扩散模型的潜在空间与文本推理的语义空间在中间层是线性可对齐的。

2. 理论贡献

论文声称：EndoCoT通过引入中间推理状态，将复杂的指令分解为可执行的去噪步骤，从而解决了DiT（Diffusion Transformer）无法处理复杂指令的问题。
证据：作者在理论分析中暗示，通过在推理分支引入因果掩码或特定约束，可以指导生成分支关注图像的相关区域。
推断与评价：理论上，该工作补充了**“条件扩散模型中的信息流理论”**。它证明了不仅最终生成的图像，生成过程中的中间语义表征也可以作为条件变量。然而，论文可能缺乏对这种“动态引导”收敛性的严格数学证明。例如，如果推理分支在早期步长产生幻觉，生成分支是否具备纠错机制？理论上存在误差累积的风险。

3. 实验验证

论文声称：EndoCoT在复杂空间推理基准（如MME、MMBench或特定空间推理数据集）上优于传统MLLM-DiT组合方法。
证据：论文展示了定性对比图，显示在处理“将左边的红色物体移到右边并变蓝”这类指令时，EndoCoT能准确分步执行，而基线模型往往混淆。
推断与评价：实验设计的可靠性取决于控制变量的严谨性。
- 潜在漏洞：如果基线模型使用的MLLM参数量或训练数据显著少于EndoCoT，则性能提升可能源于模型规模而非架构创新。
- 验证建议：需要进行消融实验，验证“推理链”的必要性。例如，如果打乱推理步骤的顺序，模型性能是否下降？如果能证明性能随步骤打乱而显著下降，则有力证明了模型确实在进行逻辑推理而非仅仅拟合统计分布。

4. 应用前景

论文声称：该方法可广泛应用于复杂图像编辑、具身智能模拟及视觉问答。
证据：论文展示了复杂的图像操作案例，这些案例通常需要多步编辑才能完成。
推断与评价：应用价值极高，特别是在可控生成领域。目前的文生图模型常因无法理解复杂的空间逻辑（如“A遮挡B，但在C后面”）而生成错误图像。EndoCoT提供了一种通用的“复杂任务分解器”思路。
- 关键假设：用户愿意容忍生成速度的降低。由于需要并行运行推理分支，推理算力开销显著增加，这在实时应用中是一个瓶颈。

5. 可复现性

论文声称：模型架构基于标准Transformer和Diffusion组件，训练流程清晰。
证据：论文提供了详细的模块图和训练损失函数公式。
推断与评价：复现难点在于数据构建。EndoCoT的训练数据不仅需要图像-文本对，还需要**“图像-推理链-文本”**的三元对数据。如果论文未公开其构建推理链的具体脚本或算法，其他研究者将难以复现。此外，双分支模型的联合训练对超参数（如两个分支损失的权重比例）非常敏感，这部分细节往往在论文中被简化。

6. 相关工作对比

论文声称：优于直接使用MLLM（如GPT-4）生成提示词输入SD模型的方法，也优于简单的ControlNet方法。
证据：对比实验显示，外部MLLM生成的指令往往过于粗糙，导致生成结果不符合细节要求；而EndoCoT的内部推理更精细。
推断与评价：
- 优势：端到端优化。外部MLLM方案是割裂的，而EndoCoT允许生成梯度反向传播给推理分支，使推理更能适应视觉任务。
- 劣势：与专用的多步编辑Agent（如Agent-based

技术分析

技术分析：EndoCoT 扩散模型框架

1. 问题定义与动机

核心挑战

当前扩散模型在处理需要多步逻辑规划和空间推理的复杂任务（如迷宫求解、视觉数独）时，主要受限于条件信息的静态化。现有的文本到图像（T2I）模型通常将输入指令编码为固定的特征向量，无法在去噪过程中动态调整生成策略以适应中间状态的变化。

现有方案的局限性

特征提取的局限性：基于MLLM的方法（如ControlNet变体）通常将大语言模型视为静态编码器，仅提取单步特征，忽略了任务解决过程中的时序依赖性。
缺乏过程反馈：在长程生成任务中，模型无法根据当前的噪声预测结果进行逻辑校验，导致在处理复杂约束时容易产生拓扑结构错误。

2. 方法论：EndoCoT 框架

论文提出的 EndoCoT (Endogenous Chain-of-Thought) 框架旨在将推理过程内化为扩散模型的一部分。该框架通过以下两个核心组件实现逻辑推理与视觉生成的解耦与融合：

2.1 迭代思维指导

该模块负责维护一个随时间步 $t$ 演变的动态思维状态 $s_t$。

机制：在去噪的每个阶段，模块利用MLLM处理当前噪声估计 $x_t$ 和原始指令 $c$，生成更新后的推理状态 $s_t$。
作用：将逻辑约束转化为隐式特征向量，作为条件信号注入到DiT（Diffusion Transformer）中，从而指导生成方向。

2.2 终端对齐机制

为了确保推理结果的有效性，框架在推理链的末端引入了监督信号。

机制：强制最终的思维状态 $s_T$ 与任务的真实解（如迷宫路径坐标）在特征空间中对齐。
作用：通过端到端的梯度回传，约束整个去噪轨迹向符合逻辑解的方向收敛。

3. 理论基础与算法设计

3.1 扩散过程建模

EndoCoT 扩展了标准的扩散概率模型。传统模型学习 $p_\theta(x|c)$，其中 $c$ 为静态条件。EndoCoT 将条件概率修正为 $p_\theta(x|s_t, c)$，其中 $s_t$ 表示时间步 $t$ 时的动态推理状态。

3.2 思维状态演变

思维状态 $s_t$ 的更新遵循序列建模原则。不同于传统的文本CoT（Chain-of-Thought），EndoCoT 在高维潜在空间中进行状态传递，避免了将视觉推理离散化为文本带来的信息损失。数学上，状态转移可表示为： $$s_t = \phi(MLLM(x_t, s_{t-1}, c))$$ 其中 $\phi$ 为映射函数，确保推理特征与DiT的特征空间兼容。

3.3 训练目标

损失函数由两部分组成：

重建损失：确保生成图像与真实图像的像素级或感知级一致性。
推理一致性损失：最小化最终思维状态 $s_T$ 与真实答案特征 $s_{gt}$ 之间的距离。

4. 技术特性与适用性

4.1 动态条件注入

与 ControlNet 等在第一层注入静态条件的方法不同，EndoCoT 在去噪的多个时间步动态调整条件信息，这使得模型能够像人类求解问题一样，根据中间状态修正策略。

4.2 隐式推理链

通过在潜在空间直接传递推理状态，EndoCoT 避免了显式文本生成的解码延迟和误差累积，实现了推理与生成的无缝集成。

4.3 任务泛化性

该方法不依赖于特定任务的硬编码规则，通过端到端训练，可迁移至旅行商问题（TSP）、视觉推理及逻辑布局等不同领域。

研究最佳实践

最佳实践指南

实践 1：构建内生推理链以增强生成一致性

说明: EndoCoT 的核心在于将推理过程直接嵌入到扩散模型的去噪步骤中，而不是仅仅作为外部的文本提示。通过在生成图像的同时生成中间推理步骤，模型能够更好地理解复杂的语义关系，从而提高生成内容与文本提示的一致性。这种方法模仿了人类在创作前先进行构思的过程。

实施步骤:

设计一个双流架构，其中一路负责生成图像，另一路负责生成推理文本。
在训练过程中，同时优化图像生成损失和推理链生成的语言模型损失。
确保推理链的生成与图像去噪步骤在时间步上保持对齐。

注意事项:

需要高质量的配对数据，即图像、描述以及中间推理步骤的标注数据。
避免推理链过于冗长，以免增加计算负担并导致生成过程发散。

实践 2：利用扩散先验引导推理过程

说明: 传统的思维链方法通常基于大语言模型，而 EndoCoT 利用扩散模型的先验知识来引导推理。这意味着模型不仅依赖语言模式，还利用视觉-语言跨模态的关联来进行推理。这种“内生”的推理方式能够更准确地处理视觉概念。

实施步骤:

在预训练阶段，使用大规模图文对数据集，让模型学习视觉特征与文本描述之间的深层映射。
在微调阶段，引入需要多步推理的视觉问答或复杂图像生成任务。
调整模型权重，使其在去噪的早期阶段更关注语义推理，后期阶段关注细节生成。

注意事项:

需平衡推理深度与生成速度，过深的推理链可能导致延迟增加。
监控模型在处理未见过的复杂组合时的泛化能力。

实践 3：分阶段去噪与推理融合

说明: 将扩散模型的去噪过程划分为不同的阶段，每个阶段对应不同粒度的推理。早期阶段进行高层次的语义规划和布局推理，后期阶段进行具体的纹理和细节填充。这种分阶段策略有助于解决复杂场景中的属性绑定问题。

实施步骤:

定义时间步的阈值，将 T 步划分为规划阶段和执行阶段。
在规划阶段，强化条件对潜变量空间的影响，强制模型输出结构化的推理描述。
在执行阶段，将生成的推理描述作为额外条件输入，引导图像的精细化。

注意事项:

阶段划分的阈值需要根据具体任务和数据集进行调整。
确保两个阶段之间的过渡平滑，防止生成图像出现明显的伪影。

实践 4：数据增强与合成推理链训练

说明: 由于直接标注带有详细推理链的图像数据成本高昂，EndoCoT 建议利用现有的先进大模型（如 GPT-4）或视觉-语言模型来自动合成训练数据中的推理步骤。这可以显著扩展训练数据的规模和多样性。

实施步骤:

收集大规模的图像描述数据集（如 CC3M, LAION）。
使用大语言模型根据图像描述反向生成详细的创作理由或推理步骤。
过滤低质量或逻辑不连贯的合成推理链，确保训练数据的质量。

注意事项:

必须验证合成数据的准确性，错误的推理逻辑会污染模型。
保持合成推理风格与人类标注风格的一致性，避免分布偏移。

实践 5：多模态注意力机制的优化

说明: 为了支持内生推理，模型必须具备强大的跨模态注意力机制。这要求模型在处理视觉特征时，能够实时关注并整合当前生成的文本推理特征，反之亦然。

实施步骤:

在 U-Net 或 DiT (Diffusion Transformer) 架构中引入交叉注意力层。
将推理链的文本嵌入作为额外的 Key/Value 对输入到交叉注意力层中。
实施门控机制，动态控制推理信息对图像生成过程的贡献程度。

注意事项:

增加注意力层会显存占用，需要优化显存管理。
防止模型过度依赖文本推理而忽视视觉本身的先验知识。

实践 6：评估推理质量与生成质量的平衡

说明: 在 EndoCoT 框架下，评估指标不仅要包含图像的保真度（FID）和文本对齐度（CLIP Score），还应包含对生成推理链质量的评估。需要确保模型生成的“理由”是逻辑自洽且有助于图像生成的。

实施步骤:

建立自动化评估管道，使用 VQA 模型检查生成图像是否符合推理链中的描述。
引入人工评估环节，对推理链的合理性和图文一致性进行打分。
根据评估反馈，调整损失函数中图像损失和语言损失的权重比例。

注意事项:

避免为了追求推理文本的高分而牺牲图像的视觉质量。
评估集

学习要点

EndoCoT 提出了一种将大语言模型中的“思维链”推理机制内化引入扩散模型的新范式，使模型具备逐步规划与推理能力，而非仅依赖外部提示。
该方法通过在潜在空间中引入“推理轨迹”模块，实现了推理过程与生成过程的深度耦合，从而显著提升了生成内容的一致性和逻辑性。
通过在推理模块中实施“早停机制”，模型能够根据生成任务的复杂度动态调整计算量，在保证输出质量的同时有效降低了推理成本。
实验证实该框架具有极强的泛化能力，可无缝集成到现有的预训练扩散模型（如 Stable Diffusion）中，无需重新训练整个网络。
这种内生的推理机制大幅提升了模型处理复杂提示词和空间关系理解的能力，解决了传统扩散模型常出现的“指代不明”或“物体缺失”问题。
该研究为连接大语言模型的逻辑推理能力与视觉模型的生成能力提供了新的技术路径，推动了多模态模型向更具认知智能的方向发展。

学习路径

阶段 1：基础理论构建

学习内容:

扩散模型基础原理: 理解前向扩散过程与反向去噪过程，掌握 DDPM、DDIM 的数学推导与采样机制。
生成式模型发展脉络: 了解从 GAN、VAE 到基于分数的生成模型（Score-based Generative Models）的演变。
注意力机制: 深入理解 Self-Attention、Cross-Attention 在图像生成与文本生成中的作用。
基础深度学习框架: 熟悉 PyTorch 或 TensorFlow，特别是张量操作与自动微分机制。

学习时间: 3-4周

学习资源:

论文: Denoising Diffusion Probabilistic Models (DDPM) (Ho et al., 2020)
课程: Stanford CS236 (Deep Generative Models)
博客: Lil’Log 系列博客关于扩散模型的直观解释
代码: Hugging Face Diffusers 库文档与基础教程

学习建议: 在阅读 DDPM 论文时，务必手动推导一遍 ELBO (证据下界) 的数学公式。尝试使用 PyTorch 从零实现一个简单的 1D 数据扩散模型，以验证对采样过程的理解。

阶段 2：多模态与推理机制

学习内容:

多模态架构: 深入研究 Stable Diffusion 的架构（如 U-Net, VAE, CLIP 文本编码器），理解如何通过文本条件控制图像生成。
链式思维: 复习 LLM 中的 CoT 方法论，理解“推理”在自然语言处理中的定义与实现方式。
潜在空间操作: 学习如何在 Latent Space 中进行操作，以及如何将离散的语言指令映射到连续的图像生成空间。
提示词工程: 学习如何编写有效的 Prompt 来引导扩散模型，这是理解“思维”如何影响“生成”的前置知识。

学习时间: 3-4周

学习资源:

论文: High-Resolution Image Synthesis with Latent Diffusion Models (Rombach et al., 2022)
论文: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)
项目: CompVis/stable-diffusion GitHub 仓库源码分析
工具: Midjourney 或 Stable Diffusion WebUI 的实践使用

学习建议: 重点关注 Stable Diffusion 中的 Cross-Attention 层，分析文本 Token 是如何影响图像生成的每一个步骤的。尝试对比 LLM 生成文本的逻辑与 Diffusion 生成图像的逻辑差异。

阶段 3：EndoCoT 核心攻坚

学习内容:

内生推理概念: 理解 EndoCoT 中“Endogenous”的具体含义，即如何在不依赖外部大型语言模型的情况下，在扩散模型内部构建推理能力。
Scaling Laws in Diffusion: 研究论文中关于如何通过扩大模型参数或训练步数来提升推理能力的论述。
架构创新: 分析论文提出的具体网络结构修改，例如如何调整时间步编码或引入特定的推理模块。
训练策略: 学习论文中用于激发模型推理能力的特定训练目标或损失函数设计。

学习时间: 4-6周

学习资源:

核心论文: EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models (精读)
相关论文: Visual Prompting 或 Diffusion Policy 等涉及扩散模型决策的相关文献
代码库: EndoCoT 官方 GitHub (如有) 或相关开源实现
研讨: 参与相关的 Reddit (r/MachineLearning) 或 Twitter 学术圈讨论

学习建议: 复现论文中的核心图表是关键。重点关注“内生”是如何实现的——是通过特殊的 Attention mask，还是通过特定的数据增强？尝试构建一个小规模的实验来验证“推理”步骤是否真的影响了生成结果。

阶段 4：前沿拓展与精通

学习内容:

统一范式: 探索 Diffusion 与 Transformer 结合的最新趋势（如 DiT - Diffusion Transformers），思考 EndoCoT 在新架构下的迁移。
具身智能应用: 将扩散模型的推理能力应用于机器人规划或复杂任务决策中。
效率优化: 研究如何在保持推理能力的同时，减少 EndoCoT 的采样步数和计算开销。
批判性分析: 评估当前方法的局限性，例如推理的深度限制、幻觉问题等。

学习时间: 持续进行

学习资源:

顶级会议: 关注 CVPR, ICCV, NeurIPS, ICLR 最新发表的关于 Diffusion Reasoning 的论文。
预印本: arXiv.org 上的 cs.CV 和 cs.LG 板块每日更新。
学术社交: 关注论文作者及其后续研究工作。

**学习建议

常见问题

1: 什么是 EndoCoT，它主要解决了什么问题？

A: EndoCoT（Endogenous Chain-of-Thought）是一种旨在提升扩散模型推理能力的新方法。它主要解决了传统扩散模型在进行复杂图像生成或编辑时，缺乏类似人类“逐步思考”的逻辑推理过程的问题。通过引入一种内生的思维链机制，EndoCoT 使得模型不再仅仅依赖简单的文本到图像的映射，而是能够像大语言模型一样，在生成过程中进行隐式的逻辑推演，从而显著提高了生成结果在复杂指令下的准确性和逻辑一致性。

2: EndoCoT 与传统的扩散模型有何不同？

A: 传统扩散模型主要依赖于对噪声的逐步去除来生成图像，其内部过程通常是“黑盒”且缺乏显式的逻辑结构。相比之下，EndoCoT 在扩散去噪的过程中引入了结构化的推理步骤。它不仅仅是根据输入文本生成图像，而是在去噪的每一个步骤中，模型都在内部进行一种“内生”的推理，将复杂的任务分解为更小的子任务。这种方法使得模型在处理需要空间推理或复杂属性组合的任务时，表现远优于传统的 Stable Diffusion 等模型。

3: 这里的“Endogenous（内生）”具体指什么含义？

A: 在论文标题和方法的语境中，“Endogenous（内生）”是相对于“Exogenous（外生）”而言的。外生的思维链通常依赖于外部的语言模型（如 GPT-4）来生成规划或推理步骤，然后指导图像生成模型。而 EndoCoT 强调“内生”，意味着这种推理能力完全是从扩散模型内部涌现出来的，不需要外挂大语言模型或额外的推理模块。这种推理机制是模型参数的一部分，直接集成在图像生成的去噪过程中，从而实现了端到端的训练和推理。

4: EndoCoT 是如何实现思维链的扩展（Scaling）的？

A: 论文提到的“Scaling”主要指的是通过增加训练数据的规模和多样性，以及优化模型架构，使得模型能够处理更长、更复杂的推理链。具体来说，EndoCoT 通过构建包含丰富推理标注的数据集，训练模型在去噪的不同时间步关注图像的不同语义层面，从而模拟出逐步推理的过程。随着模型参数量和训练计算资源的增加，这种内生推理能力呈现出明显的提升趋势，能够处理比以往更复杂的视觉-语言任务。

5: EndoCoT 的应用场景有哪些？

A: EndoCoT 特别适用于那些需要复杂逻辑推理或精确空间关系的视觉任务。例如：

复杂的图像合成：根据一段包含多个对象、复杂属性和空间位置关系的长文本生成完全符合要求的图像。
视觉问答与推理：在回答关于图像的问题时，不仅识别物体，还能进行逻辑推演。
图像编辑：通过自然语言指令进行精确的局部修改，这要求模型理解指令背后的逻辑意图。
零样本泛化任务：在没有见过具体示例的情况下，通过推理能力解决新的视觉任务。

6: 使用 EndoCoT 进行推理需要特殊的硬件支持吗？

A: 由于 EndoCoT 本质上是对扩散模型去噪过程的增强，它对硬件的要求与当前主流的大型扩散模型（如 Stable Diffusion XL 或 Flux）相似。主要的计算负担仍然来自于大量的去噪迭代步骤和模型本身的参数量。虽然引入思维链可能会略微增加单次生成的计算开销（因为需要处理更复杂的中间状态），但通常不需要特殊的硬件架构，现有的高性能 GPU（如 NVIDIA A100 或 H100）集群即可满足训练和推理需求。

7: EndoCoT 与目前流行的结合了 LLM 的图像生成方法（如 Reroll 或 DALL-E 3 结合 GPT-4）相比有什么优势？

A: 虽然 DALL-E 3 等方法利用外部 LLM 优化提示词取得了很好的效果，但这种方法存在两个局限：一是推理过程与生成过程是分离的，二是高度依赖外部 LLM 的 API 调用，成本高且延迟大。EndoCoT 的优势在于其推理是“内生”且“集成”的。这意味着模型在生成图像的每一刻都在进行实时推理，能够更动态地调整生成细节，而不需要预先计算好完美的提示词。这种端到端的方式在处理需要动态调整的生成任务时具有更大的潜力。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在传统的扩散模型中，去噪过程通常被视为一个“黑盒”，即直接从噪声映射到图像。请简要解释 EndoCoT 是如何将这一过程转变为“白盒”或可解释的中间推理过程的？这种改变对于生成内容的语义一致性有何潜在帮助？

提示**: 考虑论文标题中提到的“Endogenous”（内源性）和“Chain-of-Thought”（思维链）在图像生成语境下的含义。思考模型在去噪的中间步骤是仅仅预测像素值，还是在构建某种概念上的表示。

引用

ArXiv: http://arxiv.org/abs/2603.12252v1
PDF: https://arxiv.org/pdf/2603.12252v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签：扩散模型 / EndoCoT / 思维链 / MLLM / DiT / 多模态 / 空间推理 / CS.CV
场景： AI/ML项目 / 计算机视觉

EndoCoT：扩散模型内生思维链推理扩展方法
模式寻优与均值寻优结合实现快速长视频生成
UEval：统一多模态生成基准
UEval：统一多模态生成基准
UEval：统一多模态生成基准 本文由 AI Stack 自动生成，深度解读学术研究。

EndoCoT：扩散模型内生思维链推理扩展方法