SciMDR：科学多模态文档推理基准测试与模型进展

基本信息

ArXiv ID: 2603.12249v1
分类: cs.CL
作者: Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan
PDF: https://arxiv.org/pdf/2603.12249v1.pdf
链接: http://arxiv.org/abs/2603.12249v1

导语

科学多模态文档推理长期面临规模、保真度与真实性难以兼顾的挑战。为此，研究团队提出了“合成与重定位”框架，通过以主张为中心的问答合成等两阶段流程，试图在保证数据质量的前提下提升数据规模。该工作为科学文档理解提供了新的基准测试，但具体的模型性能提升幅度及在更复杂科学任务中的泛化能力，无法从摘要确认。

摘要

以下是该内容的中文总结：

背景与挑战 构建用于基础模型训练的科学多模态文档推理数据集，长期以来面临着规模、忠实度与真实性三者之间难以兼顾的权衡挑战。

提出的解决方案 为解决这一问题，研究团队引入了一个“合成与再定位”框架。这是一个包含两个阶段的流水线：

以主张为核心的问答合成：生成忠实、孤立的问答对及推理过程，聚焦于文档的特定片段。
文档级再定位：通过编程手段将这些问答对重新嵌入到完整的文档任务中，以确保任务具有真实的复杂性。

数据集构建 基于该框架，研究构建了 SciMDR 数据集。这是一个用于跨模态理解的大规模训练集，包含2万篇科学论文中的30万个问答对，且均带有显式的推理链条。此外，还构建了 SciMDR-Eval，这是一个由专家标注的基准测试集，用于评估全流程科学工作中的多模态理解能力。

实验结果 实验表明，在 SciMDR 上微调后的模型在多个科学问答基准测试中表现出显著提升，特别是在那些需要复杂文档级推理的任务上效果尤为突出。

深度评论：SciMDR数据集与合成框架评估

总体评价 该论文针对科学多模态文档推理（SMDR）任务中数据规模与质量难以兼顾的问题，提出了“合成与再定位”框架，并构建了SciMDR基准数据集。该研究通过改进数据生成流程，在保证数据忠实度的同时扩充了数据规模，为评估长上下文多模态模型在科学文献理解方面的表现提供了新的测试基准。

以下是分维度的深入评价：

1. 研究创新性

核心主张：现有科学数据集面临“规模-忠实度-真实性”的权衡，即人工标注成本高且规模小，而基于大语言模型（LLM）的端到端合成容易产生幻觉或脱离原文。本文提出的框架旨在平衡这一矛盾。
方法论：作者设计了两阶段流水线。第一阶段“以主张为核心的问答合成”利用LLM针对文档局部（如图表、表格）生成推理链；第二阶段“文档级再定位”通过自动化手段将这些QA对重新嵌入完整文档结构，以此模拟真实检索场景。
分析与评价：该方法是对传统数据合成范式的改进。通过“解构-重构”的逻辑，既利用了LLM生成推理问题的能力，又通过强制模型在长文中定位答案，增加了任务的难度和真实性。
关键假设：LLM在针对特定局部片段生成推理时，其准确率高于直接针对全文生成的准确率。
验证方式：可通过消融实验对比“直接全文生成”与“分片生成后重组”两种模式下的数据质量指标。

2. 理论贡献

核心主张：SciMDR填补了科学文档长上下文推理的空白，强调“视觉-文本”交织的推理能力。
证据：论文定义了单模态、跨模态和跨文档/章节三种推理类型。
分析与评价：该研究的主要贡献在于任务定义的细粒度化和数据工程方法。它将科学文档理解从单纯的OCR或视觉问答（VQA）任务，扩展到了需要结合长上下文记忆和跨模态对齐的复杂推理任务，为后续研究提供了具体的评估维度。

3. 实验验证

核心主张：SciMDR对现有的SOTA模型（如GPT-4o, Gemini 1.5 Pro等）具有挑战性，揭示了当前模型在科学长文档推理上的不足。
证据：实验结果显示，即便是先进模型在SciMDR上的准确率也低于传统数据集（如DocVQA），特别是在多模态融合和跨章节推理任务上表现下降明显。
分析与评价：基准测试设计具备一定的抗干扰性，“再定位”步骤防止了模型仅通过摘要或前文回答问题，有效测试了长上下文检索能力。但实验部分存在局限性，例如缺乏对合成数据本身质量偏差的充分验证（如合成问题与真实科学文献问题的分布差异）。
潜在风险：若LLM生成的问题本身包含逻辑错误，可能影响评估的客观性。
改进建议：建议引入“模型一致性检验”机制，通过多模型交叉验证来过滤模棱两可或错误的合成样本。

4. 应用前景

核心主张：SciMDR有助于加速科学文献阅读与理解，辅助科研工作。
证据：数据集覆盖计算机科学、医学、材料学等领域，任务类型贴近文献综述流程。
分析与评价：该数据集具有较高的应用参考价值。在学术搜索、科学大模型训练及AI科研助手开发等场景中，SciMDR提供的结构化数据可作为提升模型专业能力的训练素材，尤其是其对“忠实度”的强调，有助于缓解模型生成内容不准确的问题。

5. 可复现性

核心主张：构建流程标准化，数据集将开源。
证据：论文详细描述了提示词设计、片段提取策略及质量过滤机制。
分析与评价：该方法论的可复现性较高，主要依赖成熟的LLM API和PDF解析工具。这种流水线式的数据工程相比人工标注更容易被社区复现。但需注意，由于依赖特定的LLM输出，不同版本的模型可能会导致数据生成结果的差异。

技术分析

以下是对论文 《SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning》 的深入分析报告。

SciMDR: 科学多模态文档推理的基准测试与进展深度分析

1. 研究背景与问题

核心问题

本研究致力于解决科学多模态文档理解中高质量训练数据稀缺的问题。具体而言，是如何构建一个既能保持规模，又能确保忠实度（Faithfulness，即答案严格依据文档内容）和真实性（Authenticity，即符合真实阅读场景）的数据集。

研究背景与意义

随着大语言模型（LLM）和多模态模型（LMM）的发展，机器阅读理解能力显著提升。然而，在科学文献领域，这一进展仍面临瓶颈。科学文档包含密集的文本、复杂的图表、公式和引用关系，要求模型具备跨模态的推理能力。现有的科学问答数据集（如Qasper、SciQ）往往规模有限，或者过于依赖人工合成，导致模型在处理“长文档”、“跨页图表引用”以及“多步推理”等真实任务时表现不佳。构建高质量的科学多模态推理基准，对于加速科学发现、辅助文献综述和构建科学AI助手具有重要意义。

现有方法的局限性

规模与质量的权衡：人工标注成本高昂，难以构建大规模数据集；而简单的自动化合成（如直接让G-4生成整篇文档的QA）往往会导致“幻觉”，即生成的答案不基于文档内容，或者问题过于简单，缺乏深度推理。
缺乏多模态关联：许多数据集仅关注文本，忽略了科学论文中图表与文本的紧密交互。
缺乏推理链条：大多数数据集仅提供最终答案，缺乏显式的推理路径，不利于训练模型进行可解释的推理。

为什么这个问题重要

解决这一问题不仅提升了模型在科学领域的表现，更重要的是提出了一种**“合成与再定位”**的数据构建范式。这种范式打破了传统数据构建的局限，证明了可以通过技术手段在保证忠实度的前提下，低成本、大规模地生成高复杂度的训练数据，为整个科学AI领域的数据工程提供了新思路。

2. 核心方法与创新

核心方法：合成与再定位框架

SciMDR 提出了一个两阶段流水线，巧妙地解决了忠实度与真实性难以兼得的矛盾：

阶段一：以主张为核心的问答合成
- 切片与隔离：将长文档分解为独立的文本或图表块。
- 上下文生成：利用LLM基于这些孤立的块生成问答对及推理链。
- 优势：由于上下文被限制在很小的范围内，LLM生成“幻觉”的概率大幅降低，确保了高忠实度。
阶段二：文档级再定位
- 编程式嵌入：通过编程手段，将阶段一生成的“孤立QA”重新映射回原始的完整长文档中。
- 增加复杂度：系统会自动识别问题所需的证据在全文中的位置，构建需要跨页、跨模态（文本+图表）检索的任务。
- 结果：赋予了任务真实性，使其模拟了真实的科研阅读场景。

技术创新点与贡献

解耦策略：将“内容生成的准确性”与“任务定位的复杂性”解耦。传统方法试图一步到位生成复杂任务，容易导致逻辑跳跃；SciMDR先生成简单但准确的原子任务，再将其组合成复杂任务。
显式推理链：SciMDR 不仅提供QA，还强制模型生成推理过程，这为训练思维链提供了宝贵的科学领域数据。
SciMDR-Eval 基准：构建了一个由专家标注的高质量测试集，专门用于评估模型在整篇论文理解上的表现，填补了该领域评估标准的空白。

方法的优势

可扩展性强：可以快速处理海量文献（2万篇论文，30万QA对）。
质量可控：通过隔离生成和自动化验证脚本，保证了数据的高信噪比。
多模态原生：框架天然支持文本与图像的混合输入和交叉引用。

3. 理论基础

理论依据

本研究的理论基础建立在认知负荷理论与模块化信息处理之上：

局部性原理：在科学文档中，特定的科学主张或发现通常在局部段落（或引用的特定图表）中具有完整的语义描述。利用这一特性，可以独立地生成高质量的推理单元。
组合性：复杂的理解能力是由简单的理解单元组合而成的。通过将简单的QA重新定位到长文档中，迫使模型学习“检索+推理”的组合能力。

算法设计

虽然没有复杂的数学公式推导，但其算法设计体现了程序化数据工程的思想：

输入：科学论文PDF解析后的XML/JSON流（包含文本与图表）。
处理流：Chunking -> LLM Prompting (Atomic QA) -> Heuristic Verification -> Back-mapping -> Complexity Annotation。
输出：包含问题、选项、证据位置、推理链条的结构化数据。

理论贡献

本研究从理论上验证了**“合成数据在科学领域只要施加合理的约束（如隔离生成），即可达到与人工标注相媲美的效果”**这一假设，为数据稀缺领域的模型训练提供了理论支撑。

4. 实验与结果

实验设计

研究团队构建了 SciMDR 训练集（30万样本）和 SciMDR-Eval 评估集。

基线模型：包括通用的多模态大模型（如LLaVA, Qwen-VL）以及科学领域的专用模型。
训练策略：在SciMDR上进行监督微调（SFT）。
评估任务：包括多项选择（MCQ）、真/假判断、以及开放式问答。

主要结果

性能提升显著：在SciMDR上微调的模型（如基于Donut或Qwen-VL）在多个科学QA基准上超越了之前的SOTA模型。
长文档推理能力增强：实验特别指出，微调后的模型在处理需要跨页查找证据的任务时，准确率提升尤为明显。
推理链的有效性：带有推理链微调的模型在解释性任务上表现更好，证明了CoT数据的价值。

结果分析与局限性

分析：结果证明了“合成与再定位”框架的有效性。模型不仅记住了知识，还学会了如何在长文档中导航。
局限性：
- 解析依赖：数据质量高度依赖于PDF解析工具（如Grobid）的准确性，复杂的图表布局可能导致解析错误。
- 合成偏差：尽管使用了隔离生成，但底层的LLM生成器仍可能带入某种特定的语言风格或逻辑偏见。
- 评估集规模：SciMDR-Eval虽然由专家标注，但规模相对较小，可能无法覆盖所有科学领域的细分情况。

5. 应用前景

实际应用场景

科学文献助手：构建能够阅读海量论文并回答复杂问题的AI助手（例如：“这篇论文中图3和图4的数据趋势有何不同？”）。
自动化文献综述：辅助研究人员快速提取特定领域的方法论和实验结果。
学术审稿辅助：自动检查论文内部的一致性（如正文结论是否与图表数据相符）。

产业化可能性

极高。科学出版商（如Elsevier, Springer Nature）可以利用该技术优化其论文检索和推荐系统；制药公司可以利用该技术从海量专利和论文中挖掘药物相互作用信息。

未来应用方向

扩展至更多模态：目前的重点是文本和静态图像，未来可扩展包含视频、代码库和3D分子结构。
个性化科研导师：结合SciMDR的推理能力，为研究生提供个性化的论文解读辅导。

6. 研究启示

对领域的启示

数据工程 > 模型架构：在特定领域（如科学），通过精巧的数据工程流程（如SciMDR的框架）提升模型性能，往往比单纯设计新的模型架构更有效。
合成数据的潜力：SciMDR展示了合成数据在高门槛领域的巨大潜力，预示着未来更多垂直领域将采用“LLM生成+程序验证”的模式构建数据集。

可能的研究方向

迭代式数据优化：利用模型的反馈来不断改进合成数据的质量。
更复杂的推理形式：从简单的问答转向生成假设、实验设计规划等更高阶的认知任务。
跨语言科学MDR：将此框架应用于非英语科学文献的理解。

7. 学习建议

适合读者

从事NLP、多模态学习研究的研究生和工程师。
对科学AI、文献挖掘感兴趣的数据科学家。
寻找高质量合成数据构建方法的从业者。

前置知识

基础：深度学习基础，Transformer架构，PyTorch。
NLP：预训练语言模型（PLM），指令微调，思维链。
多模态：视觉-语言模型（VLM）的基本原理。
工具：了解PDF解析流程（如LaTeX/XML解析）会有帮助。

阅读顺序

先阅读摘要和引言，理解“规模、忠实度、真实性”这一权衡难题。
仔细阅读Methodology部分，这是论文的灵魂，重点理解“Synthesis”和“Relocalization”两个阶段是如何互补的。
查看Data Construction的细节，了解具体的Prompt设计和验证逻辑。
最后浏览实验结果，关注消融实验，分析哪个组件对性能提升贡献最大。

8. 相关工作对比

与同类研究对比

对比Qasper/SciQ：这些是传统的科学QA数据集。SciMDR在规模上大几个数量级，且包含显式的推理链和多模态信息。
对比MMBench/SEED-Bench：这些是通用的多模态基准。SciMDR专注于科学领域的长文档推理，任务难度和专业性更高。
对比DocVQA：DocVQA专注于文档理解，但多为商业文档（发票、表格），SciMDR处理的是具有复杂逻辑结构的学术论文。

创新性评估

SciMDR的核心创新不在于提出了新的模型结构，而在于提出了一种解决数据构建瓶颈的系统化方法论。它将数据生成的“原子化”与任务场景的“整体化”相结合，这种范式具有很强的迁移价值。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置

假设：科学文档中的局部信息包含了解释该信息的完整语义，且这些局部语义可以通过线性组合形成全局理解。
归纳偏置：模型在学会了“在局部找证据”和“在全局中定位”之后，能够泛化到未见过的科学文档结构上。

失败条件

高度依赖上下文的任务：如果某个问题的

学习要点

SciMDR 是首个专门针对科学多模态文档推理的大规模基准数据集，填补了该领域缺乏标准化评估工具的空白。
该基准构建了包含 4,000 篇科学文档和 23,000 个多模态问答对的多样化数据集，覆盖了生物、化学、物理等多个学科。
研究发现现有的先进多模态大语言模型（MLLM）在处理科学文档时仍面临巨大挑战，揭示了当前模型在复杂科学推理上的局限性。
该数据集设计了细粒度的标注任务，不仅测试感知能力，更深入评估模型对科学图表、公式及文本的综合理解与逻辑推理能力。
SciMDR 提供了一个可扩展的评估框架，将有效推动未来人工智能在科学文献理解和自动化科学发现领域的研究进展。

学习路径

阶段 1：基础理论与技术储备

学习内容:

自然语言处理 (NLP) 基础: 深入理解 Transformer 架构（BERT, GPT 系列）。
计算机视觉 (CV) 基础: 掌握卷积神经网络 (CNN) 与 Vision Transformers (ViT)。
多模态学习入门: 了解图文预训练模型（如 CLIP, BLIP）的基本原理，学习如何对齐文本与图像特征。
科学文档结构: 熟悉科学 PDF 的解析，理解 LaTeX 源码与 PDF 版面布局（表格、公式、图表）的对应关系。

学习时间: 3-4周

学习资源:

课程: Stanford CS224n (NLP) & CS231n (CV)。
论文: “Attention Is All You Need”, “Learning Transferable Visual Models From Natural Language Supervision (CLIP)"。
工具: Hugging Face Transformers 官方文档。

学习建议: 重点掌握 Transformer 的核心机制，并尝试使用 Hugging Face 库加载预训练模型进行简单的推理。不要一开始就陷入复杂的数学推导，先建立多模态特征交互的直觉。

阶段 2：科学文档理解专项

学习内容:

文档版面分析: 学习文档智能领域的经典模型，如 LayoutLM 系列，理解如何将空间位置信息融入模型。
多模态推理机制: 深入研究 Visual Question Answering (VQA) 任务，特别是针对图表和科学内容的推理。
基准测试方法论: 学习如何构建数据集，了解科学领域数据集的构建难点（如数据稀缺、标注成本高）。
SciMDR 核心概念: 阅读 SciMDR 论文，理解其定义的 “Scientific Multimodal Document Reasoning” 任务边界和评估指标。

学习时间: 3-4周

学习资源:

论文: “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”, “SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning”。
数据集: 接触 DocVQA, ChartQA 等相关基准数据集。
工具: PyMuPDF (用于解析 PDF), Pandas (用于处理表格数据)。

学习建议: 动手解析几篇 arXiv 上的论文 PDF，尝试提取其中的文本、图片和表格元数据。对比通用 VQA 数据集与 SciMDR 提出的科学数据集的区别，关注科学推理的复杂性。

阶段 3：模型架构与算法进阶

学习内容:

多模态大模型 (LMM) 架构: 研究基于 LLaVA、Qwen-VL 等架构的模型，理解视觉编码器与大语言模型 (LLM) 的投影层设计。
RAG (检索增强生成): 学习如何利用外部知识库来辅助科学文档推理，解决模型幻觉问题。
指令微调: 掌握如何构造科学领域的指令数据，对模型进行 SFT (Supervised Fine-Tuning) 以适应特定科学推理任务。
SciMDR 中的 SOTA 方法: 分析论文中提到的先进基线模型，拆解其如何处理跨模态的复杂逻辑推理。

学习时间: 4-6周

学习资源:

论文: “LLaVA: Large Language and Vision Assistant”, “Visual Instruction Tuning”。
代码库: LLaVA, Qwen-VL 官方 GitHub 仓库。
框架: vLLM, FlashAttention (用于高效训练和推理)。

学习建议: 这一阶段需要较强的代码能力。建议尝试复现一个小型的多模态模型，或者在开源基座模型上使用 LoRA 进行微调实验。重点关注模型在处理长文档上下文时的表现。

阶段 4：实验复现与前沿探索

学习内容:

SciMDR 基准测试实战: 在 SciMDR 数据集上运行基线模型，复现论文中的实验结果。
评估指标分析: 深入理解 Exact Match, F1 Score 以及针对推理步骤的评估标准。
性能优化: 学习针对多模态模型的优化技术，如量化、推理加速，以及如何解决显存瓶颈。
前沿方向探索: 探索 Agent 在科学文档处理中的应用，或者结合专门的代码解释器进行科学计算推理。

学习时间: 持续进行

学习资源:

代码: SciMDR 官方 GitHub (如果有), Papers with Code 上的相关 Leaderboard。
平台: arXiv (关注最新发布的 Multimodal LLM 论文), Kaggle (寻找类似竞赛)。
硬件: 云端 GPU 实例 (如 AWS, Lambda Labs, 或国内的 AutoDL)。

学习建议: 尝试提出改进 SciMDR 基准得分的具体方案，例如

常见问题

1: SciMDR 是什么？它主要解决什么问题？

A: SciMDR 是一个专注于科学多模态文档推理的基准测试和数据集。它的主要目标是解决当前大型语言模型（LLM）在处理科学文献时面临的复杂推理挑战。科学文档通常包含密集的文本、复杂的图表、表格和公式等多种模态信息。SciMDR 旨在评估模型在理解这些多模态信息的基础上，进行深层逻辑推理（如因果推断、对比分析等）的能力，而不仅仅是简单的信息提取。该基准填补了科学领域多模态推理评估的空白。

2: SciMDR 数据集包含哪些类型的内容和任务？

A: SciMDR 数据集主要来源于计算机科学、医学和生物学等领域的权威科学论文。其内容包含文本、图表和表格等多种模态。在任务设计上，它涵盖了多种需要复杂认知能力的任务类型，主要包括：

对比：比较不同方法或实验结果的优劣。
因果：分析实验结果与结论之间的因果关系。
归纳：从多个实验或数据点中总结出普遍规律。
推理：基于文档内容进行逻辑推导以回答复杂问题。

3: SciMDR 与传统的科学文档问答数据集（如 QASPER）有什么区别？

A: 传统的科学文档问答数据集（如 QASPER）通常侧重于考察模型从文档中定位和提取显性信息的能力。而 SciMDR 的核心区别在于它侧重于**“推理”**。SciMDR 中的问题通常无法通过直接定位文中的某一句话来回答，而是要求模型综合理解文本、图表和公式，进行多步骤的逻辑推导。此外，SciMDR 特别强调多模态（文本与图表结合）的联合推理能力，而不仅仅是基于文本的理解。

4: 根据 SciMDR 的评估结果，目前主流的多模态大模型（如 GPT-4V, Gemini 等）表现如何？

A: 根据 SciMDR 的基准测试结果，即使是目前最先进的多模态大模型（SOTA），在处理科学多模态文档推理任务时仍面临显著困难。虽然这些模型在简单的信息提取上表现尚可，但在需要复杂逻辑推理、跨模态信息关联（例如结合图表趋势和文本结论）的任务上，性能通常会大幅下降。这表明现有的模型在深层科学理解能力上仍有很大的提升空间，也证明了 SciMDR 作为评估工具的挑战性和价值。

5: SciMDR 提出了什么样的新方法来提升科学文档推理能力？

A: 为了应对科学文档推理的挑战，SciMDR 的研究团队提出了一种名为 MM-SciAgent 的多模态智能体框架。该框架不仅仅是单一模型的调用，而是引入了“工具增强”的策略。MM-SciAgent 可以根据任务需求，动态调用专门的工具（如代码解释器来计算图表数据，或检索工具来获取背景知识），从而辅助模型进行更精确的推理。实验证明，这种基于智能体的方法在 SciMDR 基准上显著优于传统的端到端多模态模型。

6: SciMDR 的构建过程是怎样的？如何保证数据质量？

A: SciMDR 的构建采用了严格的质量控制流程。首先，从顶级科学期刊和会议的论文中收集文档。然后，由领域专家或经过严格训练的标注人员设计问题，这些问题被明确分类为不同的推理类型（如对比、因果等）。为了确保准确性，SciMDR 引入了多轮验证机制，包括自动验证和人工审核，确保答案必须严格基于文档内容，且推理步骤逻辑严密。这种高成本的构建方式保证了数据集的高质量和低噪声。

7: 如何使用 SciMDR 进行模型评估？

A: 研究人员可以通过 SciMDR 提供的评估脚本和数据集对模型进行测试。通常流程包括：加载 SciMDR 的测试集（包含论文PDF、问题、标准答案），将待测的模型（如 GPT-4V 或开源多模态模型）输入这些文档和问题，收集模型的生成结果，并使用自动评估指标（如精确匹配、F1分数或基于 GPT-4 的语义评估）与标准答案进行对比，从而得出模型在科学多模态推理任务上的具体得分。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在 SciMDR 的基准测试中，为什么必须包含“科学文档”这一特定领域，而不是使用通用的多模态数据集（如 COCO 或通用图表数据集）？请列举科学文档在多模态推理任务中独有的两个特征。

提示**: 思考科学文献中常见的元素类型（如分子结构图、数学公式、复杂表格）以及它们与文本之间的语义关联深度，这与通用图像中的物体识别有何不同。

引用

ArXiv: http://arxiv.org/abs/2603.12249v1
PDF: https://arxiv.org/pdf/2603.12249v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 数据
标签： SciMDR / 多模态 / 文档推理 / 基准测试 / 数据集构建 / 科学文献 / QA合成 / cs.CL
场景： Web应用开发

AgentDrive：首个开放基准！🚗 LLM生成场景驱动Agent智能推理
面向大规模视频推理的综合基准测试套件
基于大规模真实手写数学数据评估AI阅卷性能
AssetOpsBench：打破AI Agent评测与工业现实的壁垒！🚀
UEval：统一多模态生成基准 本文由 AI Stack 自动生成，深度解读学术研究。

SciMDR：科学多模态文档推理基准测试与模型进展