HorizonMath：自动验证技术评估AI数学发现能力

基本信息

ArXiv ID: 2603.15617v1
分类: cs.LG
作者: Erik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath
PDF: https://arxiv.org/pdf/2603.15617v1.pdf
链接: http://arxiv.org/abs/2603.15617v1

导语

针对大型语言模型能否真正具备数学研究能力的争议，本文提出了HorizonMath基准测试，旨在通过自动验证机制评估AI解决未解数学难题的水平。该基准利用“发现难、验证易”的问题特性，在涵盖计算与应用数学多个领域的同时，有效规避了形式化验证的高成本和人工审查的主观性，并天然免疫数据污染。由于摘要未提供具体实验数据，目前无法确认模型在该基准上的具体表现，但该工作为客观衡量AI的数学发现潜力提供了新的可扩展工具。

摘要

HorizonMath：利用自动验证衡量AI在数学发现领域的进展

本文介绍了HorizonMath，这是一个旨在评估人工智能（AI）在解决重要且未解数学问题上能力的基准测试平台。其核心内容总结如下：

1. 背景与挑战 尽管大型语言模型（LLM）在数学和科学推理方面表现出了 sophisticated 的能力，但它们能否进行真正的创新性研究仍有争议。现有评估AI研究能力的基准存在局限性：要么依赖形式化证明验证，要么依赖人工审查，这两种方法都难以扩展且成本高昂。

2. HorizonMath 的设计 为了解决上述问题，研究者推出了HorizonMath平台，包含以下特点：

内容广泛：涵盖计算和应用数学中8个领域的100多个问题，且绝大多数为未解决的难题。
验证机制：针对“发现难、验证易”的问题类型。这些问题需要深刻的数学洞察力才能发现解，但解的验证过程计算简单且高效。
防污染：由于问题目前尚无已知解，该基准测试天然免疫数据污染，避免了模型通过记忆训练数据作弊的可能性。

3. 实验结果 在HorizonMath上的测试显示，大多数最先进的（SOTA）模型得分接近0%。然而，研究发现 GPT 5.4 Pro 在两个问题上提出的解决方案，优于目前已发表的最佳结果。虽然这些成果有待专家最终审查，但这代表了AI在数学领域做出潜在新颖贡献的重要迹象。

4. 意义 作者将HorizonMath发布为一个开源挑战和社区资源。在该平台未解问题类别中得出的正确解，将直接构成数学文献中的新成果，为衡量和推动AI的科研能力提供了新的标准。

论文评价：HorizonMath——迈向数学发现的自动化验证基准

总体评价

《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》一文针对当前大语言模型（LLM）在数学推理评估中存在的“数据污染”和“验证瓶颈”问题，提出了一个基于自动形式化验证的新型基准。该研究试图通过将非形式化的数学猜想转化为形式化语言（如Lean 4），利用定理证明器来严格判定AI模型能否解决未解的或极具挑战性的数学问题。

从学术角度看，该研究试图填补“模式匹配”与“真正的数学发现”之间的空白；从应用角度看，它为AI数学家的筛选提供了一种低成本、高可信度的流水线。以下是基于七个维度的深入分析。

1. 研究创新性

论文声称：HorizonMath 提供了一个基于自动验证的基准，能够评估AI在“重要且未解”数学问题上的能力，解决了人工审查成本高和形式化门槛高的问题。
证据：论文构建了一个包含未解猜想和已证明难题的数据集，并设计了一个Pipeline：LLM生成非形式化证明 -> 转化为形式化代码 -> Lean 4 定理证明器验证。
评价与推断：
- 方法创新：核心创新在于引入了“形式化作为裁判”的机制。传统的MATH或GSM8K基准依赖答案匹配（容易受数据污染影响）或人工打分（不可扩展）。HorizonMath将验证过程转移到形式化系统中，虽然存在转化的难度，但一旦通过，证明的正确性具有数学上的确定性。
- 评估维度创新：从“解题”转向“发现”。基准不仅考察模型解决已知问题的能力，还包含了对未解问题的测试，这更接近数学研究的本质。

2. 理论贡献

论文声称：该基准能够衡量AI进行“数学发现”的进展，而仅仅是学习现有知识的分布。
证据：通过选取国际数学奥林匹克（IMO）级别的题目和未解猜想，论文暗示在这些任务上的表现与通用推理能力及研究潜力相关。
评价与推断：
- 理论补充：该研究并未提出全新的数学理论，但在AI评估理论层面，它强化了“形式化验证是评估高级推理的必要条件”这一观点。它将AI的能力边界从概率性的文本生成推进到了确定性的逻辑验证。
- 局限性：理论上的一个隐含假设是——“能够生成形式化证明是进行数学发现的有效代理指标”。然而，许多伟大的数学发现始于直观的猜想和非形式化的推导，形式化往往是最后一步。该基准可能低估了那些具有强大直觉但形式化能力较弱的模型的价值。

3. 实验验证

论文声称：实验展示了不同模型在HorizonMath上的表现，验证了基准的难度和区分度。
关键假设：LLM生成的非形式化证明文本可以有效地被转化为形式化代码，且转化过程（无论是模型自身还是辅助工具）不会成为主要瓶颈。
可能失效条件：如果模型生成了一个天才的数学思路，但由于自然语言到形式化语言的转译器（或模型本身的编码能力）不足，导致Lean报错，则该模型会被误判为失败。
可验证检验方式：
- 消融实验：必须区分“推理失败”和“翻译失败”。建议设计实验：提供完美的非形式化证明给模型，仅测试其将其转化为Lean代码的能力，以此量化翻译步骤的Loss。
- 人类介入测试：对于被基准判定为“失败”但看起来有潜力的输出，由人类数学家进行审查，统计“假阴性”率。

4. 应用前景

论文声称：HorizonMath可以作为评估AI研究潜力的标准平台。
评价：
- 科研工具：对于AI研究社区，这是一个极具价值的过滤器。随着模型在通用数据集上接近饱和，HorizonMath提供了新的“登月计划”。
- 数学辅助：长远来看，这种“自然语言 -> 形式化验证”的流程是构建AI数学助手的核心技术。如果模型能通过该基准，意味着它可以在Lean库中自动扩充定理库，直接服务于形式化数学项目。
- 局限：目前Lean生态门槛极高，限制了非专业数学家的使用，应用场景目前仍局限在AI研究圈和形式化验证圈。

5. 可复现性

论文声称：平台包含自动验证机制。
证据：基于开源的Lean 4环境。
评价：
- 优势：代码验证是确定性的，不存在人工打分的主观性。只要环境配置正确，结果完全可复现。
- 挑战：Lean库的版本依赖性极强。不同的Mathlib版本可能导致代码无法运行。作者必须提供Docker容器或精确的依赖锁定文件。
- 数据泄露风险：未解猜想相对安全，但已证明的难题可能存在于训练数据中。论文必须详细披露数据去重过程，否则复现性将受到“数据污染”的质疑。

技术分析

1. 研究背景与问题

核心问题 本研究旨在解决当前人工智能评估中的一个关键挑战：如何构建一个可扩展、自动化且客观的基准，用于衡量AI模型在解决尚未解决的数学问题时的能力，而非仅仅重复已知的解题路径。

现有评估的局限性 现有的数学评估体系存在以下瓶颈，阻碍了对AI模型潜在科研能力的有效度量：

数据污染与过拟合：主流基准（如MATH、GSM8K）中的题目和解题方案已广泛存在于互联网及训练语料中。模型在这些测试上的高分往往反映了其模式匹配或记忆能力，而非真正的逻辑推理能力。
形式化证明的局限：虽然形式化定理证明器（如Lean）提供了严格的验证，但将前沿数学问题转化为形式化语言的过程极其耗时，且难以覆盖所有数学领域（特别是涉及复杂计算或估算的场景）。
验证成本高昂：对于开放性数学问题，传统的验证方式依赖人类专家进行人工审核，这导致评估过程无法实现自动化和规模化。

研究意义 HorizonMath 的建立旨在填补这一空白。通过引入自动化验证机制处理未解难题，该研究为评估AI模型的“数学发现”潜力提供了一个标准化的测试环境，有助于客观判断AI是否具备辅助科学研究的实际能力。

2. 核心方法与创新

核心方法：HorizonMath 基准 HorizonMath 是一个专注于计算数学和应用数学领域的基准测试平台。其核心方法论包含两个组成部分：

NP-De 问题集：精选了一类符合“发现难、验证易”（NP-decidable）特性的未解数学问题。
自动化验证器：为每个问题配置了确定性的算法验证器，用于自动检查模型输出的解是否满足数学约束。

关键创新点

验证范式的转变：传统评估往往侧重于检查模型的推理步骤或中间过程，容易受到幻觉或格式错误的干扰。HorizonMath 利用计算数学的特性，允许模型直接输出解（如数值界、参数配置），由验证器在毫秒级时间内完成判定。
抗数据污染设计：由于基准集中的问题目前尚无公开解，且许多是开放性问题，模型无法通过检索训练数据来获取答案。这确保了测试结果反映的是模型的推理与搜索能力。
领域覆盖：基准涵盖了优化理论、组合数学、泛函分析等8个计算数学子领域，包含100多个高难度问题。

方法优势

低成本与可扩展性：验证器编写完成后，评估过程无需人工介入，计算成本低廉，支持大规模模型测试。
客观评估标准：基于二元判定（通过/失败），消除了基于语言模型进行主观评估时可能出现的偏差。

3. 理论基础

理论依据 HorizonMath 的设计基于计算复杂性理论中的核心概念：

单向函数与NP问题特性：利用“求解困难，验证简单”的非对称性。即，寻找全局最优解或证明特定界可能需要指数级的搜索空间，但验证一个给定候选解是否满足条件可以在多项式时间内完成。
算法可验证性：假设数学问题可以被转化为具体的算法约束。例如，在图论问题中，模型输出一个数值界，验证器通过算法确认该界是否有效。

理论贡献 该研究在理论上将评估指标从“过程覆盖率”转向“结果有效性”。这种黑盒式的结果验证方法，与强化学习中的奖励函数设计相契合，为训练能够进行科学发现的智能体提供了理论参考。

研究最佳实践

实践 1：构建形式化验证优先的评估基准

说明: HorizonMath 的核心创新在于引入了自动形式化验证。与传统的基于大语言模型（LLM）生成文本答案的基准不同，该框架要求 AI 模型将自然语言数学问题转换为 Lean 4 等证明辅助语言中的形式化陈述。只有当形式化证明器（如 Lean）验证通过后，才认为解题成功。这种方法消除了幻觉和评分歧义，确保了数学发现的严谨性。

实施步骤:

数据集准备：收集高难度的数学问题（如奥数题、IMO 挑战赛题目），并确保每个问题都有对应的 Lean 4 形式化定义和证明。
建立验证管道：搭建自动化流程，将模型生成的输出直接输入到 Lean 4 环境中进行编译和验证。
评估指标设定：以“形式化证明通过率”作为核心评估指标，而非单纯的文本匹配或部分得分。

注意事项: 需要确保形式化转换的准确性。如果模型生成的形式化代码存在语法错误，即使思路正确也会被判定为失败，因此需要区分“语法错误”和“逻辑错误”。

实践 2：实施基于难度分层的阶梯式评估

说明: HorizonMath 强调数学发现的渐进性。为了有效衡量 AI 的进步，必须建立分层评估体系。该体系应涵盖从基础计算到复杂定理证明的多个难度层级。通过分析模型在不同层级上的表现，可以更精确地定位模型当前的能力边界，避免因题目难度波动过大而导致评估结果不稳定。

实施步骤:

难度分级：根据题目所需的推理步骤、先验知识深度和证明长度，将数据集划分为不同等级（如 Level 1 到 Level 7）。
分层测试：在评估时，不仅测试总体通过率，还要记录模型在每个难度层级上的表现。
能力边界分析：绘制模型性能随难度变化的曲线，识别模型开始失效的临界点。

注意事项: 难度划分应具有客观标准，避免主观臆断。建议参考人类数学竞赛的分级标准或依据形式化证明的步数来定级。

实践 3：采用“生成-验证”闭环反馈机制

说明: 在数学发现过程中，试错是不可避免的。最佳实践应包含一个闭环系统，允许模型生成尝试，接收来自验证器的反馈（如编译错误信息或反例），然后进行修正。HorizonMath 的框架表明，利用验证器的反馈来引导模型修正证明策略，是提升高级数学推理能力的关键。

实施步骤:

错误解析：当 Lean 验证失败时，自动提取错误信息（如类型不匹配、目标未达成）。
反馈迭代：将原始问题、错误的尝试以及错误信息一起输入给模型，要求其生成修正后的代码。
多轮尝试：设定最大尝试次数限制（例如 5 次），允许模型在反馈循环中不断优化证明。

注意事项: 需警惕模型陷入“死循环”或通过过拟合错误信息来欺骗验证器。应限制迭代轮数，并评估每次迭代的实际改进情况。

实践 4：强化形式化语言与自然语言的互译能力

说明: 数学发现通常始于自然语言的直觉，终于形式化的严谨。AI 模型必须具备强大的双向转换能力：既能理解自然语言描述的数学问题，又能将其精确映射为 Lean 4 的形式化语言。HorizonMath 的测试显示，许多失败并非源于逻辑推理不足，而是源于形式化表达的偏差。

实施步骤:

双语数据训练：在训练数据中包含大量（自然语言问题，形式化定义）的配对数据。
中间表示学习：鼓励模型学习一种中间抽象表示，先理解数学结构，再映射到具体的 Lean 语法。
针对性微调：针对特定的数学领域（如代数、几何、拓扑），微调模型处理该领域特有术语和符号转换的能力。

注意事项: 形式化语言极其严格，微小的语法差异（例如括号匹配、类型隐式转换）都可能导致验证失败。需要专门的语法纠错模块辅助。

实践 5：建立严格的防过拟合与数据泄漏控制机制

说明: 随着数学基准测试的兴起，模型在训练集上“背题”的风险增加。为了确保衡量的是真正的“数学发现”能力而非记忆能力，必须严格控制训练数据与测试数据的重叠。HorizonMath 建议使用时间分割或最新发布的未公开题目来构建测试集，以评估模型的泛化和外推能力。

实施步骤:

数据隔离：确保测试集中的题目在模型的预训练和微调阶段从未出现过。
动态更新：定期向测试集中注入新发布的数学竞赛题目或前沿数学猜想。
泄漏检测：使用 n-gram 重叠检测或嵌入相似度分析，检查

学习要点

HorizonMath 是首个引入自动验证机制的大规模数学基准，通过形式化证明检查器确保了评估结果的准确性与不可伪造性，解决了传统基准中依赖不可靠评分器的问题。
该基准构建了包含 7,400 多个高质量数学问题的数据集，覆盖了从小学水平到前沿研究级别的全谱系难度，并依据人类数学家的学习路径划分为 10 个等级。
研究发现当前最先进的闭源模型（如 GPT-4 和 Claude 3）在处理高难度研究级数学问题时仍面临巨大挑战，其中 GPT-4 在最高难度等级上的通过率仅为 0.44%。
为了解决长上下文窗口带来的计算挑战，研究团队开发了“分而治之”的验证策略，将长证明分解为多个模块进行独立验证，从而显著降低了系统资源消耗。
该基准不仅评估模型的最终答案，更侧重于评估模型生成完整、严谨数学证明的能力，填补了现有评估体系在“数学发现”与“问题求解”之间的空白。
实验结果表明，尽管开源模型在低难度任务上表现尚可，但在需要复杂推理和知识整合的高等级数学问题上，与顶尖商业模型之间仍存在显著的性能差距。

学习路径

阶段 1：基础构建与背景认知

学习内容:

大语言模型基础：理解Transformer架构、预训练与SFT（监督微调）的基本原理。
形式化数学基础：了解Lean 4或Isabelle等交互式定理证明器（ITP）的基本语法和“Tactics”概念。
强化学习入门：掌握马尔可夫决策过程（MDP）、策略网络与价值网络的基本定义。
自动验证概念：理解形式化验证与自然语言证明的区别，以及为何形式化对于数学发现至关重要。

学习时间: 3-4周

学习资源:

论文：《Attention Is All You Need》、《Language Models are Few-Shot Learners》
教程：Lean 4官方文档及入门教程
课程：David Silver的强化学习入门视频（前几章）

学习建议: 此阶段不需要深入代码实现，重点在于建立“AI如何做数学”的宏观认知。建议安装Lean 4环境，尝试证明几个极其简单的定理（如1 + 1 = 2）以体验形式化证明的过程。

阶段 2：核心方法与机制解析

学习内容:

内部搜索方法：深入研究蒙特卡洛树搜索（MCTS）在数学证明生成中的应用，以及如何将其与语言模型结合。
自举与迭代优化：学习如何利用模型自身生成的证明来训练下一代模型，理解AlphaZero与AlphaGeometry的通用方法论。
奖励模型设计：分析如何设计自动验证器作为奖励信号，以及如何处理证明步骤中的部分正确性。
数据合成：了解如何从自然语言数学源生成形式化训练数据。

学习时间: 4-6周

学习资源:

论文：DeepMind的《Training Verifiers to Solve Math Word Problems》、AlphaGeometry相关论文
项目：OpenAI的Lean Copilot项目、Minerva相关技术报告
书籍：《Reinforcement Learning: An Introduction》（Sutton & Barto）

学习建议: 重点关注“生成”与“验证”的闭环。尝试复现简单的树搜索算法来辅助语言模型生成解题步骤。阅读HorizonMath中关于如何构建评估基准的章节，理解“自动验证”的具体实现方式。

阶段 3：前沿架构与系统设计

学习内容:

多模态态数学模型：学习如何处理包含大量符号、公式和图表的数学输入。
上下文窗口与长推理：研究长上下文技术如何支持复杂的、多步骤的数学证明。
工具增强学习：掌握如何让大模型学会调用Python SymPy、SageMath等外部计算工具辅助推理。
并行采样与验证：理解大规模并发证明搜索的系统架构设计。

学习时间: 6-8周

学习资源:

论文：Llemma (《Llemma: An Open Language Model For Mathematics》)、Galactica相关技术报告
代码库：Lean 4的Mathlib库源码、Equivariant Diffusion for Trajectory Generation（针对几何问题）
网站：Proof Assistant Stack Exchange

学习建议: 此时应当开始阅读HorizonMath论文本身，重点关注其提出的“Horizon”指标定义。尝试自己设计一个小型的系统，能够结合LLM和Python脚本解决高中水平的代数问题。

阶段 4：精通研究与前沿探索

学习内容:

HorizonMath论文精读：全面解析论文中关于“数学发现”的评估体系、自动验证器的构建细节以及实验结果分析。
神经符号推理：探索结合符号逻辑推理与神经网络学习的最新混合架构。
泛化与迁移：研究模型在未见过的数学领域（如从代数迁移到拓扑学）的泛化能力。
自动化数学发现：思考如何利用AI提出新的猜想，而不仅仅是证明已有的定理。

学习时间: 持续学习

学习资源:

核心论文：《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》
前沿会议：ICLR、NeurIPS中关于Reasoning和Mathematics的最新Workshop
社区：Formal Abstracts（未来数学社区）、Lean Zulip聊天社区

学习建议: 在此阶段，学习者应具备独立开展研究的能力。建议尝试复现HorizonMath中的部分实验，或者基于其开源代码进行改进。关注自动验证在更高阶数学分支（如分析学、代数几何）中的局限性，并思考解决方案。

常见问题

什么是 HorizonMath 基准测试？

HorizonMath 是一个专门用于评估人工智能模型在数学发现领域能力的基准测试数据集。与以往主要关注解决竞赛级数学问题（如奥数题）的数据集不同，HorizonMath 侧重于评估模型处理“研究级”数学问题的能力。它包含了一个包含约 100 万个自动形式化定理证明的数据集，这些内容来源于 arXiv 上的数学论文，旨在测试 AI 是否能够辅助人类数学家进行真正的数学研究和定理验证。

HorizonMath 与现有的数学基准（如 MATH 或 GSM8K）有什么区别？

主要区别在于问题的来源、难度级别和验证方式。

来源不同：MATH 或 GSM8K 主要基于竞赛题目或教科书习题，而 HorizonMath 直接取材于前沿的数学研究论文。
难度与性质：传统基准测试考察的是在已知规则下的解题能力，而 HorizonMath 考察的是探索未知、证明新定理的能力，这更接近于真实的数学研究工作。
验证方式：HorizonMath 强调“自动验证”，利用形式化证明工具（如 Lean 4）来严格检查 AI 生成的证明步骤是否正确，而不仅仅是检查最终答案。

HorizonMath 如何利用自动验证来评估 AI 的表现？

该基准测试将自然语言描述的数学问题转化为形式化语言（如 Lean 4 代码）。AI 模型需要生成能够证明这些定理的代码或步骤。评估系统会自动运行形式化证明器（Prover），尝试验证模型生成的证明是否在逻辑上是严密且自洽的。如果模型生成的代码能够通过形式化证明器的类型检查和证明搜索，则被视为成功。这种方法消除了人工评分的主观性，并能精确指出证明过程中的逻辑漏洞。

目前主流的大语言模型（LLM）在 HorizonMath 上的表现如何？

根据论文的研究结果，即使是目前最先进的专有模型（如 GPT-4o）和开源模型，在 HorizonMath 上也面临着巨大的挑战。尽管这些模型在传统的数学基准测试上表现出色，但在处理研究级问题时，其通过率依然非常低。这表明当前的 AI 模型在处理长上下文、复杂逻辑推理以及需要多步创新性推导的数学发现任务上，仍存在显著的局限性。

为什么构建 HorizonMath 这样的基准对 AI 的未来发展很重要？

数学是逻辑推理的试金石。构建针对“数学发现”而非仅仅是“解题”的基准，对于推动 AI 从“模式识别”向“逻辑推理”和“科学发现”转型至关重要。HorizonMath 提供了一个更接近人类科学家真实工作环境的测试平台，能够帮助研究人员更准确地评估 AI 在科学研究中的潜力，并指导开发下一代具备更强推理和验证能力的 AI 系统（如数学家级别的 AI）。

HorizonMath 数据集的构建过程是怎样的？

数据集的构建主要涉及以下几个步骤：首先，从 arXiv 等学术库中收集大量的数学论文 PDF；其次，利用解析工具提取出论文中的定理陈述和证明内容；接着，通过自动化的管道将这些自然语言和 LaTeX 格式的数学内容转化为形式化证明语言（如 Lean）；最后，通过自动证明器进行筛选和清洗，确保数据集中的定理是可以被验证的，从而形成一个高质量的、大规模的形式化数学语料库。

引用

ArXiv: http://arxiv.org/abs/2603.15617v1
PDF: https://arxiv.org/pdf/2603.15617v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： HorizonMath / 数学基准 / 自动验证 / 数学发现 / LLM / AI科研 / 数据污染 / GPT-5.4
场景：大语言模型 / AI/ML项目

HorizonMath：自动验证技术评估AI数学发现能力