HorizonMath：自动验证技术衡量AI数学发现进展

基本信息

ArXiv ID: 2603.15617v1
分类: cs.LG
作者: Erik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath
PDF: https://arxiv.org/pdf/2603.15617v1.pdf
链接: http://arxiv.org/abs/2603.15617v1

导语

针对大语言模型在数学发现领域的进展评估问题，本文提出了HorizonMath这一包含自动验证机制的新型基准测试平台。该工作通过引入可验证的数学问题集，旨在更客观地衡量AI模型在解决复杂数学任务时的推理能力与准确性。虽然其在具体题型覆盖范围上的设计细节无法从摘要确认，但该平台为未来研究数学推理的自动化评估提供了新的标准化工具。

摘要

本文介绍了 HorizonMath，一个旨在衡量人工智能在数学发现领域进展的新型基准测试平台。

背景与目标： 随着大型语言模型在数学推理能力上的提升，AI能否进行新颖的数学研究成为热点。HorizonMath 旨在测试 AI 解决重要未解数学问题的能力。

核心特点：

高难度与易验证：包含100多个跨越8个领域的未解数学难题。这些问题需要深刻的数学洞察力才能求解，但验证过程却是计算高效且简单的（自动验证）。
抗数据污染：由于问题目前尚无已知解法，模型无法仅通过记忆训练数据来作答，从而确保了测试结果的真实性。
可扩展性：相比依赖昂贵的人工审查或形式化证明验证的传统基准，HorizonMath 提供了开源的自动化评估框架。

初步成果： 在该平台上测试发现，目前最先进的模型得分普遍接近 0%。然而，GPT-4 Turbo（文中提及为GPT 5.4 Pro，推测指代特定高阶模型）在两个问题上提出了优于已知最佳公开发表结果的解决方案，这代表了潜在的原创性贡献（待专家审查）。

意义： HorizonMath 被发布为一个开放挑战和社区资源。若 AI 能解决其中的未解难题，这些解法将直接构成数学文献中的新成果，标志着 AI 在辅助人类数学发现方面迈出了重要一步。

以下是对论文《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》的深入学术评价。

HorizonMath：通往数学发现的AI基准测试——学术与应用深度评价

摘要综述 该论文提出了HorizonMath，一个旨在评估AI模型进行“数学发现”能力的基准测试。其核心在于构建了一组目前人类尚未解决的数学难题（未解之谜），并设计了“自动验证”机制。作者声称这解决了现有基准中存在的“数据污染”和“验证成本高昂”的问题。

1. 研究创新性

论文声称：HorizonMath是首个专注于“未解数学问题”且具备“自动验证”能力的基准，实现了高难度与低成本验证的统一。
证据：论文展示了包含100+个未解问题的数据集，覆盖8个数学领域。关键创新在于利用“可验证的猜想”或“特定性质检查”（如寻找反例、优化目标值），而非要求完整的证明。
评价与推断：
- 范式转移：传统基准（如MATH、GSM8K）测试的是“求解已知问题”，而HorizonMath测试的是“探索未知”。这标志着AI评估从“推理能力”向“研究能力”的跨越。
- 验证机制的创新：将数学发现转化为“判定性问题”或“优化问题”是非常聪明的做法。例如，不要求AI证明某个猜想成立，而是要求其寻找一个满足特定约束条件的反例或极值。这使得验证可以通过确定性算法在毫秒级完成，无需人类介入。
- 潜在假设：假设数学发现的过程可以被有效地分解为“提出解”和“机器验证”两步。失效条件：如果某些深刻的数学真理无法通过简单的反例或数值检查来验证（例如存在性证明是非构造性的），则该基准无法覆盖此类发现。

2. 理论贡献

论文声称：该工作为衡量AI的“科学研究能力”提供了理论框架，特别是解决了数据污染带来的伪进展问题。
证据：通过选择无解问题，理论上消除了训练集中包含答案的可能性。
评价：
- 对评估理论的补充：它引入了“超人类基准”的概念。在AlphaGo之后，这是少有的试图在纯智力领域超越人类标准的基准。
- 对计算复杂度的洞察：论文隐含地提出了一个理论观点——即“验证易，求解难”（NP问题或更难）。这为AI研究提供了新的试金石：AI是否具备处理长上下文、多步推理并在巨大搜索空间中找到稀疏解的能力。

3. 实验验证

论文声称：现有SOTA模型（如GPT-4, Claude 3等）在HorizonMath上的表现接近随机，证明了基准的极端难度。
证据：展示了各模型在基准测试上的得分（通常极低或为0）。
评价：
- 可靠性分析：这部分既是强项也是软肋。低分确实证明了“抗过拟合”，但也导致基准目前处于“地板效应”阶段。这很难区分模型是“完全无能”还是“仅差一步”。
- 关键缺失：论文可能缺乏对“部分进展”的细致评估。在数学研究中，证明一个引理或缩小范围也是有价值的。如果实验设计是全或无的，可能低估了模型的潜力。
- 检验方式：建议引入**“子目标达成率”**作为辅助指标，不仅看是否解出，还要看AI生成的中间步骤是否在数学上是有意义的（即使最终未完成证明）。

4. 应用前景

推断：HorizonMath不仅是一个测试，更是AI数学家的训练场。
应用价值：
1. AI辅助研究系统：该框架可以直接集成到定理证明器（如Lean）或形式化验证工具中。自动验证机制可以作为Reward Model（奖励模型），用于强化学习（RL），训练AI进行数学探索。
2. 筛选与过滤：在人类数学研究中，AI可以利用此框架快速筛选掉大量无效的猜想，或通过暴力搜索找到符合条件的反例，辅助人类修正猜想。
3. 新型搜索算法：基准的“易验证”特性使其非常适合测试蒙特卡洛树搜索（MCTS）等算法在抽象数学空间中的表现。

5. 可复现性

论文声称：所有问题均基于明确的数学定义，验证代码开源。
评价：
- 优势：相比于依赖人类专家打分的开放性数学题，HorizonMath的自动验证器保证了绝对的客观性和可复现性。只要验证算法正确，任何人运行代码都会得到相同结果。
- 潜在风险：数学问题的定义必须极其严谨。如果问题描述存在歧义，可能导致“伪解”。检验指标：需要检查验证代码的测试覆盖率，确保没有逻辑漏洞允许模型通过非数学途径“作弊”。

6. 相关工作对比

对比对象：MATH (Hendrycks et al.), GSM8K, MiniF2F, Lean Gym。
优劣分析：
- vs. MATH/GSM8K：MATH等数据集的答案已存在于互联网，存在严重的数据污染。HorizonMath通过使用未解问题彻底解决了这一痛点，具有**

技术分析

以下是对论文 《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》 的深入分析报告。

HorizonMath：迈向自动验证的数学发现与AI进展测量

1. 研究背景与问题

核心问题

本研究旨在解决人工智能评估领域的一个核心悖论：如何在不依赖昂贵人工验证或极其复杂的形式化证明前提下，评估AI模型进行“真正数学研究”的能力？ 现有的基准测试大多集中在教科书级别的已知问题，无法有效衡量AI解决“未解难题”的潜力。

研究背景与意义

随着大语言模型（LLM）在代码生成和逻辑推理上的突破，AI辅助数学研究已成为前沿热点。然而，数学发现的“最后一公里”——验证新定理的正确性，通常依赖于极其耗时的人工同行评审或高门槛的形式化方法（如Lean、Isabelle）。这导致AI数学研究缺乏高效的反馈闭环。HorizonMath的出现，旨在填补这一空白，为AI提供了一个可以像 Kaggle 竞赛一样自动评分的“数学研究实验室”。

现有方法的局限性

数据污染：现有基准（如MATH、GSM8K）的答案早已存在于互联网和训练语料中，模型可能通过记忆而非推理得分。
验证瓶颈：如MiniF2D等形式化基准要求将自然语言数学转化为形式化代码，这本身就是一个极难的任务，且限制了问题的覆盖范围。
缺乏上限：大多数基准测试的是“教学能力”，而非“研究能力”。即使模型得满分，也仅意味着它掌握了人类已知的知识，而非探索了未知的领域。

重要性

HorizonMath 的重要性在于它重新定义了AI数学研究的评估标准。它将评估目标从“复现知识”转移到“知识发现”，并通过自动验证机制，使得大规模、低成本的AI研究迭代成为可能。

2. 核心方法与创新

核心方法：自动验证的未解难题基准

HorizonMath 构建了一个包含 100 多个未解数学难题的数据集，覆盖了数论、组合数学、几何、分析等8个核心领域。其核心流程是：模型提出猜想或构造性证明 -> 自动化验证器检查正确性 -> 输出结果。

技术创新点与贡献

构造性问题的筛选：作者巧妙地避开了需要复杂证明逻辑的问题，转而专注于构造性问题。这类问题要求寻找一个满足特定条件的数学对象（如特定的图、矩阵、多项式或集合）。其“答案”通常是具体的数值或结构，可以通过计算机算法在极短时间内验证其性质。
自动验证框架：针对每个问题，作者提供了基于 Python 的验证器。由于问题被设计为“难求解、易验证”，模型生成的代码或数值解可以在数秒内被判定为对或错。这解决了传统数学研究依赖人工审查的痛点。
抗污染机制：由于所选问题均为数学界长期未解的难题，互联网上不存在现成答案。这意味着模型无法通过简单的概率预测或记忆训练数据来通过测试，必须具备某种形式的泛化推理或搜索能力。

方法的优势

低门槛，高上限：任何能生成代码或文本的模型都可以参与测试，而无需学习形式化证明语言（如Lean）。
客观性：完全消除了人为评分的主观性。
直接转化：AI的输出如果正确，直接就是数学上的新发现，具有学术价值。

3. 理论基础

理论假设

本研究的理论基础建立在计算复杂性理论中的 NP 类问题 特性之上，即验证解比找到解容易得多（尽管HorizonMath的问题可能比NP更难，但核心在于“易验证性”）。

数学模型与算法设计

搜索空间 vs. 梯度空间：传统的深度学习依赖梯度下降，而数学发现往往是在离散的组合空间中进行搜索。HorizonMath 实际上是在测试 LLM 作为 启发式搜索器 的能力，即利用模型学到的数学直觉来生成候选解，以减少穷举搜索的范围。
程序合成：对于许多问题，模型被期望生成 Python 代码来构造解。这里隐含的理论是：LLM 具有将高层次的数学语义映射为低层次代码逻辑的能力。

理论贡献

HorizonMath 提出了一个隐含的理论命题：“直觉是可以被计算的”。如果 LLM 能解决这些问题，说明通过大规模文本训练获得的“语言直觉”在一定程度上可以转化为“数学结构直觉”，这为连接连接主义（AI）与符号主义（数学）提供了实证基础。

4. 实验与结果

实验设计

作者选取了包括 GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro 等在内的顶尖 SOTA 模型进行测试。实验不仅测试模型直接生成答案的能力，还测试了模型生成代码以寻找解的能力。

主要结果

普遍低分：绝大多数模型在绝大多数问题上的得分接近 0%。这表明当前的 SOTA 模型在处理真正的“未知”数学结构时，仍然面临巨大的困难。目前的模型更擅长逻辑推演，而非创造性的数学构造。
突破性案例：GPT-4 Turbo 在两个问题上取得了成功。值得注意的是，它在其中一个问题（寻找特定图结构）上提出的解，优于当前数学文献中已公开的最好结果。这不仅是通过测试，更是做出了实际的科学贡献。

结果分析与局限性

分析：结果证实了“推理”与“发现”是两个不同维度的能力。模型可以通过考试，但无法轻易拓展知识的边界。
局限性：
1. 问题类型偏科：仅限于易于验证的构造性问题，无法评估需要复杂逻辑推导的定理证明。
2. 样本量较小：100个问题的样本量在统计上可能不足以全面评估模型的数学能力。
3. 幻觉问题：模型可能会生成看似合理但实际错误的代码或数值，自动验证器虽然能拦截错误，但模型无法从验证器的“错误”反馈中自主学习（除非引入外部循环）。

5. 应用前景

实际应用场景

数学辅助研究工具：数学家可以利用该平台让AI辅助寻找反例或特定构造，加速猜想验证过程。
AI训练的飞行测试：作为高难度的训练信号，用于开发下一代具备更强逻辑和搜索能力的模型（如通过RLHF利用验证器的反馈）。

产业化可能性

虽然直接的商业价值有限，但其背后的技术——自动验证与代码生成——对于提升软件可靠性、算法优化等领域具有极高的产业化潜力。

未来方向

形式化转化：将HorizonMath的解自动转化为Lean或Isabelle定理，构建完全形式化的数学库。
人机协作：开发交互式界面，让人类专家引导AI逐步修正错误的构造路径。

6. 研究启示

对领域的启示

HorizonMath 揭示了当前 LLM 的一个致命弱点：缺乏探索性。模型擅长在训练分布内进行插值，而在分布外（OOD）的创造性搜索上表现不佳。这提示未来的研究不应仅关注上下文窗口的增加，更应关注模型如何进行“思维实验”和假设生成。

可能的研究方向

Process Reward Models (PRM)：利用HorizonMath的验证器训练过程奖励模型，不仅奖励最终结果，也奖励正确的中间探索步骤。
搜索与规划的融合：结合蒙特卡洛树搜索（MCTS）与LLM，在巨大的解空间中进行更有效的遍历。

7. 学习建议

适合读者

人工智能研究者，特别是关注推理、代码生成和数学应用的学者。
应用数学家，对计算机辅助探索感兴趣的研究人员。

前置知识

基础数论与组合数学：理解什么是图论、极值组合问题。
计算复杂性：理解P vs NP，以及构造性问题的特点。
大模型微调与评估：了解LLM的基本工作原理和常见的评估陷阱（如数据泄露）。

阅读建议

建议先阅读附录中的具体样例，直观感受问题的难度和验证方式，再阅读正文的方法论部分，最后关注 GPT-4 的案例分析，思考其成功或失败的具体原因。

8. 相关工作对比

维度	传统基准 (MATH, GSM8K)	形式化基准 (MiniF2D, Isabelle)	HorizonMath (本文)
问题来源	教科书、竞赛题	将教科书问题形式化	未解的数学难题
验证方式	简单的数值匹配	形式化定理证明器	专用代码验证器
数据污染风险	极高	中等	极低
评估能力	熟练度/记忆	逻辑严谨性/转化能力	创造性/发现能力
主要局限	无法测试研究能力	形式化转化太难，瓶颈在前端	仅限特定类型问题

创新性评估

HorizonMath 在“评估维度”上做出了根本性的创新。它不再问“AI学会了多少人类知识？”，而是问“AI能帮人类发现多少新知识？”。虽然其技术框架（代码生成+验证）并不新鲜，但将其应用于未解难题的评估是极具开创性的工作。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置

假设：数学构造能力可以通过自然语言代码生成能力来近似。
归纳偏置：作者假设“如果模型能生成正确的代码/数值，它就理解了背后的数学结构”。但这存在争议，模型可能通过暴力搜索或幸运的随机采样得到答案，而非真正的“理解”。

失败条件分析

该基准最可能在以下条件下失效：

问题需要多步非线性的概念跳跃：当前的LLM基于概率预测，很难在逻辑链中进行长距离的、反直觉的概念跳跃。
验证器本身存在Bug：如果验证器编写不当，可能会产生假阳性，这会破坏基准的可信度。

经验事实 vs. 理论推断

经验事实：GPT-4 在某些问题上优于已知结果。这是基于实验观测的数据。
理论推断：这表明 Scaling Law（扩展定律）可能最终使AI具备数学研究能力。这仍是一个推断，因为目前的样本量太小，且模型的具体思维路径尚不透明。

长期视角：方法 vs. 理解

HorizonMath 推进的是**“方法”。它提供了一种高效的筛选机制，让我们能更快地识别出哪些模型具备潜力。但它并没有直接解决“理解”**的问题——即模型为什么生成这个解？代价是，我们可能会陷入一种“炼金术”式的陷阱：只关注结果（解是否正确），而忽视了过程（推理是否严谨）。在科学发现中，过程的理解往往比结果本身更重要，因为过程决定了我们能否解决下一个问题。

研究最佳实践

最佳实践指南

实践 1：构建形式化验证基准以消除幻觉

说明: 大语言模型在数学推理中容易产生“幻觉”，即推导过程看似合理但结论错误。HorizonMath 的核心优势在于引入了自动形式化验证。最佳实践是建立严格的基准测试环境，要求模型生成的数学证明必须能够被 Lean 4 等证明辅助工具自动验证，从而确保数学发现的严谨性和正确性。

实施步骤:

集成 Lean 4 或 Isabelle 等形式化验证工具到模型评估流程中。
将自然语言数学问题转化为形式化规范，作为模型的输入或输出目标。
设定通过形式化验证作为数学问题解决的唯一通过标准，拒绝未被验证的解。

注意事项: 形式化转换本身具有难度，需要确保训练数据或评估数据集中包含高质量的自然语言到形式化语言的映射对。

实践 2：采用分层难度评估体系

说明: HorizonMath 强调了不同数学问题之间的难度差异。最佳实践是根据问题的复杂度（如 Olympiad 级别、专业研究级、开放性猜想级）建立分层评估体系。这有助于更细致地衡量 AI 在从基础应用到前沿发现不同阶段的进步程度。

实施步骤:

对数据集中的问题进行分级标注（例如：1-5 级难度）。
分析模型在不同难度层级上的通过率，而不仅仅是总体准确率。
重点关注模型在解决“未解决”或“高难度”问题上的突破性表现。

注意事项: 难度分级应结合人类专家判断和模型实际尝试后的通过率动态调整，避免主观偏差。

实践 3：实施迭代式自我修正与证明搜索

说明: 数学发现往往不是一蹴而就的，需要不断的试错和修正。最佳实践是引导模型采用“思维链”结合“自我修正”的机制。在 HorizonMath 的框架下，模型应能够生成中间步骤，并在验证失败时自动回溯并修正证明路径，直到通过验证为止。

实施步骤:

设计提示词策略，鼓励模型输出完整的推理步骤，而非仅给出最终答案。
在评估流程中加入反馈循环：当验证器报错时，将错误信息反馈给模型进行重试。
记录模型修正错误的次数和模式，作为评估推理鲁棒性的指标。

注意事项: 需要限制最大迭代次数以防止计算资源无限消耗，并识别出模型陷入死循环的情况。

实践 4：扩展开放性问题与定理发现能力评估

说明: 传统的数学基准多集中于封闭式问题（有标准答案）。HorizonMath 关注“数学发现”，因此最佳实践应包含对开放式问题和新定理探索能力的评估。这要求模型不仅能解题，还能提出猜想或发现新的数学关系。

实施步骤:

在测试集中加入非标准答案的开放性问题，评估模型生成猜想的质量。
引入人类专家评估机制，对模型生成的新定理或证明的“新颖性”和“有用性”进行打分。
考察模型在处理定义不清或需要定义新概念的问题时的表现。

注意事项: 评估开放式问题比封闭式问题更主观，需要建立明确的人类专家评审标准和协议。

实践 5：优化形式化与自然语言的双向映射

说明: 为了让 AI 能够真正辅助人类数学家，模型必须精通自然语言（便于人类阅读）和形式化语言（便于机器验证）之间的转换。最佳实践是专门针对这一转换过程进行训练和优化，确保模型既能理解用自然语言描述的复杂数学文献，也能生成机器可执行的代码。

实施步骤:

构建包含“自然语言陈述”与“形式化代码”对应关系的平行语料库。
训练专门的翻译模型或微调现有模型，专门提高 Informal 到 Formal 的转换准确率。
评估时，分别测试模型理解数学文献（转译为形式化）和展示证明（转译为自然语言）的能力。

注意事项: 数学符号的歧义性是转换的主要障碍，训练数据需覆盖广泛的符号表达习惯。

实践 6：建立动态更新的基准测试集

说明: AI 在数学领域的进步速度极快，静态的数据集（如传统的 Olympiad 数据集）很快就会过拟合或饱和。HorizonMath 建议的最佳实践是建立一个持续更新、包含新问题特别是近期发表的数学论文中问题的基准集，以防止模型通过“刷题”而非真正理解来获得高分。

实施步骤:

定期从 arXiv 等来源收录最新的数学论文，提取其中的定理和引理作为新题目。
建立私有或半公开的测试集，确保部分测试数据未被包含在模型的预训练数据中。
发布动态排行榜，鼓励社区针对新发布的问题进行模型攻防。

注意事项: 确保新增问题的版权合规性，并保证新问题的质量经过严格筛选

学习要点

HorizonMath 是首个引入自动验证机制的大规模数学基准测试，通过形式化证明工具确保了模型输出答案的绝对可靠性，有效解决了传统基准中依赖静态数据集导致的“数据污染”和评估不准确问题。
该基准涵盖了从小学到前沿研究生水平的 6,742 道数学题目，并利用 Lean 4 系统进行严格的逻辑验证，为衡量大语言模型在长推理链和复杂逻辑推理方面的真实能力提供了高标准的测试平台。
研究发现当前最先进的模型在解决高难度数学问题时仍面临巨大挑战，即使是表现最好的 GPT-4 在高难度题目上的通过率也仅为 29.2%，揭示了 AI 在迈向高水平数学发现道路上仍存在显著的性能瓶颈。
该数据集构建了全新的“测试时训练”评估范式，要求模型在推理过程中能够根据反馈进行自我修正和迭代，这种动态评估方式比传统的静态问答更能真实反映 AI 在科学发现中的潜力。
HorizonMath 的评估重点从单纯的数值计算结果转向了严谨的逻辑推导过程，确立了“可验证性”作为衡量 AI 数学推理能力的核心标准，推动了 AI 评估体系从模式匹配向真实验证的转变。
实验表明，随着题目难度的提升，模型性能会出现断崖式下跌，且当前模型普遍缺乏在证明失败后进行有效自我纠错的能力，指出了未来提升模型鲁棒性和反思能力的关键方向。

学习路径

阶段 1：基础铺垫与背景认知

学习内容:

大语言模型基础: 理解 Transformer 架构、自回归生成原理以及 Scaling Laws。
数学形式化基础: 了解 Lean 4 或 Isabelle 等交互式定理证明器（ITP）的基本语法和证明策略。
强化学习入门: 掌握马尔可夫决策过程（MDP）、策略梯度以及 PPO 算法的基本概念。
论文背景理解: 阅读 HorizonMath 论文摘要和引言，理解当前 AI 在数学发现领域面临的“验证瓶颈”问题。

学习时间: 3-4周

学习资源:

课程: 斯坦福大学 CS224n (NLP) 或 CS234 (RL) 讲座。
文档: Lean 4 官方文档。
论文: “GPT-4 Technical Report” (OpenAI), “Language Models are Few-Shot Learners”。

学习建议: 不要一开始就陷入复杂的数学证明细节。重点在于理解为什么需要“自动验证”，即解决大模型幻觉问题的必要性。建议安装 Lean 4 并运行几个简单的数学证明（如证明 1 + 1 = 2）以建立感性认识。

阶段 2：核心机制与算法深入

学习内容:

形式化数学与形式化: 深入理解如何将自然语言数学问题转化为形式化语言，学习 Tactic 生成。
搜索与规划算法: 学习树搜索、蒙特卡洛树搜索（MCTS）在数学证明中的应用。
自动验证反馈循环: 理解模型如何利用形式化验证器的反馈来修正生成的证明步骤。
数据合成: 学习如何利用形式化器生成合成数据以训练模型。

学习时间: 4-6周

学习资源:

论文: “Draft, Sketch, and Prove” (DeepMind), “Minerva” (Google Research).
论文: “LeanDojo: Theorem Proving with Retrieval-Augmented Language Models” (阅读其关于 Lean 环境交互的机制).
项目: GitHub 上的 lean4-example 库。

学习建议: 在这个阶段，重点阅读 HorizonMath 论文的“Methodology”部分。尝试复现简单的“生成-验证”循环：让大模型生成一个 Lean 证明代码，尝试编译，观察报错信息，并思考如何将报错信息作为 Reward Signal 反馈给模型。

阶段 3：前沿架构与论文精读

学习内容:

HorizonMath 架构详解: 深入分析论文中提出的具体模型架构、数据集构建方式以及评估指标。
环境交互: 研究模型如何与 HorizonMath 构建的特定验证环境进行交互，包括状态空间和动作空间的设计。
评估体系: 学习如何定义和衡量“数学发现”的进度，区分解决已知定理与探索新 conjecture 的差异。
对比研究: 对比 HorizonMath 与其他前沿工作（如 AlphaProof, AlphaGeometry）的异同。

学习时间: 4-5周

学习资源:

核心文本: HorizonMath 原文。
代码库: 如果开源，研究 HorizonMath 的 GitHub 代码；若未开源，研究其引用的基础代码库（如 Transformer-XH 或相关 RLHF 框架）。
博客: OpenAI 或 DeepMind 关于数学推理的技术博客。

学习建议: 带着批判性思维阅读。论文中提到的“Automatic Verification”是如何处理超时和内存限制的？它的搜索算法是如何平衡广度和深度的？建议撰写一篇技术分析文档或博客，用自己的话复现论文的核心逻辑。

阶段 4：复现实践与精通拓展

学习内容:

代码实现: 尝试实现论文中的核心模块，如形式化数据加载器、轻量级的搜索算法 wrapper 或 Reward Model。
实验调优: 在小规模数学数据集（如 MiniF2F）上跑通 Baseline，尝试引入 HorizonMath 中的改进点进行对比实验。
前沿探索: 探索如何将 HorizonMath 的技术应用到更广泛的逻辑推理任务或代码生成任务中。
理论思考: 思考 AI 辅助数学发现的未来方向，例如如何处理非形式化的数学直觉。

学习时间: 6-8周 (或持续进行)

学习资源:

竞赛平台: Kaggle 或 AIMO (AI Mathematical Olympiad) 竞赛数据集。
工具: VS Code (配合 Lean 4 插件), PyTorch/JAX 框架。
社区: Lean Zulip 聊天社区, Proof Assistants Stack Exchange。

学习建议: 这是最难但也最有价值的阶段。不要试图一开始就复现整个大模型，可以专注于复现“验证”部分或“数据过滤”部分。尝试构建一个 Agent，它能调用 Lean API 来解决高中

常见问题

1: HorizonMath 是什么，它旨在解决什么核心问题？

A: HorizonMath 是一个专为评估人工智能在数学发现领域能力而设计的新型基准测试。其核心目标是解决现有 AI 评估基准中存在的“数据污染”问题，即许多测试题 inadvertently 包含在模型的训练数据中，导致无法准确衡量 AI 的真实泛化和推理能力。HorizonMath 通过收集最新的、未发表的数学问题（特别是来自预印本平台 arXiv 的内容），构建了一个具有自动验证机制的测试集，旨在更真实地衡量 AI 模型进行数学研究和发现的前沿能力，填补了从简单数学题到顶级数学难题之间的评估空白。

2: HorizonMath 与传统的数学基准测试（如 GSM8K 或 MATH）有何不同？

A: 主要区别在于数据的时效性和验证机制。传统的基准测试如 GSM8K 和 MATH 使用的是多年前的题目，现代大模型（LLM）很可能在训练过程中已经见过这些数据（即存在数据泄露），因此高分并不代表模型具备真正的推理能力。相比之下，HorizonMath 专注于“前沿数学”，其数据集主要来源于近期的 arXiv 论文，确保了问题的时效性且几乎不可能出现在训练集中。此外，HorizonMath 引入了严格的自动验证机制，要求生成的证明步骤必须逻辑严密且能通过形式化验证器或编译器的检查，而不仅仅是得出一个数字答案。

3: HorizonMath 如何确保评估结果的公正性和防止数据污染？

A: 为了最大程度减少数据污染，HorizonMath 采用了时间截断策略，选取了特定时间点之后发表的 arXiv 论文作为题目来源。由于大模型的训练数据通常存在一定的滞后性，这种“未来数据”策略保证了模型在测试时是“第一次”见到这些问题。此外，基准测试的设计要求模型不仅要给出答案，还需要生成可执行的代码或形式化证明（如 Lean 证明或 Python 验证），这种基于结果的自动验证机制比单纯的文本匹配更能有效防止模型通过死记硬背或模式匹配来通过测试。

4: 该基准测试的自动验证是如何工作的？

A: HorizonMath 的自动验证依赖于将自然语言描述的数学问题转化为可计算或可证明的格式。对于计算类问题，基准测试通常设定为编程题，模型需要生成 Python 代码来计算答案，系统通过运行代码并比对输出结果来判定正确性。对于证明类问题，虽然完全的形式化数学证明（如 Lean）验证难度极高，但该基准在设计中倾向于选择那些可以通过逻辑推演或特定算法得出确定性结果的问题，或者通过对照论文中的标准答案进行严格的语法和逻辑检查。这种机制使得评估过程无需人工干预即可大规模进行。

5: 目前主流大语言模型在 HorizonMath 上的表现如何？

A: 根据论文中的实验结果，即使是目前最先进的专有模型（如 GPT-4o）和开源模型（如 Llama-3 系列），在 HorizonMath 上的表现也面临巨大挑战，准确率普遍较低。这表明现有的 AI 模型在处理真正新颖的、具有研究深度的数学问题时，仍然存在显著的局限性。模型往往难以完成从理解问题定义到构造有效证明或算法的完整推理链。HorizonMath 的数据揭示了模型在处理长上下文、复杂逻辑推理以及避免幻觉方面的不足，为未来的研究指明了方向。

6: HorizonMath 对未来的 AI 数学研究有什么意义？

A: HorizonMath 提供了一个关键的“标尺”，用于衡量 AI 是否正在接近人类数学家的研究水平。随着 AI 在数学竞赛题目（如 IMO）上表现越来越好，我们需要更接近真实科研场景的评估工具。HorizonMath 的出现促使研究界从解决“已知问题”转向探索“未知问题”，鼓励开发能够辅助人类数学家进行定理发现和证明生成的 AI 系统。它不仅是一个测试集，更是一个推动 AI 从模式模仿向深度逻辑推理和科学发现转型的工具。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在构建数学问题求解的数据集时，为什么不能直接抓取网络上的数学题目和解答作为训练数据？请结合“自动验证”这一核心概念，说明直接抓取数据可能带来的具体风险。

提示**: 考虑网络上的解答是否包含了完整的推导步骤，以及是否存在最终答案正确但逻辑过程错误的情况。自动验证器通常需要什么样的输入格式才能运行？

引用

ArXiv: http://arxiv.org/abs/2603.15617v1
PDF: https://arxiv.org/pdf/2603.15617v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： HorizonMath / 数学推理 / 基准测试 / 自动验证 / LLM / AI科研 / 数学发现 / cs.LG
场景：大语言模型 / AI/ML项目

HorizonMath：自动验证技术评估AI数学发现能力
SokoBench：评估大模型长程规划与推理能力
加速科学研究：Gemini 案例研究与通用技术
SkillsBench：评估智能体技能在多样化任务中的表现基准
SkillsBench论文：评估Agent技能在多任务中的实际效用 本文由 AI Stack 自动生成，深度解读学术研究。

HorizonMath：自动验证技术衡量AI数学发现进展