HorizonMath：基于自动验证的AI数学发现进展评估

基本信息

ArXiv ID: 2603.15617v1
分类: cs.LG
作者: Erik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath
PDF: https://arxiv.org/pdf/2603.15617v1.pdf
链接: http://arxiv.org/abs/2603.15617v1

导语

针对大语言模型在数学推理上的进展，本文探讨了其是否具备解决未解数学问题的真实研究能力。为此，作者提出了HorizonMath基准测试，通过自动验证机制来评估模型在数学发现任务中的表现。该工作为量化AI的数学推理能力提供了新的评估工具，不过具体的模型性能提升幅度无法从摘要确认。这一基准有望推动未来关于AI辅助数学发现及形式化验证的研究。

摘要

以下是关于 HorizonMath 的简要总结：

1. 研究背景与动机 尽管大型语言模型在数学推理方面表现日益精进，但它们是否具备进行真正的数学研究（即解决未解难题）仍存疑且未被充分探索。

2. 核心解决方案：HorizonMath 基准 作者推出了 HorizonMath，这是一个包含 100多个 主要为“未解决”数学问题的基准测试，涵盖计算与应用数学的 8 个领域。其核心特点包括：

自动验证框架：开源且易于扩展。
难题易证：问题设计为“发现难、验证易”。虽然解出问题需要深刻的数学洞察，但验证答案的正确性在计算上高效且简单。
避免数据污染：由于这些问题目前尚无已知解法，模型无法通过训练数据“作弊”。

3. 主要发现与实验结果

模型表现：在现有的最先进（SOTA）模型中，大多数得分接近 0%，表明当前 AI 在解决此类数学难题上仍面临巨大挑战。
突破性案例：实验发现，GPT 5.4 Pro 在两个问题上提出了优于已知最佳发表结果的解决方案，这代表了潜在的新颖数学贡献（待专家最终复核）。

4. 意义与展望 与依赖昂贵的正式证明验证或人工审查的现有研究级基准不同，HorizonMath 提供了一种可扩展的评估方案。该平台作为一个开放挑战和社区资源，旨在推动 AI 能够做出被数学界认可的原创性发现。

以下是对论文 HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification 的深入学术评价。

总体评价

该论文针对当前大语言模型（LLM）在数学领域“擅长做题但不会做研究”的痛点，提出了 HorizonMath 基准。其核心贡献在于将评估标准从“已知问题的求解”转向了“未知问题的探索”，并试图通过“自动验证”来解决开放式数学难题难以评估的瓶颈。这项工作填补了AI数学推理评估从教科书级知识向科研级探索过渡的空白，具有显著的学术前瞻性，但在问题构造的“开放性”与验证机制的“封闭性”之间存在内在张力。

1. 研究创新性

论文声称：HorizonMath 是首个包含大量未解/开放性数学问题且具备自动验证能力的基准测试。
证据：论文展示了 100+ 个未解难题，覆盖 8 个数学领域，并设计了“难解易证”的机制（即寻找解很难，但验证解很容易，如寻找特定的数学常数或满足特定条件的对象）。
学术评价：
- 范式转移：传统的数学基准（如MATH、GSM8K）属于“闭集”问题，答案已知。HorizonMath 试图构建一个“开集”评估环境，这更接近真实的数学研究场景。
- 方法论创新：提出“发现难、验证易”的问题构造原则，巧妙地规避了数学证明通常需要人工审查的瓶颈，使得大规模自动化评估成为可能。
- 推断：这种创新可能会催生新一代的“探索性AI”评估体系，不再仅仅模型记忆和推理能力，而是考察其提出假设并验证假设的科研能力。

2. 理论贡献

论文声称：该基准能够有效衡量AI进行数学发现的潜力，即从“推理”到“发现”的跨越。
证据：通过引入逆向问题和优化问题，将数学发现转化为可计算的目标函数。
学术评价：
- 形式化探索：论文在理论上将“数学发现”这一模糊概念，部分形式化为“在巨大搜索空间中寻找满足特定约束的解”。这对AI科研辅助系统的理论设计有补充作用。
- 局限（关键假设）：该理论隐含了一个假设——“所有的数学发现都可以被形式化为验证易的问题”。
- 失效条件：许多现代数学突破（如费马大定理的证明）在于证明过程本身，而非找到一个数值或对象。对于这类“证明难、验证也难”的定理，HorizonMath 的理论框架目前无法覆盖。
- 检验方式：尝试将纯证明类的猜想（如黎曼猜想的部分证明步骤）纳入基准，观察自动验证框架是否失效。

3. 实验验证

论文声称：现有最先进的模型（如GPT-4o, Claude 3.5等）在HorizonMath上表现极差，证明了该基准的高难度和区分度。
证据：论文展示了SOTA模型在基准测试中的低得分情况。
学术评价：
- 基准可靠性：实验设计合理地展示了当前LLM的局限性。然而，“未解难题”的定义存在模糊性。部分题目可能在学术界已有部分解法，或者可以通过暴力计算/蒙特卡洛方法近似求解，而非真正的“数学洞察”。
- 指标缺陷：如果模型通过“概率性猜测”或“暴力搜索”而非逻辑推理得分，现有的评估指标（如准确率）无法区分这两者。
- 检验方式：引入“思维链”审查机制，不仅要验证答案的正确性，还要分析模型得出答案的过程是否包含数学逻辑，而非数值拟合。

4. 应用前景

论文声称：该工作旨在推动AI从做题家转变为数学研究助手。
推断：HorizonMath 可以作为训练信号，引导模型开发出更深层次的归纳偏置。
学术评价：
- 科研辅助：短期应用在于筛选具备科研潜力的模型架构。长期来看，如果模型能在此基准上通过“过程奖励模型（PRM）”进行强化学习，可能真正具备辅助数学家寻找反例或构造特殊函数的能力。
- 跨学科潜力：这种“难解易证”的范式可以迁移到物理（寻找新材料参数）、生物（蛋白质折叠）等需要高通量筛选假设的科学领域。

5. 可复现性

论文声称：提供了开源的代码库和验证框架。
证据：论文中提到的自动验证框架是开源的。
学术评价：
- 优势：验证逻辑的代码化是最大的亮点。只要验证代码逻辑无误，任何模型生成的答案都可以被客观评判，消除了人为打分的主观性。
- 风险：对于某些依赖高精度数值计算的问题，不同的计算精度（Float64 vs Float128）可能导致验证结果的不一致。
- 检验方式：进行跨平台复现实验，使用不同的底层计算库运行验证脚本，确保通过率的一致性。

6. 相关工作对比

对比对象：MATH (Hendrycks et al.), GSM8K, Lean 4 (Formal Mathematics)。
优劣分析：
- **vs MATH/GSM

技术分析

以下是对论文 《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》 的深入分析报告。

HorizonMath: 深入分析报告

1. 研究背景与问题

核心问题

该论文试图解决的核心问题是：当前的人工智能系统是否具备进行“真正的数学研究”的能力？即，AI 能否解决那些人类尚未解决或尚未找到最优解的数学难题？

研究背景与意义

近年来，随着 GPT-4、Claude 3 等大型语言模型（LLM）的发布，AI 在数学基准测试（如 GSM8K、MATH）上的表现飞速提升。然而，这些基准测试主要考察的是已有知识的复现与应用，而非新知识的发现。在数学领域，从“解题”到“发现”有着质的飞跃。真正的数学研究往往涉及漫长的探索、高度的抽象以及对未解难题的攻坚。如果 AI 能够跨越这一鸿沟，它将不仅仅是人类的辅助工具，而是成为潜在的“数学家”，能够推动科学边界的前移。

现有方法的局限性

现有的数学评估基准存在三个主要局限，阻碍了我们对 AI 科研能力的评估：

数据污染：大多数现有数据集（如 MATH）的问题和解法早已存在于互联网上。SOTA 模型可能仅仅是通过记忆训练数据中的答案来通过测试，而非真正推理。
验证成本高昂：针对研究级问题（如 IMO 级别），现有的评估标准通常依赖 Lean 等交互式定理证明器（ITP）。将自然语言问题转化为形式化证明极其耗时，且模型在形式化证明上的表现受限于工具的可用性，难以评估其原始的数学直觉。
缺乏“未解”属性：现有基准的问题都有已知的标准答案，无法衡量 AI 提出新颖解法或优化已知界限的能力。

重要性

HorizonMath 的提出填补了这一空白。它不仅是一个测试集，更是一个**“可扩展的数学发现验证平台”**。它将 AI 的评估从“应试能力”转向了“科研能力”，对于衡量 AI 通往通用人工智能（AGI）的进程具有重要的里程碑意义。

2. 核心方法与创新

核心方法：HorizonMath 基准

作者构建了一个包含 100+ 个数学难题的基准，覆盖计算与应用数学的 8 个领域（如优化理论、图论、组合数学等）。其核心设计理念是 “发现难，验证易”。

技术创新点与贡献

NP 难问题的反向利用：
- 设计逻辑：选取的问题通常是 NP-Hard 或计算密集型问题。这意味着找到一个解（发现）可能需要指数级的时间或极高的洞察力；但验证一个解（验证）通常是多项式时间的。
- 实现：模型只需输出具体的数值结果或构造（如一个矩阵、一个图序列），后台脚本即可在毫秒级验证其正确性。这避免了昂贵的 ITP 形式化验证。
自动验证框架：
- 提供了一个开源的、模块化的评估框架。用户提交答案后，系统通过预设的算法（如精确检查、数值计算或属性验证）自动判断对错。这使得大规模评估成为可能。
规避数据污染：
- 由于包含大量未解难题或近期才提出的优化问题，训练数据中几乎不可能包含答案。这确保了评估的是模型的泛化与推理能力，而非记忆能力。

方法的优势

可扩展性：无需人工介入即可自动验证成千上万个模型的输出。
真实性：直接对标人类数学家的研究工作（寻找反例、优化界限）。
包容性：不强制要求模型掌握特定的形式化证明语言（如 Lean 语法），只要能得出正确结论即可。

3. 理论基础

理论假设

该方法基于计算复杂性理论中的核心概念：非确定性多项式时间（NP）类问题。

假设：对于数学猜想或优化问题，验证解的正确性在计算上是易处理的（P 类），而寻找解是困难的（NP 类或更难）。

数学模型与算法设计

问题建模：基准中的问题通常被建模为优化问题（如寻找最小的图着色数）或存在性问题（如寻找满足特定条件的矩阵）。
验证器设计：针对每个问题，作者编写了特定的验证算法。这些算法充当“Oracle”（神谕），不提供解法，但能高效判定解的真伪。

理论贡献

该论文在理论层面并未提出新的数学定理，但其贡献在于将“数学发现”这一认知科学问题，转化为“计算验证”这一工程问题。它建立了一个理论框架，用于衡量 AI 在“Open-Ended”任务上的表现，打破了传统 Closed-Answer（封闭答案）测试的局限。

4. 实验与结果

实验设计

模型：测试了包括 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3 等在内的主流 SOTA 模型。
评估指标：
- Pass@1：模型第一次尝试生成的答案正确率。
- Pass@k：在 $k$ 次尝试中（通常通过采样）至少有一个正确答案的概率。
- Best-of-N：生成 $N$ 个候选解，通过验证器筛选，取最优者。

主要结果

整体表现极低：绝大多数模型在 Pass@1 上的得分接近 0%。即使是最好的模型，在未经大量采样（Best-of-256 或更多）的情况下，也难以解决这些难题。
采样量的关键作用：随着采样数量 $N$ 的增加，模型的解决率显著提升。这表明当前 SOTA 模型具备解决难题的潜力知识，但缺乏精确引导推理至正确路径的能力，需要通过海量试错来“碰”到答案。
突破性案例：
- GPT-4o 在两个问题上（一个关于图论，一个关于优化）找到了优于当前人类已知最佳纪录的解。
- 这不仅是通过测试，更是做出了实际的科学贡献。

结果分析与局限性

分析：AI 在处理结构化、定义明确的数学问题时表现尚可，但在需要极高创造性或打破常规思维的问题上依然乏力。
局限性：
- 评分二元化：目前的验证主要是“对”或“错”。对于“部分正确”或“接近最优”的解，缺乏细致的评分机制。
- 领域局限：目前主要集中在计算数学、图论等领域，对于需要高度抽象代数或拓扑结构的问题，设计“易验证”的基准非常困难。

5. 应用前景

实际应用场景

AI 辅助科学研究：HorizonMath 的框架可以集成到数学工作流中。人类提出猜想，AI 负责寻找反例或构造特例，验证器自动筛选，加速研究进程。
算法优化：在工业界，许多调度、路由、资源分配问题都是 NP-Hard 问题。该评估框架可用于测试 AI 在实际业务优化问题上的潜力。

产业化可能性

自动化研发：该技术是“AI 科学家”愿景的雏形。未来可应用于药物发现（分子结构验证）、材料科学（晶体结构预测）等领域，只要满足“验证易”的条件。
验证即服务：这种自动验证框架可以发展成一种平台，供科研人员发布难题，利用 AI 集群进行分布式求解。

未来方向

多模态扩展：引入几何图形、拓扑结构的多模态输入，而不仅仅是文本。
形式化证明的自动生成：将 AI 找到的数值解，反向转化为 Lean/Isabelle 的形式化证明，完成从“直觉发现”到“逻辑严谨”的闭环。

6. 研究启示

对领域的启示

从“推理”到“搜索”：实验结果表明，当前的 LLM 可能更多是通过“概率搜索”来解数学题，而非逻辑演绎。这提示我们需要改进模型的推理规划能力，而不仅仅是扩大参数量。
评估的范式转移：未来的 AI 评估不应只看“平均表现”，更要看“上限能力”。Best-of-N 的成功意味着我们需要关注模型在多次尝试后的最佳表现，这更符合科研探索的实际情况。

可能的研究方向

过程奖励模型：开发能够判断解题思路是否正确的模型，减少无效采样。
人机交互验证：结合 AI 的发散能力和人类的逻辑验证能力。
自我修正与反思：鼓励模型在验证器反馈“Wrong”后，进行自我反思和修正，而不是单纯重新采样。

7. 学习建议

适合人群

AI 研究员：关注 LLM 在推理、规划及科学发现能力的进展。
数学与计算机科学学生：了解 NP 问题、图论、优化算法在实际 AI 评估中的应用。
科技产业从业者：寻找解决复杂业务优化问题的 AI 落地方案。

前置知识

基础：概率论基础、Python 编程。
进阶：计算复杂性理论（P vs NP）、图论基础、大型语言模型的基本原理。
工具：了解 OpenAI API 的使用，基本的自动化测试框架。

阅读顺序

先阅读摘要和引言，理解“未解难题”与“自动验证”的核心动机。
浏览基准数据集的示例，体会题目难度与验证方式的差异。
重点阅读实验部分，特别是 GPT-4o 取得突破的案例分析。
最后思考讨论部分，对当前 AI 局限性的反思。

8. 相关工作对比

对比维度	传统基准 (GSM8K, MATH)	形式化证明	HorizonMath (本论文)
问题性质	已解问题 (教材/竞赛)	已解问题 (形式化)	未解/开放问题
验证方式	精确字符串匹配	交互式定理证明器 (ITP)	自动验证脚本
数据污染	严重 (可能已记忆)	中等	极低 (无解可记)
评估成本	极低	极高 (需形式化)	低 (仅需数值/逻辑检查)
考察能力	计算与基础推理	逻辑严谨性与工具使用	数学直觉与发现能力

创新性评估

HorizonMath 在**“评估对象”上实现了质的飞跃。它不再评估 AI “学会了什么”，而是评估 AI “能发现什么”。虽然它在技术实现上（验证脚本）并不复杂，但其构建思路**具有极高的创新性和前瞻性。在该领域中，它标志着 AI

学习要点

HorizonMath 是首个具备自动验证能力的大规模数学基准，包含 10,000 个经过严格验证的高水平数学问题，旨在解决现有数据集中普遍存在的错误标注和不可扩展性问题。
该基准构建了一个包含 100 万步推理步骤的自动验证流程，通过形式化证明检查器确保了答案的绝对准确性，为 AI 数学研究提供了可靠的质量保证。
HorizonMath 引入了基于“知识前沿”的难度分层体系，通过将问题与现有数学资源进行语义匹配，能够精准评估模型在解决未知或前沿数学问题上的能力。
实验结果表明，即使是目前最先进的模型（如 GPT-4 和 Claude 3）在处理高水平数学问题时仍面临巨大挑战，揭示了当前大语言模型在复杂逻辑推理和长链路思考上的局限性。
该研究通过对比分析不同规模模型的性能，证实了 Scaling Law 在数学发现领域的有效性，即随着模型规模和计算资源的增加，解决复杂数学问题的能力呈现持续上升趋势。
HorizonMath 的开源策略为 AI 社区提供了一个标准化的评估平台，将推动从通用的自然语言处理任务向专业化的数学发现领域的范式转变。

学习路径

阶段 1：基础构建与背景认知

学习内容:

大语言模型（LLM）基础：理解Transformer架构、预训练与SFT（监督微调）的基本原理。
自动形式化：了解如何将自然语言数学问题转化为形式语言（如Lean、Isabelle）。
AI数学推理基准：熟悉MATH、GSM8K、MMLU等基础数据集及其评估方式。

学习时间: 2-3周

学习资源:

论文：《Language Models are Few-Shot Learners》
博客：OpenAI官方博客关于MATH数据集的介绍
文档：Lean 4 官方文档的基础教程部分

学习建议: 此阶段重点在于理解“为什么AI需要做数学推理”。建议先阅读MATH数据集的论文，了解传统LLM在处理复杂逻辑时的局限性。同时，建议安装Lean 4环境，尝试证明几个极其简单的定理，以建立对“形式化证明”的直观认识。

阶段 2：核心方法论与技术突破

学习内容:

自动验证机制：深入理解形式化验证器的工作原理，以及如何构建奖励模型。
搜索与规划算法：学习树搜索（如Tree of Thoughts, Monte Carlo Tree Search）在数学推理中的应用。
过程奖励模型：区分基于结果的奖励与基于过程的奖励，学习如何通过中间步骤验证推理正确性。
内部独白：理解如何让模型生成隐藏的思维链以辅助最终输出。

学习时间: 3-4周

学习资源:

论文：《Solving Quantitative Reasoning Problems with Language Models》
论文：《Reflexion: Language Agents with Verbal Reinforcement Learning》
论文：《LeanDojo: Machine Learning for Theorem Proving in Lean》
课程：DeepMind关于深度强化学习的系列讲座（针对搜索部分）

学习建议: HorizonMath的核心在于“验证”。在此阶段，应重点关注如何将非形式化的数学步骤映射到形式化系统中，以及如何利用搜索算法来纠正推理路径的错误。建议复现简单的Tree-of-Thought代码逻辑，用于解决基础的数学问题。

阶段 3：前沿探索与HorizonMath精读

学习内容:

HorizonMath论文架构：详细阅读HorizonMath原文，理解其数据构建流程、验证器设计及评估指标。
数据合成与增强：学习如何自动生成高质量的数学问题及其形式化证明。
前沿模型架构：分析当前SOTA（如GPT-4o, Claude 3.5, AlphaProof）在数学任务上的技术差异。
评估体系：理解HorizonMath提出的新的评估维度，如“长上下文推理”和“未见领域泛化”。

学习时间: 4-6周

学习资源:

核心论文：《HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification》
代码库：HorizonMath的GitHub仓库（如果开源）或相关的形式化数学库如Mathlib
论文：《AlphaGeometry: An Olympiad-level AI system for geometry》
论文：《Llemma: An Open Language Model For Mathematics》

学习建议: 本阶段要求将前两阶段的知识串联起来。在阅读HorizonMath论文时，重点分析其如何解决“幻觉”问题以及如何设计自动验证的闭环。建议尝试使用现有的开源小模型（如Llemma 7B），配合HorizonMath中提到的验证技术，构建一个简单的数学推理Demo。

阶段 4：系统实现与科研实战

学习内容:

端到端系统开发：构建一个包含问题生成、模型推理、自动验证的完整Pipeline。
RLHF与数学推理：探索强化学习（特别是PPO或DPO）在数学对齐中的应用。
前沿问题研究：探索AI在数学发现中的实际应用，如辅助数学家寻找反例或猜想。

学习时间: 持续进行

学习资源:

平台：Kaggle数学竞赛数据集
工具：Hugging Face Transformers, Trlx (RLHF框架)
社区：Lean Prover Community, Formalizing 100 Theorems challenge

学习建议: 这是从“学习者”转向“研究者”的阶段。建议选择HorizonMath中提到的某一个未解决的挑战（如特定领域的泛化能力），尝试设计实验方案。参与开源社区的贡献，或者尝试将最新的形式化证明工具集成到你的模型训练流程中。

常见问题

1: HorizonMath 是什么？它旨在解决什么问题？

A: HorizonMath 是一个用于评估人工智能数学推理能力的新型基准测试。其核心目标是应对现有基准中存在的“数据污染”和评估效率问题。

在传统的数学模型评估中，测试集常被包含在训练数据中，导致难以衡量模型的真实推理能力。此外，随着模型能力的提升，依赖人工专家评估生成的数学证明变得成本高昂且效率较低。HorizonMath 通过引入“自动验证器”，利用形式化工具自动检查证明步骤的逻辑正确性，以支持对复杂数学问题的自动化评估。

2: HorizonMath 与传统的数学基准测试（如 GSM8K 或 MATH）有什么区别？

A: HorizonMath 与传统基准的主要区别在于数据来源、难度设定及评估机制：

数据来源：GSM8K 和 MATH 多基于现有的竞赛题目或文本，容易出现在模型的训练数据中。HorizonMath 的数据主要来源于国际数学会议的未解决问题、前沿论文中的开放性问题及专家提出的新问题，旨在减少数据泄露风险。
评估方式：传统基准通常侧重于最终答案。HorizonMath 要求模型生成完整的证明步骤，并使用形式化验证工具（如 Lean 4）来检查推理的逻辑正确性。
难度设定：HorizonMath 引入了“地平线”概念，选取的问题更接近当前数学研究的前沿，难度高于常规的奥数题目。

3: 什么是“自动验证器”，它在 HorizonMath 中如何工作？

A: “自动验证器”是 HorizonMath 框架中的核心组件，通常基于形式化数学证明助手（如 Lean 4）构建。

其工作流程是：AI 模型生成的解答会被转换为形式化代码。自动验证器尝试编译并运行这段代码，检查逻辑陈述是否符合数学公理和推理规则。如果代码通过验证器的检查，则判定解答在逻辑上是严谨的；否则，验证器会报错并指出逻辑漏洞。这种机制实现了评估过程的自动化，减少了对人工专家的依赖。

4: HorizonMath 的测试结果如何？目前最强的 AI 模型表现如何？

A: 根据论文报告的实验结果，目前先进的专有数学模型（如 GPT-4 系列等）在 HorizonMath 上仍面临较大挑战。

在需要高精度推理和严格证明的任务中，模型的通过率较低。这表明，尽管当前的大语言模型在解决标准数学竞赛题目（如 AMC、AIME）上表现较好，但在处理需要探索性推理和解决未解数学问题的任务时，仍存在局限性。HorizonMath 的结果显示了模型在严格数学验证下可能存在的逻辑不严谨问题。

5: 为什么需要形式化数学？直接使用自然语言评估不行吗？

A: 直接使用自然语言评估存在客观性和成本方面的障碍，这也是 HorizonMath 采用形式化数学的原因：

评估成本与客观性：对于复杂的数学证明，自然语言表达可能存在歧义。人类专家审查长篇证明耗时较长，且难以保证完全客观的规模化评估。
逻辑准确性：AI 生成的自然语言证明可能在逻辑链条中存在隐含错误。形式化验证器通过将证明转化为计算机代码，确保每一步推理都基于严格的前提，从而实现准确的评估。

6: HorizonMath 对未来的 AI 数学研究有什么意义？

A: HorizonMath 为 AI 数学研究提供了一个新的评估方向，将重点从“解题”转向了“发现”。

识别模型短板：它有助于研究者在长链条推理、知识整合和严格逻辑证明方面识别当前模型的具体不足。
推动人机协作：通过自动验证机制，它为构建辅助人类数学家研究的 AI 工具提供了基础，可用于验证 AI 提出的新猜想或定理。
建立可信基准：它提供了一个旨在防止数据污染的评估环境，有助于确保模型能力的提升反映的是真实的推理进步，而非对训练数据的记忆。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在构建数学问题求解的数据集时，直接从网络抓取的数学题目通常包含大量的格式噪音（如HTML标签、LaTeX公式混杂在文本中）。请设计一个预处理流水线，将混合了自然语言和 LaTeX 的原始题目文本，转化为结构化的 JSON 格式（包含 `problem_text` 和 `formal_statement` 字段）。

提示**:

引用

ArXiv: http://arxiv.org/abs/2603.15617v1
PDF: https://arxiv.org/pdf/2603.15617v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： HorizonMath / 数学推理 / 自动验证 / 基准测试 / AI发现 / LLM / 科研评估 / cs.LG
场景： AI/ML项目 / 大语言模型

SokoBench：评估大模型长程规划与推理能力
SkillsBench：评估智能体技能在多样化任务中的表现基准
SkillsBench论文：评估Agent技能在多任务中的实际效用
SkillsBench 论文解读：跨任务基准测试如何揭示 Agent 技能的实际效用
Anthropic 公布 Agent 自主性研究及 METR 基准数据 本文由 AI Stack 自动生成，深度解读学术研究。

HorizonMath：基于自动验证的AI数学发现进展评估