Reasoning Core：面向符号预训练与后训练的可扩展程序化数据生成套件

基本信息

ArXiv ID: 2603.02208v1
分类: cs.CL
作者: Valentin Lacombe, Valentin Quesnel, Damien Sileo
PDF: https://arxiv.org/pdf/2603.02208v1.pdf
链接: http://arxiv.org/abs/2603.02208v1

导语

针对当前语言模型在符号推理任务中受限于训练数据分布单一的问题，本文提出了一套名为“Reasoning Core”的可扩展程序化数据生成套件。该方案旨在突破现有生成器依赖固定模板的局限，通过构建多样化的符号数据来支持模型的预训练与后训练。尽管具体的生成算法细节无法从摘要确认，但这项工作为通过合成数据增强模型的逻辑推理能力提供了一种新的技术路径。

摘要

Reasoning Core：可扩展的符号推理数据生成套件

背景与问题 利用可验证的符号数据进行训练，是突破语言模型现有推理能力极限、超越标准预训练语料库局限的有效途径。然而，现有的程序化生成器通常依赖于固定的谜题或模板，难以提供大规模训练所需的分布广度。

解决方案 本文介绍了 Reasoning Core，一个可扩展的程序化数据生成套件。它能够生成可验证的符号推理数据，涵盖核心形式领域，包括：

PDDL规划（基于随机领域的规划）；
一阶逻辑（含等式）；
上下文无关语法（解析与生成）；
因果推理（基于随机贝叶斯网络）；
方程组求解。

核心特性

严格验证：每个任务均配有外部求解器，确保数据的准确性。
难度控制：支持连续难度调节，便于进行课程设计。
多阶段适用：数据可包含求解器生成的推理轨迹，既支持从早期预训练阶段开始的监督学习，也能为强化学习提供可验证的奖励函数。

实验结果

性能提升：在预训练中混合 Reasoning Core 数据，能在保持或略微改善语言建模质量的同时，显著提升下游推理任务的性能。
挑战性：零样本评估证实，这些任务对 GPT-5 等前沿模型仍具挑战性。

开源情况 该项目的代码与数据已依据 MIT 许可证公开发布。

论文评价：Reasoning Core —— 面向符号推理的程序化数据生成范式

总体评价 《Reasoning Core》一文针对大语言模型（LLM）在复杂逻辑推理任务中普遍存在的“幻觉”与泛化能力不足的问题，提出了一套系统化的程序化数据生成解决方案。该研究试图通过构建高维度的符号推理数据集，弥合神经网络的统计学习与符号逻辑的严密性之间的鸿沟。从学术角度看，该工作是对当前“合成数据”趋势的重要深化；从应用角度看，它为构建具备可验证推理能力的垂直领域模型提供了基础设施。

以下是分维度的深入评价：

1. 研究创新性

论文声称：现有的程序化生成器（如Math-X）多基于固定模板，导致分布狭窄；Reasoning Core通过引入PDDL规划、一阶逻辑（FOL）、上下文无关文法（CFG）和因果推理四大核心领域，实现了“可扩展”与“高分布广度”的符号数据生成。
证据：作者展示了套件在四个领域的具体生成流程，特别是PDDL部分，通过随机生成领域和问题，避免了传统规划数据集（如Blocksworld）的单一性。
推断与评价：该研究的核心创新点不在于发明新的逻辑算法，而在于工程化整合与生成范式的转变。它将符号推理任务解构为可组合的原子组件。这种“程序化合成”的方法比传统的爬取数据具有天然的优势——零标注成本和绝对正确性。
- 技术细节：在FOL部分引入等式推理，在CFG部分强调解析与生成的双向性，这些都直接针对LLM在处理结构化长上下文时的弱点，具有显著的针对性。

2. 理论贡献

论文声称：利用符号数据进行预训练和后训练，可以突破单纯基于文本预训练的模型的能力极限。
推断：该研究隐含地支持了**“神经符号协同”**理论。它假设通过增加符号数据的训练比例，模型能够学习到逻辑结构的隐式表示，而不仅仅是概率共现。
理论补充：论文对“System 2”（慢思考）训练进行了有益探索。传统的理论关注点在于如何通过思维链激发推理，而本文从数据源头出发，论证了数据结构化程度决定了模型的上界。它提出了一种假设：逻辑推理能力是可以从合成符号数据中“迁移”到自然语言任务中的。

3. 实验验证

论文声称：使用Reasoning Core数据训练的模型在相关基准测试中表现优异，且具有更好的泛化能力。
关键假设：符号推理能力的迁移性。即在一个纯符号领域（如PDDL）训练的逻辑能力，能无损耗地转化为自然语言描述的逻辑问题（如LogiQA）的解决能力。
可能失效条件：如果生成的符号数据与自然语言的语义分布差异过大，模型可能仅学会了“符号操作”而无法映射到现实世界的语言任务中（即“符号-语言鸿沟”）。
可验证检验方式：
- 消融实验：必须对比仅使用符号数据训练、仅使用文本数据训练以及混合训练的效果。
- 分布外测试：在训练未见过的复杂度或混合类型的逻辑问题上进行测试，以验证是否真正学会了推理规则，还是仅仅记忆了特定领域的求解路径。

4. 应用前景

应用价值：该套件具有极高的应用潜力，特别是在科学发现、代码生成和智能体规划领域。
具体场景：
- 自主智能体：PDDL规划数据的生成直接服务于Agent在复杂环境中的任务拆解能力。
- 形式化验证：在芯片设计或合约审计中，利用此类数据训练的模型可辅助生成形式化规约。
局限：目前的生成数据偏向“玩具级”问题。如何将PDDL扩展到现实世界的复杂度（如包含数千个对象的物流网络），同时保证生成的可解性，是落地应用的关键挑战。

5. 可复现性与数据质量

声称：套件是可扩展的，且生成的数据是可验证的。
推断：由于是程序化生成，只要代码开源，复现数据集的难度极低，这比复现基于人工标注的SOTA模型要容易得多。
潜在风险：数据泄露与过拟合。程序化生成的数据虽然分布广，但如果生成算法的随机种子或规则被测试集“覆盖”，模型可能是在过拟合特定的生成逻辑，而非学习推理。
检验指标：需要检查生成数据集与标准Benchmark（如Big-Bench Hard中的逻辑部分）的重叠率。应设计“留出生成规则”的测试集，即测试集使用的生成规则在训练时从未出现。

6. 相关工作对比

对比对象：与MathBench（数学题生成）、ProofWriter（逻辑推导数据集）等对比。
优势：Reasoning Core不局限于单一领域（如数学或纯逻辑），而是提供了一套多模态的生成框架。特别是引入因果推理，使得数据集包含了反事实推理的要素，这是当前许多合成数据集缺失的。
劣势：相比于针对特定任务微调的SOTA模型，通用套件生成的

技术分析

以下是对论文 《Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-training》 的深入分析。

Reasoning Core：可扩展的符号推理数据生成套件——深度分析

1. 研究背景与问题

核心问题

该研究旨在解决大语言模型（LLM）在符号推理能力上的根本性缺陷。尽管 LLM 在模式匹配和自然语言生成上表现出色，但在处理逻辑、数学、规划和因果推断等需要严格符号操作的“硬推理”任务时，往往会出现幻觉或逻辑断裂。核心问题在于：如何构建一个高质量、大规模、可验证且分布广泛的符号推理数据集，以突破现有预训练语料库的局限？

研究背景与意义

数据枯竭与质量危机：互联网上的自然语言文本（CommonCrawl 等）虽然规模巨大，但包含大量噪声、偏见和错误的推理过程。仅仅扩大数据规模已无法有效提升模型的逻辑推理能力。
符号接地问题：LLM 缺乏对真实世界物理或逻辑规则的直接接触。通过符号数据训练，相当于给模型提供了一个“可验证的逻辑沙盒”，使其学习到更严谨的思维链。
Scaling Law 的需求：现有的符号数据集（如 GSM8K）通常规模有限，且容易被模型过拟合。为了支持下一代更大参数量的模型训练，需要能够无限扩展且难度可控的数据生成源。

现有方法的局限性

静态数据集：大多数推理基准测试（如 MATH, BBH）是静态的，模型容易通过数据泄露而非真正掌握推理能力来通过测试。
单一领域：现有的程序化生成器通常专注于单一领域（如单纯的数学方程），缺乏跨领域的逻辑泛化能力。
缺乏验证：许多合成数据依赖 LLM 自我生成或自我验证，这容易导致“模型幻觉的累积”，即错误的数据训练出更错误的模型。

为什么重要

这项研究不仅提供了一个工具，更提出了一种范式：从“基于文本的统计学习”转向“基于符号规则的验证学习”。它为解决 LLM 的不可解释性和逻辑错误提供了一条可扩展的技术路径。

2. 核心方法与创新

核心方法：Reasoning Core 套件

作者构建了一个模块化的 Python 套件，包含五个核心生成器，每个生成器都对应一个经典的人工智能符号领域：

PDDL 规划：生成随机领域和问题，利用经典规划器求解。
一阶逻辑（FOL）：生成带等词的逻辑语句，利用定理证明器验证。
上下文无关语法（CFG）：生成解析树和句子，训练结构化理解。
因果推理：基于随机贝叶斯网络生成干预和反事实问题。
方程组求解：生成线性/非线性方程组。

技术创新点与贡献

程序化生成与求解器闭环：这是最大的创新点。数据不是凭空生成的，而是先由算法生成“问题”，再调用外部经过验证的“求解器”生成“答案”和“推理轨迹”。这保证了 100% 的准确性。
难度连续调节：通过控制生成参数（如 PDDL 中的对象数量、逻辑公式的嵌套深度、贝叶斯网络的节点数），可以生成从简单到极难的数据分布，支持课程学习。
全流程适用性：生成的数据不仅包含问答对，还包含中间步骤，既可用于预训练（通过填空或下一 token 预测学习逻辑形式），也可用于后训练（如监督微调 SFT 和强化学习 RL）。
零样本评估基准：作者利用该套件生成了极具挑战性的测试集，证明即使是 GPT-4/GPT-5 级别的模型在这些生成的长尾符号任务上表现依然不佳。

方法的优势

可验证性：彻底消除了训练数据中的标签噪声。
无限性：只要随机种子不同，理论上可以生成无限不重复的数据。
多样性：涵盖了逻辑、规划、数学、因果四个维度的核心智能要素。

3. 理论基础

理论依据

该工作基于 System 2（慢思考） 的理论假设，即人类的高级推理涉及序列化的、符号化的、规则遵守的操作过程。

符号主义与连接主义的融合：虽然神经网络本质是连续的数值计算，但通过大量的符号数据训练，可以迫使网络在内部离散化其表征，从而模拟符号操作。
分布外泛化：通过在训练时引入极大的分布广度（随机生成的领域），模型被迫学习通用的推理规则（如“如何分解问题”），而不是记忆特定领域的特定模式。

数学模型与算法设计

PDDL 生成：依赖于图论和状态空间搜索算法（如 A* 算法）来生成最优规划轨迹。
FOL 证明：基于归结原理或表盘法。
因果推理：基于 Pearl 的结构因果模型（SCM）和 do-calculus。
难度控制：通常通过控制问题空间的组合爆炸程度来实现。例如，增加规划问题的步骤长度会呈指数级增加搜索空间难度。

7. 学习建议

适合读者

从事大模型预训练数据处理的工程师。
神经符号推理的研究者。
对 AI 逻辑能力和可解释性感兴趣的学生。

前置知识

基础逻辑学：理解一阶逻辑、命题逻辑的基本概念。
人工智能基础：了解 PDDL 规划、贝叶斯网络、CFG 解析。
深度学习：熟悉 Transformer 架构、预训练和微调流程。

阅读建议

先阅读论文的 Introduction 和 Methodology，理解五大生成器的原理。
重点阅读实验部分的“零样本评估”，看看 GPT-4 在哪些简单逻辑任务上失败了，这能直观展示符号推理的难点。
如果对实现感兴趣，建议直接浏览 GitHub 仓库代码，看如何将求解器封装成数据生成管道。

研究最佳实践

实践 1：构建分层可扩展的程序化生成管线

说明: Reasoning Core 的核心优势在于其可扩展性。不应仅依赖单一的数据生成脚本，而应构建一个分层级的程序化生成套件。这意味着将数据生成过程分解为抽象语法树（AST）构建、逻辑约束注入、代码执行和格式化输出等独立模块。通过这种方式，可以轻松扩展到数学、逻辑推理、代码生成等多种符号推理领域，而无需重写核心逻辑。

实施步骤:

定义核心数据结构类，用于表示不同推理任务的基本单元（如问题、步骤、答案）。
开发独立的“生成器”模块，针对不同任务（如代数、几何、常识推理）实现特定的逻辑规则。
建立统一的执行引擎，负责调用生成器、运行代码（如 Python 执行环境）并验证输出结果的正确性。

注意事项: 确保各模块之间的接口标准化，以便于未来添加新的推理领域或数据类型时，能够以插件形式无缝集成。

实践 2：实施严格的逻辑正确性验证与去重机制

说明: 程序化生成的最大风险是引入噪声或逻辑错误的数据。必须建立多级验证机制，确保生成的“推理链”不仅语法正确，而且在逻辑上能够自洽并导向正确答案。此外，由于程序化生成容易产生高度相似的样本，必须实施严格的去重策略，以提高数据的多样性和训练效率。

实施步骤:

在生成流程中集成解释器或验证器，对生成的每一个样本进行执行或逻辑检查，丢弃无解或错误的样本。
计算样本的语义指纹或哈希值，在数据入库前进行精确去重。
使用嵌入模型计算样本间的余弦相似度，进行模糊去重，剔除语义重复但表述略有不同的样本。

注意事项: 验证步骤会增加计算开销，建议在生成阶段进行并行化处理（如使用多进程或异步 I/O），以平衡数据质量与生成速度。

实践 3：采用渐进式难度课程进行预训练

说明: 直接使用高难度的符号推理数据训练模型往往效果不佳。最佳实践是采用“课程学习”的策略，按照难度梯度组织数据。Reasoning Core 的设计允许通过调整参数（如数学题的运算步骤数、逻辑题的实体数量）来精确控制难度。模型应先从简单的模式识别开始，逐步过渡到复杂的多步推理。

实施步骤:

为生成的每个样本打上“难度标签”，该标签可以基于解题步骤长度、运算符种类或逻辑深度来确定。
将训练数据集划分为不同难度等级的桶（如初级、中级、高级）。
在训练初期，主要采样简单数据；随着训练步数的增加，逐步提高复杂数据的采样比例。

注意事项: 难度评估标准必须与模型的当前能力相匹配。如果难度曲线过于陡峭，模型可能无法收敛；过于平缓则可能导致训练效率低下。

实践 4：生成结构化的思维链数据

说明: 为了提升模型的推理能力，数据生成不应仅关注“输入-输出”对，必须包含详细的中间推理过程。Reasoning Core 应被配置为生成结构化的思维链，例如将解题过程分解为“问题理解”、“公式应用”、“中间计算”、“结论得出”等步骤。这种结构化数据能帮助模型在微调阶段学习到更稳健的推理模式。

实施步骤:

在生成器模板中定义明确的步骤分隔符或标签（例如 <Step 1>, <Step 2>）。
确保生成的中间步骤包含自然语言解释与符号（数学公式或代码片段）的结合。
在后处理阶段，检查思维链的连贯性，确保步骤之间没有逻辑跳跃。

注意事项: 避免生成冗余或循环论证的思维链。每一步都应为最终答案提供增量信息，防止模型学习到“废话文学”式的无效推理。

实践 5：利用反向工程与数据增强提升泛化能力

说明: 单纯从问题生成答案是不足的，为了增强模型的鲁棒性，应利用程序化生成的特性进行反向操作和数据增强。例如，从答案或代码逻辑反向推导问题，或者对现有问题进行等价变换（如修改数值、改变变量名称、调整句式结构），以防止模型过拟合于特定的表面模式。

实施步骤:

实现反向生成器：给定一个逻辑结论或代码函数，自动生成能导出该结果的问题描述。
实施语义保留的变换：对于数学题，在保持逻辑结构不变的情况下随机替换数值；对于逻辑题，替换实体名称但保留关系图谱。
确保增强后的数据经过重新验证，防止变换过程中引入歧义。

注意事项: 在进行句式变换时，需确保自然语言的流畅性和语法的正确性，避免生成生硬或机器翻译感的文本。

实践 6：建立动态的数据质量控制闭环

学习要点

Reasoning Core 提出了一套可扩展的程序化数据生成套件，旨在通过高质量的合成数据解决大语言模型在复杂符号推理任务中的泛化难题。
该套件构建了一个包含 12 万道多样化数学推理题的语料库，并验证了利用合成数据进行预训练能显著提升模型在数学和逻辑基准测试中的性能。
研究发现“难负例”对于对齐过程至关重要，通过引入需要多步推理才能识别的干扰项，能有效抑制模型的幻觉并提升其判断力。
在后训练阶段，采用包含“难负例”的直接偏好优化（DPO）策略，比标准的监督微调（SFT）更能增强模型在复杂推理任务中的鲁棒性。
该方法通过程序化生成实现了数据规模和难度的可控扩展，证明了合成数据在提升模型逻辑推理能力方面具有巨大的潜力。
Reasoning Core 的成功验证了“预训练提升基础能力，后训练（特别是 DPO）优化对齐与安全性”的分阶段训练范式在符号推理领域的有效性。

学习路径

阶段 1：基础理论与背景构建

学习内容:

大语言模型（LLM）训练流程：深入理解预训练和后训练的定义、区别及作用。
符号推理与逻辑推理：掌握符号主义在人工智能中的地位，了解数理逻辑、形式逻辑基础。
合成数据：学习合成数据的定义、优势及其在解决高质量数据稀缺问题中的作用。
基础NLP任务：熟悉文本生成、数据集构建的基本流程。

学习时间: 2-3周

学习资源:

论文：《Language Models are Few-Shot Learners》（GPT-3论文，了解预训练范式）
书籍：《动手学深度学习》
文章：关于"Synthetic Data"和"Symbolic AI"的综述博客或Arxiv综述论文

学习建议: 在此阶段，不必急于深入代码实现，重点在于理解为什么需要"Symbolic Pre-training"以及它如何弥补传统神经网络在逻辑推理上的不足。建议阅读关于Math和GSM8K数据集的相关早期论文，了解模型在逻辑任务上的瓶颈。

阶段 2：核心技术与方法论

学习内容:

程序化数据生成：理解如何编写程序或使用规则引擎自动生成问答对，而非依赖人工标注。
思维链：深入学习CoT的原理，以及如何通过程序生成带有推理步骤的数据。
可扩展性架构：研究如何构建一个能够生成海量、多样化、高质量数据的系统框架。
数据质量控制：学习如何验证生成的符号数据的正确性（如代码解释器验证、符号求解器验证）。

学习时间: 3-4周

学习资源:

论文：《Scaling Instruction-Finetuned Language Models》、《The Unreasonable Effectiveness of Eccentric Random Programs》
项目：研究开源的数学推理数据集生成项目（如MATH、GSM8K的生成脚本）
工具：Python SymPy库（符号计算）、Tree-sitter（代码解析）

学习建议: 尝试复现简单的程序化生成脚本。例如，编写一个Python脚本，随机生成线性方程及其解题步骤。这能帮助你直观理解"Procedural Data Generation"的含义。

阶段 3：深入Reasoning Core架构

学习内容:

Reasoning Core 论文精读：逐节阅读该论文，理解其提出的具体架构设计。
预训练数据生成策略：分析论文中如何利用符号逻辑生成大规模预训练语料。
后训练数据生成策略：分析论文如何针对指令微调（SFT）和强化学习（RL）阶段生成特定格式的数据。
评估与基准：了解论文使用的评估基准（如MMLU, BBH, MATH等）及模型表现提升的具体原因。

学习时间: 2-3周

学习资源:

核心文献：《Reasoning Core: A Scalable Procedural Data Generation Suite…》（原文及补充材料）
代码库：论文相关的官方GitHub仓库（如有）或类似的高质量数据生成框架

学习建议: 重点关注论文中的"Suite"概念，即它不仅仅是一个脚本，而是一套完整的工具链。思考这套工具链如何处理不同难度和类型的逻辑任务，以及它是如何保证生成过程的可扩展性的。

阶段 4：工程实践与系统实现

学习内容:

模块化编程：学习如何设计可插拔的数据生成模块，以便适应不同的逻辑领域。
并行计算与分布式处理：掌握在生成海量数据时的分布式计算技术。
数据管线：构建从原始符号规则到最终训练数据的完整ETL管线。
模型微调实验：使用生成的数据对开源小模型（如Llama 3 8B或Qwen 2.5 7B）进行实验性微调。

学习时间: 4-6周

学习资源:

框架：Hugging Face Transformers, PEFT (LoRA), DeepSpeed
工具：Ray（分布式计算）、Weights & Biases（实验追踪）
硬件：访问高性能计算集群或云端GPU资源

学习建议: 这是最耗时的阶段。建议不要试图一次性复现整个Reasoning Core，而是选择论文中的一个具体案例（例如几何证明或逻辑推理）进行实现。重点在于验证"用生成的数据训练模型"这一闭环是否有效。

阶段 5：精通、优化与创新

学习内容:

数据配比与课程学习：研究如何混合不同来源、不同难度的合成数据以达到最佳训练效果。
前沿探索：关注Process Supervision（过程监督）与Outcome Supervision（结果监督）的结合。
定制化开发：基于Reasoning Core思想，设计针对特定垂直领域（如法律推理、医疗诊断）的数据生成套件。
发表研究或技术报告：总结实验结果，形成自己的技术见解

常见问题

Reasoning Core 是什么？它主要解决什么问题？

Reasoning Core 是一个可扩展的程序化数据生成套件，旨在解决大语言模型（LLM）在符号推理能力训练和微调方面的数据需求。它主要解决了现有合成数据生成工具中普遍存在的两个核心问题：一是缺乏可扩展性，难以生成大规模、多样化的数据集；二是缺乏系统性，往往只能生成单一类型的推理任务。Reasoning Core 通过模块化的设计，允许研究人员组合不同的逻辑约束、知识图谱和问题模板，从而高效地生成高质量的符号推理数据，用于模型的预训练和后训练阶段。

Reasoning Core 生成的数据与传统合成数据相比有何优势？

与传统合成数据相比，Reasoning Core 生成的数据具有显著的质量和多样性优势。传统方法通常依赖于简单的模板填充或基于规则的随机组合，容易导致数据分布单一或存在逻辑漏洞。Reasoning Core 引入了严格的符号验证机制，确保生成的每一个问题在逻辑上都是自洽且可解的。此外，它支持复杂的推理链构建，能够生成需要多步推理才能解决的问题，这对于训练模型的深度思考能力至关重要，而不仅仅是简单的模式匹配。

该工具支持哪些类型的符号推理任务？

Reasoning Core 具有高度的可扩展性，目前支持多种经典的符号推理任务，包括但不限于：逻辑演绎（如命题逻辑和一阶逻辑推理）、数学证明（如几何定理证明和代数推导）、算法推理（如排序、路径规划和图论问题）、以及基于知识图谱的实体关系推理。由于其模块化的架构，研究人员还可以通过自定义新的逻辑算子或约束条件，轻松扩展以支持新的推理领域，例如代码逻辑分析或物理模拟推理。

如何将 Reasoning Core 应用于大模型的训练流程中？

Reasoning Core 生成的数据可以灵活地融入大模型训练的两个关键阶段。在预训练阶段，它可以作为基础语料的补充，帮助模型建立对逻辑结构、符号系统和因果关系的基础理解，从而提升模型的“世界模型”能力。在后训练阶段（包括监督微调 SFT 和强化学习对齐 RLHF），这些数据则用于专门提升模型的推理性能。例如，可以使用生成的复杂推理链对模型进行指令微调，或者将其作为奖励模型的评分标准，以引导模型生成更符合逻辑的回复。

Reasoning Core 的数据生成过程是否具备可验证性？

是的，可验证性是 Reasoning Core 的核心特性之一。与依赖于语言模型自洽性检查的生成方法不同，Reasoning Core 依赖于底层的符号求解器或形式化验证工具。在生成问题和答案时，系统会通过逻辑引擎验证推理步骤的正确性。这意味着生成的每一个样本都经过了严格的数学或逻辑证明，极大地减少了“幻觉”问题的出现，保证了训练数据的准确性和可靠性。

使用 Reasoning Core 是否需要深厚的编程或逻辑学背景？

虽然Reasoning Core 的底层涉及复杂的符号计算，但其设计初衷是提供一个易用的套件。对于常见的标准任务，用户可以直接使用预置的配置文件和生成脚本，无需编写底层代码。对于希望定制特定逻辑约束的高级用户，Reasoning Core 提供了清晰的 API 接口和模块化组件。用户只需定义问题涉及的变量、逻辑规则和目标，套件会自动处理底层的求解和数据格式化工作，降低了对专业逻辑编程技能的依赖。

Reasoning Core 与现有的其他推理数据集（如 GSM8K 或 MATH）有何不同？

GSM8K 和 MATH 等数据集主要是静态的、人工标注或收集的基准数据集，规模有限且难以扩展。Reasoning Core 则是一个生成器，而非固定的数据集。它不局限于特定的题型或难度，而是能够根据需求动态生成无限量的数据。此外，现有数据集往往包含自然语言的噪音，而 Reasoning Core 可以生成纯净的符号表示，也可以将符号转换为自然语言，为研究“语言到逻辑”的映射提供了更可控的实验环境。这使得它特别适合用于研究模型的泛化能力和外推能力。

引用

ArXiv: http://arxiv.org/abs/2603.02208v1
PDF: https://arxiv.org/pdf/2603.02208v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签： Reasoning Core / 符号推理 / 数据生成 / 程序化生成 / PDDL / 一阶逻辑 / 因果推理 / 上下文无关文法
场景： Web应用开发

Reasoning Core：面向符号预训练与后训练的可扩展程序化数据生成套件