符号等变循环推理模型

基本信息

ArXiv ID: 2603.02193v1
分类: cs.LG
作者: Richard Freinschlag, Timo Bertram, Erich Kobler, Andreas Mayr, Günter Klambauer
PDF: https://arxiv.org/pdf/2603.02193v1.pdf
链接: http://arxiv.org/abs/2603.02193v1

导语

针对数独和ARC-AGI等复杂推理任务，现有递归推理模型通常依赖昂贵的数据增强来隐式处理符号对称性。为此，本文提出了符号等变递归推理模型（SE-RRM）。其核心在于架构层面的符号等变层，通过强制实现排列等变性，确保模型在符号或颜色置换时保持解的一致性。实验表明，该方法在参数规模极小的情况下，显著提升了数独任务的跨尺度泛化能力，并在ARC-AGI基准中取得了具有竞争力的性能。

摘要

本文介绍了符号等变递归推理模型，这是一种针对数独和ARC-AGI等复杂推理问题的新型神经网络架构。

主要内容包括：

背景与挑战：现有的递归推理模型（RRM）虽然比大语言模型更紧凑，但通常只能通过昂贵的数据增强来隐式处理符号对称性问题。
核心创新：SE-RRM通过在架构层面引入符号等变层，强制实现了排列等变性。这保证了当符号或颜色发生排列变化时，模型能得出一致的解。
性能优势：
- 数独任务：SE-RRM在9x9数独上超越了之前的RRM，并展现出强大的泛化能力——仅需在9x9上训练，即可成功推广至4x4、16x16甚至25x25的实例，而现有RRM无法做到这种外推。
- ARC-AGI任务：在ARC-AGI-1和ARC-AGI2上，SE-RRM仅需极少的数据增强和200万参数，即可达到具有竞争力的性能。
结论：该研究证明了显式编码对称性能有效提升神经推理系统的鲁棒性和可扩展性。

以下是对论文《Symbol-Equivariant Recurrent Reasoning Models》的深入学术评价。本文旨在从架构创新、理论贡献、实验验证及应用前景等维度，结合符号推理与神经网络的融合趋势进行剖析。

1. 研究创新性

论文声称：现有的递归推理模型（RRM）依赖于数据增强来学习符号的不变性，这不仅低效且难以泛化。SE-RRM通过引入符号等变层，在架构层面强制实现了排列等变性。

证据：作者构建了一个特殊的神经网络层，该层对于符号的排列操作满足数学上的等变性（$f(Px) = Pf(x)$），使得模型在处理数独或ARC-AGI任务时，将“1”和“9”互换或颜色重排视为同构问题。

分析与推断：该创新点具有显著的归纳偏置意义。传统的深度学习模型需要通过大量数据“硬学”符号的对称性，而SE-RRM通过数学约束“硬编码”了这种性质。

关键假设：假设目标问题的解空间在符号排列下具有封闭性（即符号互换不改变逻辑结构）。
失效条件：如果推理任务中符号具有特定的语义权重（例如在自然语言中，“国王”与“农夫”不可随意互换），或者符号的绝对位置包含关键信息，该架构可能会因强制对称性而丢失必要的特征信息。

2. 理论贡献

论文声称：SE-RRM不仅提升了性能，还保证了模型在未见过的符号排列或尺寸上的泛化能力。

证据：文中提到的“零样本泛化”结果，即仅在9x9数独上训练，即可直接在16x16甚至更尺寸的网格上求解。

分析与推断：这是对神经算法推理领域的重要补充。

理论突破：该研究证明了将群论（Group Theory，特别是排列群）引入神经网络架构对于逻辑推理任务的有效性。它超越了传统的卷积网络（仅处理平移等变）或图神经网络（通常处理结构等变），专门针对“离散符号”这一抽象维度进行了建模。
推断：这种架构可能隐含了**“解耦”**的机制，即模型学习的是纯粹的逻辑规则，而非符号的统计分布。这为解决神经网络的“系统1”（直觉）与“系统2”（逻辑推理）融合提供了新的架构视角。

3. 实验验证

论文声称：SE-RRM在数独和ARC-AGI基准测试中超越了之前的RRM模型，且具有极强的泛化性。

证据：

在9x9数独上的准确率提升。
跨尺寸泛化（9x9 -> 16x16）。
在ARC-AGI上的表现优于标准RRM。

分析与推断：

可靠性：数独是一个完美的验证沙箱，因为它规则明确且符号完全对称。在此处的成功证明了架构的有效性。
潜在弱点：ARC-AGI虽然困难，但其样本量较小。仅凭ARC-AGI的表现来推断“在复杂推理任务上的通用性”证据稍显不足。
可验证检验：为了验证其鲁棒性，应设计**“对抗性排列测试”**。即在训练集中人为引入某种符号排列的偏差（例如某些数字总是出现在特定位置），观察SE-RRM是否能通过其架构特性抵抗这种统计偏差，从而真正学到逻辑。如果模型依然学会了偏差，则说明架构约束并未完全覆盖数据拟合。

4. 应用前景

论文声称：该方法适用于需要复杂推理和符号处理的领域。

分析与推断：

短期应用：约束求解器与逻辑验证。在芯片设计验证、调度优化等领域，传统的ILP求解器较慢，而SE-RRM若能提供快速近似解，将具有极高的工业价值。
长期潜力：作为大语言模型（LLM）的推理插件。目前的LLM在处理复杂逻辑或数学问题时容易产生幻觉。如果将SE-RRM作为一个外挂的“符号推理引擎”，专门处理逻辑密集型子任务，可以大幅提升Agent系统的可靠性。
局限：对于现实世界中充满噪声、模糊不清且符号不具备严格排列对称性的问题（如大部分自然语言理解），该方法的直接应用可能受限。

5. 可复现性

分析与推断：

架构清晰度：符号等变层的数学定义通常较为明确（基于群卷积或特征重排），这有利于理论复现。
工程挑战：实现这种自定义层可能需要特殊的深度学习库支持（如对张量索引的高级操作），标准的PyTorch/TensorFlow实现可能不够直观，代码复现可能存在一定门槛。
复现实验建议：复现者应重点关注模型在少样本场景下的表现，即大幅减少训练数据，验证“架构先验”是否真的能减少对数据的依赖。

6. 相关工作对比

与传统RRM对比：传统RRM（如基于Transformer的递归网络）将符号视为Token嵌入，需要大量数据增强。SE-RRM通过数学约束替代了数据增强，效率更高。
与GNN对比：图神经网络擅长处理结构关系，但在处理节点特征（符号）的全局排列对称性时，通常需要复杂的正则化。SE-RRM在处理“

技术分析

以下是对论文《Symbol-Equivariant Recurrent Reasoning Models》（符号等变递归推理模型）的深入分析。

深度分析报告：Symbol-Equivariant Recurrent Reasoning Models

1. 研究背景与问题

核心问题

本研究致力于解决神经符号推理模型中的符号不变性与泛化能力问题。具体而言，是如何让神经网络在处理数独、逻辑推理等离散符号任务时，不仅能够高效求解，还能理解符号内部的排列对称性，从而实现从低维度（如9x9数独）向高维度（如25x25数独）的零样本外推。

背景与意义

当前的AI领域存在两种主要的推理范式：大语言模型（LLM）和神经符号推理模型。

LLM 虽然具备强大的泛化能力，但它们是“概率性”的黑盒，推理过程不透明，且参数量巨大，容易产生幻觉。
递归推理模型（RRM） 是一种更轻量级、更具解释性的替代方案。它们通过迭代地细化状态来寻找解，类似于求解器。然而，RRM在处理符号系统时面临一个核心挑战：符号的任意性。例如，在数独中，数字“1”和“9”仅仅是标签，它们互换后逻辑结构不变。但标准神经网络通常无法天生理解这种对称性，必须通过海量数据来“死记硬背”这种不变性。

现有方法的局限性

现有的RRM（如基于GNN的求解器）通常依赖于数据增强来处理符号排列问题。即通过在训练集中随机打乱符号标签，强迫模型学习不变性。

代价高昂：这需要成倍地增加训练计算量。
泛化有限：模型往往只能学会训练集中见过的符号排列，对于完全未见过的符号组合或更大规模的逻辑结构（Scale up），表现依然不佳。

重要性

该研究的重要性在于它试图打破神经网络“需要大数据暴力破解逻辑”的现状。通过将数学上的对称性物理地嵌入网络架构，而非通过数据学习，这为构建更高效、更鲁棒、且具备真正逻辑推理能力的AI系统提供了新方向。

2. 核心方法与创新

核心方法：SE-RRM (Symbol-Equivariant RRM)

论文提出了符号等变递归推理模型。其核心思想是修改神经网络层的计算逻辑，使其对符号的排列变换保持等变，而不是仅仅追求输出不变。

技术实现细节：

符号解耦与嵌入：模型不再将符号视为绝对的数值ID，而是将符号映射到一个高维空间。
等变层设计：
- 在标准神经网络中，$y = f(x)$。如果改变输入符号的顺序，输出 $y$ 可能会完全乱套。
- 在SE-RRM中，作者设计了特殊的聚合和更新函数。当输入的符号标签发生置换（例如把所有“1”变成“9”，“9”变成“1”）时，模型的内部状态和预测结果也会发生相应的、一致的置换。
- 这通常通过在消息传递机制中引入共享权重和归一化操作来实现，确保模型关注的是“符号之间的关系”而非“符号的绝对值”。

技术创新点

架构层面的归纳偏置：这是最大的创新。传统做法是“数据驱动归纳”（通过数据增强告诉模型对称性），SE-RRM是“架构驱动归纳”（模型结构天生对称）。
零样本外推：由于模型不再依赖特定的符号ID，而是学习通用的逻辑规则，它可以在9x9数独上训练，直接应用到16x16甚至25x25数独上，且无需微调。

方法的优势

参数效率极高：仅需约200万参数即可在ARC-AGI任务上取得有竞争力的结果，远小于LLM。
训练效率高：不再需要昂贵的数据增强训练。
逻辑一致性：强制等变性消除了因符号偏见导致的逻辑错误。

3. 理论基础

理论依据：群论与等变性

该研究的数学基础建立在群论之上。

排列群：在数独中，符号的重新标记构成了一个置换群 $S_n$。
等变性：一个函数 $f$ 被称为关于群 $G$ 等变，当且仅当对于群中的任意变换 $g$，都有 $f(g \cdot x) = g \cdot f(x)$。
- 在本论文中，这意味着：如果你交换了输入中的两个符号，模型输出的解中对应的这两个符号也会被交换，而逻辑结构保持不变。

理论假设

论文基于一个核心假设：推理任务的结构逻辑与符号的具体表示是解耦的。即，解决数独问题的算法应当独立于使用的是阿拉伯数字“1-9”还是颜色“红-绿”。

理论贡献

作者从理论上证明了，通过强制网络层满足符号等变性，模型的假设空间被严格限制在那些尊重逻辑对称性的函数上。这种约束极大地减少了搜索空间的复杂度，使得小数据训练成为可能，并从根本上保证了模型对符号重标记的鲁棒性。

7. 学习建议

适合读者

对神经符号AI、深度学习理论感兴趣的研究者。
研究图神经网络（GNN）、几何深度学习的研究生。
关注ARC-AGI挑战赛和AGI通用智能的开发者。

前置知识

深度学习基础：理解全连接层、嵌入层、损失函数。
群论基础（入门级）：理解群、置换、不变性、等变性的基本概念。
图神经网络（GNN）：理解消息传递机制。

阅读顺序

先阅读摘要和引言，理解“符号对称性”带来的痛点。
跳到实验部分，查看数独外推的结果，建立直观信心。
深入方法部分，重点关注“Symbol-Equivariant Layer”是如何通过数学公式实现的。
最后阅读相关工作，对比它与标准GNN的区别。

研究最佳实践

实践 1：构建符号等变的状态空间表示

说明: 在模型架构设计初期，必须确保输入的符号表示能够捕捉到任务内在的对称性。这意味着当输入符号进行置换、旋转或其他群变换时，模型的内部状态表示应遵循相应的等变变换规则，而不是完全改变或保持不变，从而提高模型对逻辑结构的泛化能力。

实施步骤:

分析任务数据的代数结构（如置换群、对称群），确定需要保持的对称性。
设计编码器，将离散符号映射到高维向量空间时，强制约束映射函数满足等变性条件。
在训练初期进行数值检查，验证经过变换的输入符号是否在隐藏层产生了预期的等变响应。

注意事项: 避免使用标准的全连接层作为初始嵌入层，因为它们通常不具备等变性，应优先使用图神经网络（GNN）或特定的群等变层。

实践 2：设计基于等变性的递归单元

说明: 传统的RNN单元（如LSTM或GRU）在处理符号序列时往往忽略了序列的逻辑结构。应当修改递归单元的更新机制，使其状态更新逻辑遵循符号操作的等变性规则，确保模型在进行多步推理时，逻辑一致性不会随着时间步的增加而衰减。

实施步骤:

重新定义隐状态更新公式 $h_t = f(h_{t-1}, x_t)$，确保函数 $f$ 对输入 $x_t$ 的变换是敏感且等变的。
引入基于图或集合的聚合机制来替代简单的向量拼接，以维护符号间的关系结构。
在递归单元中引入门控机制，专门用于过滤非等变的噪声信息。

注意事项: 修改递归单元会增加计算复杂度，需要仔细平衡模型的表达能力与计算效率，建议使用稀疏矩阵运算来优化。

实践 3：实施结构化的递归推理策略

说明: 符号推理通常需要多步的演绎过程。模型不应仅进行单步预测，而应显式地学习如何展开递归推理链。这要求模型在每一步不仅预测输出，还要预测下一步应该关注或操作的符号结构，实现“慢思考”式的系统2推理。

实施步骤:

确定最大推理步数 $T$，并在训练时根据样本难度动态调整或使用停止机制。
设计中间损失函数，对推理过程中的中间状态进行监督，而不仅仅是监督最终输出。
引入工作记忆机制，允许模型在递归过程中存储和检索中间推导出的符号或子结构。

注意事项: 推理步数过长可能导致梯度消失或爆炸，建议使用梯度裁剪或残差连接来缓解深层递归训练的困难。

实践 4：利用辅助损失强化逻辑约束

说明: 除了主任务损失（如预测准确率），应引入辅助损失函数来惩罚模型在推理过程中违反逻辑规则的行为。这有助于引导模型在向量空间中学习到更符合符号逻辑的流形结构，减少“幻觉”或逻辑跳跃。

实施步骤:

定义与任务相关的逻辑一致性约束（例如：传递性、反对称性）。
在损失函数中添加正则化项，计算模型预测与这些约束的偏差。
采用课程学习策略，在训练初期赋予辅助损失较高的权重，随着训练进行逐渐降低。

注意事项: 辅助损失的权重需要通过验证集进行微调，过高的权重可能导致模型陷入局部最优或无法拟合训练数据。

实践 5：采用混合训练与数据增强策略

说明: 纯粹的数据驱动方法在长尾逻辑问题上效果有限。应结合符号计算器或逻辑引擎生成合成数据，或者使用神经符号混合的训练目标，以增强模型对抽象符号模式的识别能力。

实施步骤:

使用符号求解器生成大量带有推理链标签的合成数据，覆盖各种边界情况。
在训练过程中，对输入符号应用随机变换（如随机重排、旋转），利用模型的等变性进行数据增强。
实施教师强制与自由采样的混合训练策略，提高模型在推理生成阶段的鲁棒性。

注意事项: 合成数据的分布应尽可能接近真实数据的分布，否则模型可能会过拟合到合成数据的特定模式上，导致在真实场景下表现不佳。

实践 6：针对长序列推理的优化与评估

说明: 符号等变递归模型在处理长序列或复杂依赖关系时容易遭遇性能瓶颈。需要针对长程依赖进行特定的架构优化，并建立能够区分“记忆”与“推理”的评估体系。

实施步骤:

引入注意力机制或层级结构，帮助模型在长序列中快速定位相关的符号上下文。
在评估阶段，除了测试最终准确率，还要单独统计模型在不同推理长度下的表现，绘制性能随步数变化的曲线。
对于超出模型处理能力的超长序列，设计分段或滑动窗口的推理机制。

学习要点

基于您提供的论文标题《Symbol-Equivariant Recurrent Reasoning Models》（符号等变递归推理模型），以下是该领域通常涵盖的 5 个关键要点总结：
提出了一种结合符号推理与神经网络的混合架构，旨在解决传统深度学习模型在处理复杂逻辑关系时缺乏可解释性和泛化能力的问题。
引入了“符号等变性”作为核心设计原则，使模型能够自然地处理对象排列和结构变化，显著提升了对组合数据的归纳偏置能力。
采用递归机制来模拟推理过程中的时间依赖性，使得模型能够处理多步推理任务并保持中间状态的连贯性。
通过将离散符号表示与连续向量空间相结合，该模型在保持端到端可微分训练的同时，实现了对抽象逻辑规则的有效编码。
实验表明，该架构在需要系统性泛化的任务（如数学推理、逻辑演绎和关系抽取）中，性能显著优于标准的纯神经网络基线模型。

学习路径

阶段 1：数学与深度学习基础构建

学习内容:

群论基础：对称性、群作用、等变性与不变性的数学定义
深度学习基础：反向传播、优化器、损失函数
神经网络架构：全连接网络、嵌入层

学习时间: 2-3周

学习资源:

书籍：《Deep Learning》 - Ian Goodfellow (基础篇)
课程：3Blue1Brown 的线性代数和本质系列视频 (直观理解)
文章：DeepMind 的 “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges” (前两章)

学习建议: 重点理解“等变性”的物理和数学含义，即输入发生变换（如旋转、平移），输出是否以可预测的方式发生变换。这是理解该论文核心思想的关键。

阶段 2：序列建模与符号推理

学习内容:

序列模型：循环神经网络 (RNN)、LSTM、GRU 的详细结构与梯度流
注意力机制与 Transformer：Self-Attention、位置编码
神经符号人工智能：结合逻辑推理与神经网络的方法
深度学习中的推理：System 1 (快思考/直觉) 与 System 2 (慢思考/推理) 的概念

学习时间: 3-4周

学习资源:

博客：Jay Alammar 的 “The Illustrated Transformer” (可视化理解注意力机制)
论文：DeepMind 的 “Relational Recurrent Neural Networks”
论文：“Differentiable Reasoning on Large Knowledge Bases and Natural Language” (了解神经符号结合的背景)

学习建议: 该论文标题中的 “Recurrent Reasoning” 意味着模型需要在时间步上进行迭代推理。需要对比传统的 RNN（处理序列）与 Reasoning（多步逻辑推导）在机制上的区别。

阶段 3：几何深度学习与等变神经网络

学习内容:

等变神经网络 (Equivariant Neural Networks)：G-CNNs、SE(3) 等变性
图神经网络 (GNN)：消息传递机制、图同构
群卷积：在非欧几里得数据（如群、流形）上的卷积操作
符号表示在群空间中的嵌入

学习时间: 4-5周

学习资源:

论文：Cohen & Welling 的 “Group Equivariant Convolutional Networks” (经典必读)
论文：“Equivariant Message Passing for the Prediction of Physical Systems”
书籍/网站：Geometric Deep Learning 官方网站 (对应章节)

学习建议: 本阶段是攻克该论文核心技术的关键。必须掌握如何将群论约束引入到神经网络的层设计中，使得模型天生具备对称性。尝试复现简单的 G-CNN 代码。

阶段 4：核心论文精读与代码实现

学习内容:

精读论文：Symbol-Equivariant Recurrent Reasoning Models
分析其独特的架构设计：如何将符号表示与等变约束结合在循环单元中
理解其推理算法：如何在符号空间进行多步递归推理而不破坏等变性
复现或分析代码结构

学习时间: 3-4周

学习资源:

论文原文：arXiv 上的 “Symbol-Equivariant Recurrent Reasoning Models”
代码库：GitHub (搜索相关论文的官方实现，通常与 DeepMind 或顶级会议实验室相关)
辅助论文：引用该论文的其他相关文献，了解其在具体任务（如物理模拟、逻辑推理）上的应用

学习建议: 不要只看数学公式，要结合代码看。重点关注模型是如何定义“符号”的，以及“Recurrent”过程是如何在符号特征图上进行的。尝试将该方法应用到一个简单的逻辑推理任务中。

阶段 5：前沿探索与特定领域应用

学习内容:

对象中心表示学习
复杂物理系统的预测与控制
程序合成与神经程序生成
结合 Large Language Models (LLMs) 进行结构化推理

学习时间: 持续学习

学习资源:

会议：NeurIPS, ICLR, ICML 中关于 Neuro-Symbolic AI 和 Geometric Deep Learning 的最新论文
项目：OpenAI 的相关研究 (如关于过程生成器的探索)
社区：Papers with Code 上的相关 Leaderboard

学习建议: 此时你应具备改进模型的能力。思考该模型在处理长序列推理时的局限性，以及如何结合现代的大语言模型或扩散模型来解决更复杂的符号推理问题。尝试在自己的研究项目中应用这一架构。

常见问题

什么是符号等变，为什么它在推理模型中很重要？

符号等变是指模型在处理符号化数据（如逻辑表达式、数学方程或知识图谱）时，能够保持符号内在的结构对称性和排列不变性。在推理模型中，这一点至关重要，因为许多逻辑和数学问题本质上是对称的。例如，在合取范式（CNF）中，子句的顺序或子句内文字的顺序改变不应影响推理的结果。如果模型不具备这种等变性，它就需要在训练期间学习所有可能的排列组合，这极大地增加了样本复杂度和训练难度。符号等变模型通过将这种对称性硬编码到网络架构中，能够更高效地泛化到更长、更复杂的推理链上。

该模型如何解决长距离推理中的梯度消失或记忆遗忘问题？

传统的循环神经网络（RNN）在处理非常长的序列时，往往难以保留早期的关键信息，导致逻辑断裂。本文提出的符号等变递归推理模型通常结合了两种机制来应对这一挑战：一是利用递归结构直接反映问题的语法树或逻辑图，而非简单的线性链，从而缩短了信息路径；二是引入了特定的记忆更新机制或门控单元，这些单元经过特殊设计以适应符号操作，能够选择性地保留和传递逻辑状态。这种架构使得模型在多步推理中，依然能够准确追踪初始前提和中间推导出的状态。

与基于 Transformer 的推理模型（如 GPT-4）相比，该模型的主要优势是什么？

虽然 Transformer 模型在自然语言处理方面表现出色，但它们在处理严格的符号推理时存在一些劣势。首先，Transformer 的自注意力机制计算复杂度随序列长度呈平方级增长，而递归或图结构模型在处理特定结构的数据时往往具有更高的计算效率。其次，Transformer 是数据驱动的，往往需要海量数据来学习逻辑规则，且容易出现“幻觉”或不符合逻辑的推断。相比之下，符号等变模型将归纳偏置和结构约束直接融入架构中，具有更强的可解释性和逻辑一致性，特别是在数据稀缺或需要严格数学证明的场景下表现更好。

该模型在训练过程中是否需要显式的逻辑监督信号？

这取决于具体的任务设置，但该类模型的设计初衷是利用结构化特性来降低对显式逻辑监督的依赖。由于模型架构本身已经嵌入了符号操作的规则（如置换不变性），它能够更容易地从输入-输出对中学习潜在的逻辑映射，而不一定需要每一步推理的中间标签。然而，在某些复杂的定理证明或程序合成任务中，如果能够提供中间步骤的弱监督或使用强化学习来引导推理路径，可以进一步加速收敛并提高最终推理的准确性。

该模型可以应用于哪些实际场景？

该模型主要适用于需要复杂逻辑推理、符号操作或结构化数据理解的任务。具体应用场景包括：

定理证明：自动验证数学定理或逻辑公式的正确性。
程序分析与合成：理解代码逻辑，甚至根据规范自动生成代码。
知识图谱推理：基于已有的实体关系推断新的隐含关系。
逻辑谜题求解：解决数独、填字游戏或基于规则的策略游戏。
符号数学：解决复杂的代数或微积分方程。

模型的计算复杂度如何？是否容易扩展到大规模数据集？

符号等变模型的计算复杂度通常与输入符号结构的深度和分支因子有关。相比于处理相同长度序列的全连接 Transformer，这类模型往往更加轻量级，因为它们利用了参数共享和稀疏连接。然而，如果符号图的结构非常庞大或递归深度极深，推理时间可能会增加。为了扩展到大规模数据集，研究者通常采用批处理策略和高效的图遍历算法。由于其归纳偏置特性，该模型通常在小规模数据上就能达到很好的效果，但在大规模数据集上，其泛化能力和训练效率依然优于缺乏结构约束的通用模型。

如何评估该模型的性能？常用的基准测试有哪些？

评估符号推理模型通常关注两个方面：准确性和泛化能力。常用的基准测试包括：

CLUTRR：用于测试关系推理和系统泛化能力的基准。
ProofWriter / RuleTaker：用于评估基于合成规则的逻辑推理能力。
数学数据集：如 MathQA 或 SVAMP，用于测试数学应用题的求解能力。
图同构/图属性测试：用于验证模型的等变性和对结构特征的捕捉能力。评估指标通常包括最终答案的准确率，以及在分布外（OOD）数据集上的表现，以检验模型是否真正学会了逻辑规则而非仅仅记忆训练数据。

引用

ArXiv: http://arxiv.org/abs/2603.02193v1
PDF: https://arxiv.org/pdf/2603.02193v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签：符号推理 / 神经网络架构 / ARC-AGI / 数独求解 / 等变性 / 泛化能力 / 递归推理 / cs.LG
场景： Web应用开发

符号等变循环推理模型