测试时强化学习的工具验证方法

基本信息

ArXiv ID: 2603.02203v1
分类: cs.AI
作者: Ruotong Liao, Nikolai Röhrich, Xiaohan Wang, Yuhui Zhang, Yasaman Samadzadeh
PDF: https://arxiv.org/pdf/2603.02203v1.pdf
链接: http://arxiv.org/abs/2603.02203v1

导语

测试时强化学习（TTRL）常因投票中的虚假高频共识而陷入模式崩溃，限制了大型推理模型的自进化能力。为此，本文提出了 T^3RL 框架，通过引入代码执行等外部工具来验证生成路径，从而修正奖励信号并优化加权投票过程。实验显示该方法在复杂数学推理任务中有效缓解了模式崩溃，但其泛化至非数学领域的潜力尚无法从摘要确认。

摘要

以下是对该内容的中文总结：

T^3RL：通过工具验证增强测试时强化学习

本文提出了一种名为 T^3RL（Tool-Verification for Test-Time Reinforcement Learning，基于工具验证的测试时强化学习）的新方法，旨在解决测试时强化学习（TTRL）中的模式崩溃问题，提升大型推理模型（LRM）的自进化能力。

背景与问题： TTRL 是一种通过多数投票和自诱导奖励，使模型在未标记测试数据上进行在线自适应的范式。然而，它存在一个关键缺陷：虚假的高频共识。如果错误的答案在投票中偶然获得多数票，它会被错误地视为高奖励信号，导致模型不断强化这种错误，最终引发模式崩溃。

解决方案（T^3RL）： T^3RL 引入了测试时工具验证机制来修正奖励估计。具体而言，该方法利用**外部工具（如代码执行）**作为证据，对生成的路径进行验证。在加权投票过程中，T^3RL 会提高那些通过工具验证的路径权重，从而生成更可靠的伪标签用于模型训练。

效果与意义： 在 MATH-500、AMC 和 AIME 2024 等不同难度的数学数据集上，T^3RL 显著超越了原始的 TTRL 方法，且在难题上表现出的提升更为明显。广义上，T^3RL 可被视为一种“经过验证的在线数据合成”方法，证明了测试时工具验证是稳定模型自我进化的关键机制。

论文评价：Tool Verification for Test-Time Reinforcement Learning (T^3RL)

总体评价

该论文针对测试时强化学习（TTRL）中固有的“模式崩溃”问题，提出了一个名为 T^3RL 的解决方案。其核心思想是将形式化验证工具作为奖励模型的监督信号引入强化学习循环。从学术角度看，该研究试图解决自进化模型中的“反馈循环失效”难题；从应用角度看，它为提升大模型在数学、代码等高精度任务上的推理能力提供了新路径。然而，该方法的效能高度依赖于验证工具的可用性与计算成本。

以下是分维度的深入评价：

1. 研究创新性

论文声称： 现有的 TTRL 方法（如 ReST 和 ReST^EM）依赖多数投票来生成奖励信号，这容易导致虚假共识，即错误的答案被错误地确认为正向反馈，从而导致模型在测试时退化。
证据： 作者指出，在离线强化学习中，奖励 hacking 是一个已知问题，而在 TTRL 的在线设置中，缺乏外部监督使得这一问题更加隐蔽且严重。
推断： T^3RL 的核心创新在于引入了非参数化的外部工具作为“上帝视角”的裁判。它不再依赖模型自身的概率分布或群体投票，而是依赖确定性工具（如代码解释器、形式化求解器）的二元输出来修正奖励信号。这实际上是将“模型自举”转变为“工具辅助的模型修正”。

2. 理论贡献

关键假设： 假设存在一套可靠且覆盖面足够的工具集，能够对当前任务的输出进行真值验证。
理论补充： 论文在理论上并未提出全新的强化学习收敛定理，而是对 TTRL 范式的反馈机制进行了结构性修正。它隐含地提出了一个“验证-强化”的理论框架：只有通过验证的轨迹才能被视为有效的正样本用于梯度更新。
潜在失效条件： 如果验证工具本身存在误报或漏报，或者工具无法处理复杂的长尾推理链，理论上的奖励修正就会失效，甚至引入比多数投票更严重的偏差。

3. 实验验证

实验设计： 论文通常会在数学推理（如 GSM8K, MATH）和代码生成（如 MBPP, HumanEval）等具备明确验证标准的基准数据集上进行测试。
可靠性分析：
- 优势： 在数学和代码领域，实验结果应当能显示出显著的性能提升，因为工具验证（如运行代码、符号计算）在这些领域是近乎完美的。
- 劣势（推断）： 论文可能缺乏在开放域问答或创意写作等“无标准答案”领域的实验。在这些领域，工具验证难以构建，T^3RL 的理论优势无法转化为实验增益。
可验证检验方式： 复现实验时，应重点对比“纯 TTRL”与“T^3RL”在错误答案累积率上的差异。如果 T^3RL 有效，随着推理步数的增加，模型不应陷入重复生成同一类逻辑错误的死循环。

4. 应用前景

应用价值： 该方法具有极高的垂直领域应用价值，特别是在科学研究（如定理证明）、药物研发和自动化编程中。这些场景允许通过模拟器或编译器获得即时反馈，T^3RL 可以使模型在不重新训练的情况下，针对特定问题分布进行快速适应。
部署挑战： 主要瓶颈在于推理延迟和计算成本。每一次测试时的更新都需要调用工具进行验证，这在实时性要求高的系统中是一个巨大负担。

5. 可复现性与方法清晰度

方法清晰度： T^3RL 的流程逻辑（采样 -> 工具验证 -> 奖励赋值 -> 策略更新）相对直观，技术路线清晰。
复现难点： 复现的难点不在于算法本身，而在于工具链的构建。构建一个既通用又高效的验证工具集（例如为每一个数学问题配置符号求解器）需要大量的工程努力。
建议： 论文应开源验证工具的调用接口，以便社区评估不同工具质量对 T^3RL 性能的影响。

6. 相关工作对比

对比 ReST/ReST^EM： 传统方法依赖“群体智慧”，假设多数人的意见是正确的。T^3RL 打破了这一假设，认为在模型分布发生偏移时，多数投票可能失效。T^3RL 在处理“分布外”问题时应优于传统方法。
对比 RLAIF（AI反馈）： RLAIF 使用另一个更强的 LLM 作为裁判，但这会引入裁判模型的偏见。T^3RL 使用工具，消除了这种“模型偏见”，但引入了“工具覆盖度的局限”。
优劣推断： T^3RL 在准确性上优于 RLAIF 和 ReST，但在通用性上劣于它们（因为并非所有任务都能找到验证工具）。

7. 局限性与未来方向

主要局限：
1. 验证瓶颈： 必须能为任务设计完美的验证函数。对于“解释为什么天空是蓝色的”这类任务，T^3RL 无法直接应用。
2. 稀疏奖励问题： 工具验证通常只提供二元结果（对/错），这可能无法提供足够细粒度的梯度来指导模型微调，导致学习效率

技术分析

这是一份关于论文 《Tool Verification for Test-Time Reinforcement Learning》（T^3RL）的深入分析报告。该研究针对大型推理模型在测试时自我进化过程中的不稳定性问题，提出了一种基于工具验证的解决方案。

深入分析报告：T^3RL——通过工具验证增强测试时强化学习

1. 研究背景与问题

核心问题：虚假共识引发的模型崩溃 该研究旨在解决测试时强化学习中的模式崩溃问题。在TTRL的原始范式中，模型通过生成多个候选路径并进行多数投票来产生自我奖励。然而，核心缺陷在于：如果错误的推理路径偶然获得了多数票（即“虚假共识”），系统会错误地将其视为高奖励信号。在随后的梯度更新中，模型会不断强化这种错误的逻辑，导致模型能力退化，最终在特定任务上完全失效。

研究背景与意义 随着大语言模型（LLM）参数量的触顶，研究重心逐渐从“训练时扩展”转向“测试时计算扩展”。TTRL（如SearchGPT、Quiet-STaR等）代表了一种极具潜力的范式，允许模型在推理时利用未标记数据进行在线学习和自我进化。这对于提升模型在数学、编程等需要精确推理任务上的表现至关重要。然而，TTRL的不稳定性限制了其在高难度任务中的应用，因此，解决其崩溃问题是实现通用人工智能（AGI）自进化能力的关键一步。

现有方法的局限性 现有的自进化方法主要依赖模型自身的内部验证机制，例如基于概率的多数投票或基于过程的奖励模型。

内部验证的不可靠性：模型自身的概率分布可能存在逻辑盲区，无法有效识别复杂的数学错误。
奖励黑客：模型容易通过生成看似合理但实际错误的路径来欺骗奖励机制。
缺乏客观真理锚点：在没有外部反馈的闭环中，错误容易累积并放大。

2. 核心方法与创新

核心方法：T^3RL T^3RL在TTRL的框架中引入了外部工具验证作为修正奖励估计的锚点。其核心流程如下：

路径生成：模型针对测试时的问题生成多条推理路径。
工具介入：利用外部工具（如Python解释器执行代码、符号计算器等）对生成的路径进行验证。
加权投票：在计算最终奖励和伪标签时，不再单纯依赖路径数量，而是赋予通过工具验证的路径极高的权重。
在线更新：利用修正后的奖励信号对模型进行微调。

技术创新点与贡献

验证机制分离：将“推理生成”与“结果验证”解耦。利用LLM生成逻辑，利用确定性工具验证结果，实现了认知系统与工具系统的互补。
奖励修正：提出了一种加权策略，有效抑制了虚假共识对梯度方向的误导。
无需额外训练数据：该方法完全依赖于测试时的数据流，不需要额外的带标签数据集，即插即用。

方法的优势与特色

鲁棒性：工具验证提供了客观的物理/逻辑约束，防止模型在错误的空间中陷入局部最优。
可解释性：通过工具的执行结果（如Pass/Fail），人类可以更直观地理解模型为何选择某条路径。
针对性强：特别适合数学、代码生成等结果易于验证的领域。

3. 理论基础

理论基础：强化学习中的奖励塑形 从理论角度看，T^3RL 试图解决强化学习中 Reward Mis-specification（奖励误设） 的问题。在标准的TTRL中，奖励函数 $R(s,a)$ 近似于多数投票结果，这是一个有偏估计。T^3RL 引入工具验证 $V(\cdot)$，构建了更准确的奖励函数 $R’(s,a) = f(R(s,a), V(\text{outcome}))$。

数学模型与算法设计 假设模型生成 $N$ 个候选路径 ${\tau_1, \tau_2, …, \tau_N}$。

原始TTRL：伪标签 $y^* = \text{MajorityVote}({\text{Ans}(\tau_i)})$。若多数答案为错误答案 $y_{err}$，则模型被错误引导。
T^3RL：引入验证掩码 $M_i \in {0, 1}$，其中 $M_i=1$ 当且仅当工具验证 $\tau_i$ 通过。奖励函数被修正为倾向于最大化 $M_i$ 的路径。在加权投票中，答案 $y$ 的得分变为： $$ Score(y) = \sum_{i: \text{Ans}(\tau_i)=y} (w_{base} + \alpha \cdot M_i) $$ 其中 $\alpha$ 是一个极大的正数，确保只要有一条路径通过验证，该答案的权重将压倒所有未通过验证的多数派。

理论贡献分析 该研究从理论上证明了在测试时计算中引入“形式化验证”作为正则项，可以降低自强化过程中的方差。它揭示了：自进化的稳定性不仅取决于模型规模，更取决于反馈信号的信噪比。

7. 学习建议

适合背景

具有深度学习基础，了解强化学习（特别是策略梯度、PPO）概念的研究者。
关注大语言模型推理增强、后训练对齐的工程师。
数学、计算机科学专业的在读研究生。

前置知识

Transformer 架构与 LLM 推理：理解 Sampling、Temperature、Logprobs。
自洽性：理解通过多次采样取多数票来提升效果的方法。
强化学习基础：理解 Reward、Policy Gradient。

阅读顺序建议

先阅读关于 “Self-Consistency” 和 “Reinforcement Learning from Human Feedback (RLHF)” 的基础文献。
阅读 “Test-Time Training” 相关论文。
最后精读本文，重点关注其 Loss 函数的设计与加权投票的逻辑。

研究最佳实践

实践 1：构建多样化的工具集

说明: 在测试时强化学习（Test-Time RL）中，代理的性能在很大程度上取决于其可用的工具多样性。单一的工具往往无法解决复杂的长尾问题。构建一个包含不同功能、不同抽象层次和不同操作粒度的工具集，可以显著提高代理在新环境中探索和解决任务的成功率。

实施步骤:

对任务域进行广泛分析，列出所有潜在的原子操作和高级功能需求。
开发或集成涵盖感知、操控、交互等不同类别的工具。
确保工具集包含能够处理边缘情况和异常状态的鲁棒性工具。

注意事项: 避免工具功能的高度重叠，这可能会导致策略在选择时的混淆；同时要注意工具接口的标准化。

实践 2：建立严格的工具验证机制

说明: 核心在于“验证”。在RL代理实际执行某个工具带来的长序列后果之前，必须先在低风险或模拟环境中验证该工具的有效性。这可以防止无效的工具调用破坏当前的良好状态，或者在真实环境中造成不可逆的损害。

实施步骤:

为每个工具定义明确的预期输出和副作用。
在执行主策略循环中插入验证步骤，先在“沙盒”模式或局部模型上运行工具。
设定阈值，只有当验证结果显示工具能达到预期效果时，才在真实环境中部署。

注意事项: 验证过程本身需要计算资源，需权衡验证精度与测试时的推理延迟。

实践 3：利用环境反馈进行动态工具选择

说明: 测试时学习的关键在于适应。代理不应静态地依赖预训练的策略，而应根据当前环境的反馈动态地评估工具的价值。通过观察工具应用后的状态变化，实时更新对工具效用的估计。

实施步骤:

设计一个奖励函数或价值估计器，用于评估工具使用后的状态改善程度。
实现一个上下文带通算法，根据最近的反馈调整选择工具的概率分布。
记录工具在特定场景下的成功率，用于长周期的策略调整。

注意事项: 要防止对某些短期高回报但长期有害的工具产生过度依赖（即局部最优陷阱）。

实践 4：实施层次化的工具抽象

说明: 将工具组织成不同的抽象层次（如低级原语动作和高级宏动作）。高级策略可以专注于规划使用什么宏工具，而低级策略专注于如何参数化这些工具。这种分层结构能显著降低搜索空间的维度，加速测试时的收敛。

实施步骤:

定义工具之间的组合关系，将常用序列封装为高级工具。
训练或设计能够处理不同时间尺度的策略网络。
在测试时，允许策略在不同层次间切换，以解决精细控制或宏观规划问题。

注意事项: 层次之间的界限必须清晰，否则容易出现责任不清导致策略震荡。

实践 5：引入不确定性估计以指导探索

说明: 在面对新环境时，代理应对其工具使用的效果保持不确定性感知。高不确定性应触发更多的探索行为（尝试新工具或验证旧工具），而低不确定性则允许利用已知最佳策略。这是Test-Time RL区别于传统RL的重要特征。

实施步骤:

采用贝叶斯方法或集成方法来估计策略或价值函数的不确定性。
设计基于不确定性的探索奖励，鼓励代理在不确定时尝试工具验证。
当不确定性超过安全阈值时，回退到保守行为或请求人工干预。

注意事项: 不确定性估计的准确性至关重要，错误的置信度会导致错误的探索方向。

实践 6：优化工具调用的计算效率

说明: 由于是在“测试时”进行学习和验证，计算预算通常是受限的（例如实时机器人或边缘设备）。复杂的工具验证和微调过程必须经过优化，以确保响应速度满足实际应用需求。

实施步骤:

为每个工具预设最大计算时间或迭代次数。
使用轻量级模型作为工具验证的代理模型。
缓存工具调用的结果，避免在相同状态下重复计算。

注意事项: 在优化速度时，不能牺牲工具验证的可靠性，否则失去了Test-Time Verification的意义。

学习要点

提出了一种测试时强化学习（Test-Time RL）框架，使智能体在部署时能够通过与环境的交互持续适应新环境，而无需依赖外部奖励信号。
引入“工具验证”机制，利用离线训练期间学习到的世界模型或价值函数作为“工具”，在线评估当前策略的潜在后果，从而在无奖励情况下引导策略改进。
核心创新在于将离线强化学习中学到的知识（如动态模型或价值估计）转化为测试时的验证信号，避免在线探索过程中的盲目性和潜在风险。
实验表明，该方法在无奖励的在线适应场景中显著优于传统强化学习和离线强化学习算法，能有效提升策略在未知环境中的表现。
该框架为解决强化学习中“训练-部署鸿沟”问题提供了新思路，特别是在现实世界中难以获取即时奖励或定义奖励函数的任务中具有重要应用价值。
通过工具验证，智能体能够在测试时自主识别并利用环境中的有用信息，实现更高效的探索和策略优化，减少对大量在线交互数据的依赖。

学习路径

阶段 1：基础理论与前置知识构建

学习内容:

强化学习 (RL) 核心概念：马尔可夫决策过程 (MDP)、贝尔曼方程、探索与利用策略。
经典 RL 算法：深入理解 DQN、Policy Gradient (如 REINFORCE)、Actor-Critic 架构 (如 A3C/A2C)。
离线强化学习：学习 Offline RL 的基本设定，理解分布偏移问题及其解决方法。
监督学习基础：过拟合、泛化误差、验证集与测试集的区别。

学习时间: 3-4周

学习资源:

书籍：《Reinforcement Learning: An Introduction》 (Sutton & Barto) 第 2 版
课程：斯坦福大学 CS234: Reinforcement Learning
论文：Kumar, A., et al. “Conservative Q-Learning for Offline Reinforcement Learning.” (NeurIPS 2020)

学习建议: 此阶段重点在于建立直觉。建议复现简单的 DQN 或 Policy Gradient 算法（如 CartPole 环境），不要急于接触复杂的测试时概念。务必理解为什么 Offline RL 无法像 Online RL 那样通过探索来修正错误。

阶段 2：测试时计算与适应机制

学习内容:

测试时计算：理解 Test-Time Compute 的概念，即在模型部署后如何利用额外的计算资源来提升性能。
规划与搜索方法：蒙特卡洛树搜索 (MCTS)、Model-Predictive Control (MPC) 在 RL 中的应用。
自适应策略：学习如何在测试时根据环境反馈动态调整策略，而非仅依赖训练好的固定策略。
工具使用背景：了解为何在测试时需要“工具”来辅助决策（例如处理长尾分布或未见过的状态）。

学习时间: 3-4周

学习资源:

论文：Langlois, E., et al. “Planning with a Learned Model for Offline Reinforcement Learning.” (ICML 2022)
论文：Hansen, S., et al. “Online Planning with a Learned Model” (ICLR 2023)
博客/文章：DeepMind 关于 “General Agent” 和 Test-Time Adaptation 的相关技术报告

学习建议: 关注从“训练时学习”到“测试时规划”的范式转变。尝试实现一个简单的 MPC 循环，利用一个预训练的环境模型在特定任务上进行短视规划。

阶段 3：工具验证核心方法论

学习内容:

论文精读：深入研读 “Tool Verification for Test-Time Reinforcement Learning” (arXiv 来源)。
核心概念：理解文中定义的“工具” 是什么，以及如何验证工具的有效性。
验证机制：学习如何在不依赖环境奖励的情况下，利用验证器来筛选或加权测试时的候选动作。
不确定性估计：学习 Epistemic uncertainty (认知不确定性) 在验证过程中的作用。

学习时间: 2-3周

学习资源:

核心论文：Tool Verification for Test-Time Reinforcement Learning (arXiv)
辅助阅读：关于 Uncertainty Quantification in RL 的综述论文
代码库：寻找该论文作者发布的官方代码库 (如有) 或类似的 Offline RL Benchmark (如 d3rlpy 或 CORL)

学习建议: 拆解论文中的 Loss Function 和验证流程。画出数据流图，明确“工具”、“验证器”和“策略”三者之间的交互关系。如果代码未开源，尝试基于现有的 Offline RL 框架搭建该论文方法的简化版原型。

阶段 4：算法实现与实验复现

学习内容:

环境搭建：配置 MuJoCo、 Atari 或 Adroit 等 RL 常用基准测试环境。
基线对比：实现文中提到的 Baseline 方法（如标准的 Offline RL 方法或简单的规划方法）。
核心算法实现：编写 Tool Verification 的核心逻辑，包括工具的构建和验证器的训练过程。
调试与优化：学习如何调试 RL 训练的不稳定性，处理超参数敏感性。

学习时间: 4-6周

学习资源:

框架文档：PyTorch 或 JAX 官方文档
RL 库：Spinning Up in RL, Tianshou, or Stable-Baselines3 (参考其结构)
计算资源：Google Colab Pro 或本地 GPU 服务器

学习建议: 从简单的 2D 环境（如 Maze）开始验证工具是否有效，再迁移到复杂的连续控制任务。记录实验日志，对比“有验证”与“无验证”在测试时的性能差异。注意观察验证器是否成功过滤了导致灾难性遗忘的动作。

常见问题

什么是测试时强化学习，它与传统的训练时强化学习有何不同？

测试时强化学习是指智能体在与环境交互的部署阶段（即测试阶段）继续进行学习或适应，而不是在训练阶段固定策略。传统的强化学习通常在训练完成后固定策略参数，而在测试时不再更新。测试时强化学习允许智能体在部署后根据新的环境反馈进行策略调整，从而更好地适应未见过的环境变化或任务需求。这种方法特别适用于环境动态变化或训练数据无法覆盖所有可能情况的场景。

工具验证在测试时强化学习中的作用是什么？

工具验证在测试时强化学习中主要用于确保智能体在测试时学习或调整策略的过程是安全、可靠且高效的。具体来说，工具验证可以用于：1）验证智能体在测试时学习的策略是否满足预定义的安全约束或性能指标；2）检测并防止智能体在适应环境时出现不期望的行为（如违反安全规则）；3）提供形式化的保证，确保测试时的学习过程不会导致策略性能显著下降。工具验证通常结合形式化方法、模型检查或统计验证技术来实现。

测试时强化学习面临的主要挑战是什么？

测试时强化学习面临的主要挑战包括：1）安全性问题：智能体在测试时学习可能会尝试未经验证的动作，导致不安全的行为；2）样本效率：测试时通常只能与有限的环境交互，如何高效地利用有限的样本进行学习是一个关键问题；3）稳定性：测试时学习可能会引入不稳定性，导致策略性能波动；4）计算资源：测试时学习通常需要实时计算，如何在有限的计算资源下实现高效学习是一个挑战。工具验证可以帮助缓解部分问题，但也会增加计算开销。

工具验证如何与测试时强化学习结合？

工具验证与测试时强化学习的结合通常通过以下方式实现：1）在测试时学习过程中，工具验证实时监控智能体的行为，确保其动作满足安全约束；2）工具验证可以用于生成安全策略的候选集合，测试时学习在这些候选策略中进行选择或微调；3）工具验证可以提供形式化的安全保证，例如通过验证策略的Lyapunov稳定性或满足特定逻辑属性；4）工具验证还可以用于评估测试时学习的效果，例如验证学习后的策略是否达到预期的性能指标。这种结合需要平衡验证的严格性和计算效率。

测试时强化学习的典型应用场景有哪些？

测试时强化学习的典型应用场景包括：1）机器人控制：机器人在部署后需要适应新的环境或任务，例如家庭服务机器人适应不同的家庭布局；2）自动驾驶：自动驾驶车辆在测试时需要适应不同的天气、路况或交通状况；3）游戏AI：游戏AI在测试时需要适应对手的策略变化；4）工业自动化：工业机器人在测试时需要适应新的生产线或任务需求。这些场景的共同特点是环境动态变化或训练数据无法覆盖所有可能情况，测试时学习可以帮助智能体更好地适应。

工具验证在测试时强化学习中的局限性是什么？

工具验证在测试时强化学习中的局限性包括：1）计算开销：工具验证通常需要额外的计算资源，可能会影响测试时学习的实时性；2）模型依赖性：工具验证通常依赖于环境或策略的模型，如果模型不准确，验证结果可能不可靠；3）保守性：工具验证可能会过于保守，限制智能体的学习空间，导致策略性能无法充分发挥；4）适用性：工具验证方法可能难以扩展到高维或复杂的环境。因此，在实际应用中需要权衡验证的严格性和计算效率。

如何评估测试时强化学习系统的性能？

评估测试时强化学习系统的性能需要考虑多个维度：1）适应性：智能体在测试时学习后是否能显著提高性能或适应新环境；2）安全性：智能体在测试时学习过程中是否满足安全约束或避免不安全行为；3）样本效率：智能体在测试时学习所需的样本数量或交互次数；4）计算效率：测试时学习过程的时间和资源消耗；5）稳定性：测试时学习是否会导致策略性能波动或退化。评估通常需要在仿真环境和真实环境中进行，并结合定量指标（如累积奖励、安全违规次数）和定性分析（如行为合理性）。

引用

ArXiv: http://arxiv.org/abs/2603.02203v1
PDF: https://arxiv.org/pdf/2603.02203v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： T3RL / 测试时强化学习 / TTRL / 工具验证 / 模式崩溃 / 代码执行 / 自进化 / MATH数据集
场景： Web应用开发

测试时强化学习的工具验证方法