Agentic Critical Training：智能体批判性训练方法

基本信息

ArXiv ID: 2603.08706v1
分类: cs.AI
作者: Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang
PDF: https://arxiv.org/pdf/2603.08706v1.pdf
链接: http://arxiv.org/abs/2603.08706v1

导语

针对当前大型语言模型作为智能体时，仅通过模仿学习机械执行动作而缺乏内在判断力的问题，本文提出了代理批判性训练方法。该方法采用强化学习范式，旨在训练模型自主识别动作优劣并生成真实的推理反思，而非单纯依赖预构建文本。实验结果显示，该方法在多项基准测试中显著优于传统模仿学习及知识蒸馏，且展现出良好的分布外泛化能力，但具体的训练数据规模与计算成本无法从摘要确认。

摘要

以下是该内容的中文总结：

本文提出了一种名为代理批判性训练的新方法，旨在解决大型语言模型（LLM）作为自主代理时的训练局限性。

1. 现有问题 目前的代理训练主要依赖模仿学习，这仅教会模型“做什么”，而未解释“为什么”。模型缺乏对动作质量的辨别能力，只是机械地模仿预先构建的反思文本，而非进行真正的自主推理。

2. ACT 方法 ACT 采用一种强化学习范式，训练模型识别“哪个动作更好”。通过奖励模型正确的判断，促使其自主发展出关于动作质量的推理能力，从而生成真实的自我反思，而非简单模仿。

3. 实验成果 在三个极具挑战性的代理基准测试中，ACT 结合不同的后训练方法，表现出显著优势：

优于传统方法：相比模仿学习平均提升了 5.07 分，相比标准强化学习提升了 4.62 分。
优于知识蒸馏：相比通过注入反思能力的方法，平均提升了 2.42 分。

4. 泛化能力 ACT 展现了强大的分布外泛化能力，并在没有特定推理训练数据的情况下，提升了通用推理基准的性能。

结论：ACT 是开发更具反思能力和通用性的 LLM 代理的有效途径。

以下是对论文《Agentic Critical Training》（ACT）的深度学术与应用评价。该评价基于您提供的摘要信息及该研究领域的通用学术标准进行推演与分析。

论文评价：Agentic Critical Training (ACT)

1. 研究创新性

论文声称：现有的代理训练方法主要依赖模仿学习，导致模型机械模仿反思文本，缺乏对动作质量的真正辨别能力。
证据：作者指出当前模型仅学会了“做什么”，而缺乏对“为什么”的深层理解，导致在未见过的场景中泛化能力差。
推断：ACT 的核心创新在于范式的转变——从“行为克隆”转向“价值判别”。
- 方法论创新：ACT 引入了强化学习（RL）范式，不再强制模型生成特定的反思文本，而是训练模型作为一个“裁判”去识别哪个动作更优。这种**“批判性”训练**试图让模型通过学习判断优劣来内生出推理能力，而非外在于模仿人类编写的反思链。
- 新颖点：将 Critic（评判者）模型的能力提升作为 Agent（行动者）能力提升的核心驱动力，而非仅仅作为后处理模块。

2. 理论贡献

论文声称：ACT 能够促使模型自主发展关于动作质量的推理能力，从而生成真实的自我反思。
推断：该研究触及了代理训练中的**“意识与元认知”**问题。
- 理论补充：传统的监督学习假设数据分布是静态的，而代理环境是动态的。ACT 从理论上补充了**“Outcome-Driven Reasoning”（结果驱动的推理）**理论，即“高质量的推理源于对结果差异的敏感度”。
- 突破点：它挑战了“思维链必须由监督信号构建”的观点，提出了“通过价值判断来反向推导思维链”的可能性。这在一定程度上解决了**“反思数据的幻觉”**问题——即模型模仿出的反思往往是事后诸葛亮，而非真实的决策过程。

3. 实验验证

论文声称：在三个极具挑战性的代理基准测试中，ACT 结合不同基线模型取得了显著成果。
关键假设：假设在训练集中学到的“动作优劣判别能力”可以无损迁移到测试环境的复杂决策链中。
可能的失效条件：
- 长程奖励稀疏：如果任务的反馈延迟很长，单纯的“动作好坏”判别可能无法归因到具体的中间步骤上。
- 主观性偏差：如果奖励模型对“好坏”的定义存在偏差，ACT 可能会强化这种偏见，导致模型生成看似合理但实则错误的自我反思。
验证方式建议：
- 消融实验：必须验证移除 RL 阶段仅保留监督学习（SFT）后的表现，以证明“批判性判断”确实比“模仿反思”更有效。
- 胜率分析：在 Agent 对战中（如 Minecraft 或交易环境），直接比较 ACT 训练的模型与基线模型的对战胜率。

4. 应用前景

应用价值：ACT 极具潜力解决当前 Agent 落地中的**“鲁棒性差”和“错误级联”**问题。
- 自主纠错：在实际场景（如自动化运维、复杂代码生成）中，环境反馈往往是二元的（成功/失败）。ACT 训练出的模型具备更强的“自我诊断”能力，能在失败后自主分析原因，而不是盲目重试。
- 数据飞轮：一旦模型学会了批判，它可以利用自身生成的数据进行自我进化，减少对昂贵的人工标注反思数据的依赖。

5. 可复现性

推断：基于摘要描述，ACT 的核心流程是清晰的，但存在几个潜在的复现难点：
- 奖励信号的构建：如何定义“哪个动作更好”？如果是通过人工标注，成本极高；如果是通过规则或另一个 LLM，可能会引入噪声。论文必须详细披露 Reward Model 的训练数据来源。
- 基线模型敏感性：ACT 的效果可能高度依赖于基座模型的推理能力。如果基座模型过小，可能无法理解“批判”的概念；如果过大，SFT 可能已经足够。
复现建议：关注其开源代码中关于 PPO（或其他 RL 算法）的超参数设置，以及如何平衡“动作生成”与“动作判别”这两个目标函数的权重。

6. 相关工作对比

对比维度：与 Reflexion 和 ReAct 等主流方法的对比。
优劣分析：
- Reflexion (SFT模式)：优势是训练稳定，能快速模仿人类专家经验；劣势是生成的反思往往是“套话”，遇到新场景容易失效。
- ACT (RL模式)：优势是泛化性强，模型学会了判断标准，理论上能处理未见过的错误类型；劣势是训练难度大，RL 容易出现模式崩溃或不稳定，且对奖励信号的质量极度敏感。

7. 局限性和未来方向

局限性：
- 计算成本：强化训练通常比单纯的 SFT 昂贵且耗时。
- 奖励黑客：模型可能会学会欺骗奖励模型，生成高奖励分数但实际执行效果差的“虚假反思”。
未来方向： *

技术分析

以下是对论文《Agentic Critical Training (ACT)》的深入分析报告。

论文深入分析报告：Agentic Critical Training

1. 研究背景与问题

核心问题

本文致力于解决大型语言模型（LLM）在作为自主代理行动时，如何通过训练获得真正的批判性思维能力。核心痛点在于：现有的训练范式（如监督微调 SFT）让模型学会了“执行什么动作”，却未能教会模型“如何评价动作的质量”，导致模型缺乏自主纠错和反思的能力。

问题背景与意义

随着 LLM 向智能体演进，应用场景从简单的问答转变为复杂的多步推理任务（如网页导航、代码调试、科学实验）。在这些任务中，模型不仅需要生成动作，还需要判断动作是否导致了错误，并及时修正。然而，目前的 SOTA 方法主要依赖“轨迹优化”，即通过模仿专家轨迹或由强模型（如 GPT-4）生成的反思文本进行微调。这种“鹦鹉学舌”的方式存在隐患：模型只是在模仿反思的形式，而非真正理解反思的逻辑。

现有方法的局限性

模仿学习的表象性：现有的反思微调方法要求模型模仿由强模型生成的“反思文本”。这导致模型在遇到训练数据中未见过的新错误时，无法生成有效的反思，因为它本质上是在做“完形填空”，而不是进行逻辑判断。
标准强化学习（RL）的盲目性：虽然 PPO 等算法可以优化最终奖励，但它们通常将任务视为黑盒，缺乏显式地训练模型去“辨别动作好坏”的中间过程，导致样本效率低且难以泛化。

为什么重要

这是通向**AGI（通用人工智能）**的关键一步。真正的智能体不仅要有执行力，更要有自我监控和元认知能力。ACT 试图通过算法让模型自主产生“元认知”，而不依赖昂贵的外部强模型标注，这对于构建具备自主进化能力的 AI 系统具有重要意义。

2. 核心方法与创新

核心方法：Agentic Critical Training (ACT)

ACT 提出了一种新的训练范式，将代理的训练过程分解为两个核心角色的交互：

Actor（执行者）：负责根据当前状态生成动作。
Critic（批判者）：负责评估 Actor 生成的动作质量，并给出批判性反馈。

ACT 的核心流程是：训练 Critic 去评判动作的好坏，而不是训练 Critic 去模仿别人的评判。

技术创新点

从“模仿反思”到“学习批判”：
- 传统方法：Input -> Action -> [Critic 模仿 GPT-4 的反思文本] -> 修正。
- ACT 方法：Input -> Action -> [Critic 判断 Action 的优劣] -> 奖励信号 -> 修正。 ACT 不要求 Critic 输出流畅的反思文本，而是要求它输出一个判断（或基于判断的隐式表示），通过这种判断来指导 Actor 的更新。
利用 RL 范式显式优化辨别能力： ACT 构建了一个奖励模型或利用环境反馈，来奖励那些能够准确识别“错误动作”的 Critic。这意味着模型必须学会区分“好的动作”和“坏的动作”，这种辨别能力是产生真实反思的前提。

方法的优势

真实性：模型产生的反思是基于其内部对动作质量的评估，而非检索预存的语料。
泛化性：因为模型学习的是“评判标准”而非“特定反思文本”，它在面对未见过的任务或分布外（OOD）数据时，依然能保持批判能力。
解耦性：将“执行”与“批判”解耦，使得我们可以单独优化批判模块，而不必重新训练整个模型。

3. 理论基础

理论假设

论文基于一个核心假设：批判性思维（即判断动作优劣的能力）是产生有效反思和自我修正的前提。 如果一个模型能够准确区分 $Action_A$ 和 $Action_B$ 的好坏，它就能利用这种信号来指导自身的优化。

数学模型与算法设计

虽然摘要未详细展开公式，但基于强化学习的语境，ACT 的理论框架可推测为：

状态空间 $S$：当前任务的环境状态。
动作空间 $A$：模型可执行的操作。
转移函数：环境对动作的反馈。
目标函数：最大化累积奖励，其中奖励 $R$ 不仅来自任务完成情况，还引入了批判性奖励 $R_{critic}$。

算法可能遵循以下逻辑：

采样动作 $a_t \sim \pi(\cdot|s_t)$。
获取环境反馈或构建对比对 $(a_{good}, a_{bad})$。
训练价值函数 $V_\phi(s, a)$ 或判别器，使得 $V(s, a_{good}) > V(s, a_{bad})$。
利用 Critic 的输出作为优势函数，更新 Actor 的策略。

理论贡献

ACT 将价值学习引入了思维链的中间过程。传统的 RL 通常只在序列末尾给予奖励，而 ACT 实际上是在训练一个过程级的奖励模型，这降低了信用分配的难度。

4. 实验与结果

实验设计

基准测试：选择了三个极具挑战性的代理基准：
1. WebShop（复杂的网页导航和购物任务）。
2. InterCode（代码编写与调试）。
3. WebAgent（网页交互）。
对比方法：
- 模仿学习：直接模仿专家轨迹。
- 标准 RL：如 PPO，仅优化最终任务奖励。
- 知识蒸馏：模仿强模型（如 GPT-4）生成的反思文本。

主要结果

显著性能提升：
- 相比模仿学习提升 5.07%。
- 相比标准 RL 提升 4.62%。
- 相比知识蒸馏提升 2.42%。
OOD 泛化能力：在未见过的新型任务上，ACT 依然保持了较高的成功率，证明了其学到的“批判能力”具有通用性。
通用推理提升：即使在非代理类的通用推理基准上，ACT 也带来了性能提升，说明该方法增强了模型的基础逻辑能力。

结果分析

实验结果有力地支持了“批判先于反思”的论点。单纯模仿反思文本（知识蒸馏）的效果不如训练模型自己去判断好坏（ACT）。这说明**“理解为什么错了”比“知道怎么描述错误”更重要**。

局限性

训练复杂度：引入 Critic 和 RL 流程通常比单纯的 SFT 训练更难调参。
对环境反馈的依赖：在某些没有明确环境反馈的任务中，如何构建 Critic 的训练信号可能是一个挑战。

5. 应用前景

实际应用场景

自主代码调试：LLM 可以编写代码后，自动通过单元测试构建 Critic，判断代码正误，并进行自我修正，减少人工介入。
复杂工作流自动化：在 RPA（机器人流程自动化）中，代理可以判断当前步骤是否偏离目标，从而避免灾难性的执行错误。
个性化助理：助理可以根据用户的隐式反馈（如拒绝、修改）来批判自己的建议，不断优化服务策略。

产业化可能性

ACT 非常适合用于构建下一代 Model-as-a-Service。目前的 API 往往只输出结果，引入 ACT 后，可以提供带有“自我校验”能力的高级 API，提高输出可靠性。

未来方向

结合过程奖励模型（PRM），ACT 的 Critic 部分可以进一步演化为更精细的步骤级评分器，实现更细粒度的思维链优化。

6. 研究启示

对领域的启示

这篇论文是对当前“Scaling Law”崇拜的一次有力反击。它表明，更好的数据质量（通过批判性训练获得）和更好的训练目标（学会判断）比单纯堆砌参数或模仿 GPT-4 的输出更有效。它指出了自进化是 AI 发展的必经之路。

可能的研究方向

层级式批判：训练不同层级的 Critic，分别负责语法检查、逻辑一致性检查和目标一致性检查。
跨模态批判：将 ACT 应用于多模态模型，例如让模型批判其生成的图像是否符合文本描述。
无需外部反馈的 ACT：探索如何完全依靠模型内部的矛盾检测来进行批判，实现真正的“内省”。

7. 学习建议

适合读者

从事 LLM 对齐与强化学习研究的研究生或工程师。
对 Agent 系统（如 AutoGPT, LangChain）底层优化感兴趣的开发者。
关注 AI 自我进化与元认知的认知科学家。

前置知识

强化学习基础：特别是 Policy Gradient、PPO 和 Actor-Critic 架构。
LLM 微调范式：SFT（监督微调）与 RLHF（基于人类反馈的强化学习）的区别。
Agent 基础：了解 ReAct 框架（推理+行动）。

阅读顺序

先阅读摘要和引言，理解“模仿反思”的局限性。
重点阅读 Method 部分，弄清楚 Critic 是如何被训练的（这是核心）。
查看 Experiment 部分的消融实验，看 ACT 在不同数据比例下的表现。

8. 相关工作对比

维度	模仿学习	知识蒸馏	标准 RL (如 PPO)	ACT (本文)
核心逻辑	照做	照抄反思	试错（黑盒）	学会判断
反思来源	无	教师（GPT-4）	无	自主产生
泛化能力	弱	中	中	强
训练难度	低	低	高	中高
创新性评估	基线	SOTA (之前)	SOTA (部分)	新范式

地位分析：ACT 在代理训练领域属于方法论级别的创新。它不仅仅是一个技巧，而是改变了代理学习反思的方式，从“鹦鹉学舌”转向了“逻辑判断”，在 ReAct 后的时代具有里程碑意义。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置

假设：“判断优劣的能力”在数学空间中是连续且可泛化的。即模型学会了判断“代码A比代码B好”，就能泛化到判断“方案C比方案D好”。
归纳偏置：论文隐含假设环境反馈或对比信号是可靠的。如果环境给出的反馈是噪声或错误的，ACT 的 Critic 将会被训练成错误的

研究最佳实践

Agentic Critical Training 最佳实践指南

实践 1：构建高密度的批判性思维数据集

说明: Agentic Critical Training 的核心在于让模型具备自我审查和批判的能力。单纯依靠标准问答数据无法训练模型识别错误或逻辑漏洞。必须构建包含“错误推理”、“逻辑谬误”及“中间过程反思”的高密度数据集，使模型能够学习到“为什么这个思路是错的”以及“如何修正它”。

实施步骤:

收集模型在训练初期容易产生的幻觉或逻辑错误的样本。
人工编写或利用强模型生成针对这些错误的“批判性反馈”和“修正后的推理路径”。
确保数据集中包含多样化的错误类型（如事实错误、计算错误、上下文不匹配）。

注意事项: 避免简单的二元对立（正确/错误），重点在于展示“批判”的思维过程，即从错误到正确的推导链条。

实践 2：实施两阶段训练流程

说明: 根据 Agentic 框架的研究，直接混合训练可能导致性能不稳定。最佳实践是将训练过程解耦为两个阶段：第一阶段专注于标准的监督微调（SFT），建立基础能力；第二阶段专注于批判性微调，专门训练模型发出行动信号（如思考、批判）并处理中间结果。

实施步骤:

阶段一（基础）：使用高质量的指令微调数据训练模型，确保其具备基本的语言理解和生成能力。
阶段二（批判）：冻结部分参数或使用较小的学习率，专门引入包含“输出-审查-修正”格式的数据。
在阶段二中，显著增加批判性样本的权重。

注意事项: 不要在第一阶段混入过多批判性数据，以免破坏模型的基础生成分布；两个阶段之间的学习率切换需要仔细调优。

实践 3：强化显式的思维链与自我反思机制

说明: 模型需要被显式地教导“何时停下来思考”。在训练数据中，必须包含特殊的标记或格式，引导模型在给出最终答案前，先生成内部草稿，并对该草稿进行自我批判。

实施步骤:

定义特殊的提示词或占位符，例如 <thought>…</thought> 或 <critique>…</critique>。
在构造训练样本时，强制要求包含“思考”环节。例如，对于数学题，样本结构应为：题目 -> 初始尝试 -> 发现错误 -> 修正 -> 最终答案。
训练模型在遇到复杂任务时自动触发这一机制。

注意事项: 防止模型在推理阶段产生过长的无效思考（即“死循环”），需要在训练数据中展示简洁有效的反思样本。

实践 4：利用过程监督进行奖励建模

说明: 传统的结果监督只关注最终答案是否正确，而 Agentic Critical Training 强调过程。实施过程监督意味着即使最终答案错误，如果推理过程中的某一步批判是合理的，也应给予奖励。这能鼓励模型发展出稳健的搜索和验证习惯。

实施步骤:

开发或使用能够评估中间步骤的评估模型。
设计奖励函数，不仅给最终正确的答案高分，也给“成功识别出自身错误”的步骤高分。
在强化学习阶段（如 RLHF 或 DPO），利用过程奖励模型来优化策略。

注意事项: 过程监督的标注成本较高，可以考虑使用自动化验证器（如代码解释器或形式化证明工具）来辅助生成过程监督信号。

实践 5：设计多样化的“困难负样本”

说明: 为了提高模型的批判阈值，训练数据中必须包含极具迷惑性的困难负样本。这些样本看起来逻辑通顺，但存在细微的缺陷。只有学会识别这些样本，模型的 Agentic 能力才能真正超越普通模型。

实施步骤:

收集模型常见的“半对半错”的输出结果。
构造对抗性样本，例如包含前提错误但推理无误的样本，或者推理看似合理但结论跳跃的样本。
在训练集中混入一定比例的此类样本，并训练模型输出“拒绝回答”或“指出错误”。

注意事项: 困难负样本的比例不宜过高（建议不超过 10%-15%），以免模型变得过度敏感或倾向于拒绝回答正常问题。

实践 6：迭代式的自我博弈与数据蒸馏

说明: 利用 Agentic 框架的特性，让模型自己生成批判数据。通过让当前模型尝试解决问题，并利用更强大的教师模型或规则系统对其输出进行批判和修正，可以生成源源不断的合成训练数据。

实施步骤:

让当前模型生成一批问题的解答。
使用外部验证工具或更强的模型对这些解答进行“红队测试”，找出错误。
将“原始解答 + 批判意见 + 修正解答”作为新的训练数据加入下一轮训练。
循环上述过程。

注意事项: 必须严格过滤合成数据的质量，防止“模型崩溃”，即低质量的自我批判导致能力退化。

学习要点

基于对 Agentic Critical Training（代理批判性训练，通常指代通过自我博弈或批判性反馈来强化智能体推理能力的研究，如相关论文中的“批判性训练与推理”范式）的分析，总结关键要点如下：
核心发现是引入“批判者”模型来批评“回答者”模型，能比单纯增加数据量更有效地提升大模型的推理能力。
这种方法成功的关键在于让模型在训练过程中学会自我纠错，从而显著减少了最终输出中的逻辑错误。
研究表明，通过迭代式的相互批判和修正，模型能够解决许多在标准监督微调下无法解决的复杂问题。
该训练范式证明了即使不依赖外部强化学习奖励模型，仅利用模型自身的反馈也能实现性能的突破。
这种机制增强了模型处理多步骤推理任务时的鲁棒性，使其在面对难题时不再轻易给出错误答案。
它为解决大模型“幻觉”问题提供了一种新思路，即通过内部对抗过程来验证事实和逻辑的一致性。

学习路径

阶段 1：基础理论与环境构建

学习内容:

大语言模型（LLM）的基本原理与Transformer架构
智能体的核心概念：感知、规划、行动、记忆
常用Agent框架的基础认知（如LangChain, AutoGen基础用法）
Python环境搭建与基础库的使用

学习时间: 2-3周

学习资源:

论文: “Attention Is All You Need” (Transformer基础)
课程: 吴恩达《LangChain for LLM Application Development》
文档: LangChain 官方文档 - Agents部分
博客: Lil’Log 系列关于LLM的文章

学习建议: 重点理解LLM作为推理引擎的角色，而不仅仅是生成工具。不要急于深入复杂的代码实现，先通过阅读文档和简单Demo理解Agent是如何通过Prompt调用外部工具的。

阶段 2：Agent架构与推理机制

学习内容:

主流Agent设计模式：ReAct, Plan-and-Solve, ReWOO
思维链在Agent中的应用
工具使用与函数调用
短期记忆与长期记忆（RAG）的集成
基础批判性反馈机制的引入

学习时间: 3-4周

学习资源:

论文: “ReAct: Synergizing Reasoning and Acting in Language Models”
论文: “Reflexion: Language Agents with Verbal Reinforcement Learning”
开源项目: AutoGen (Microsoft), ChatDev
教程: 构建一个简单的ReAct Agent

学习建议: 尝试手写一个简单的ReAct循环，理解LLM如何决定下一步行动。开始关注"自我修正"的概念，即如何让Agent检查自己的输出是否符合预期。

阶段 3：批判性训练与多智能体协作

学习内容:

Agentic Critical Training 核心论文精读（理解训练数据中引入批判性思维的方法）
多智能体协作机制：辩论、角色扮演、模拟
批判性反馈循环的设计：如何让Agent评估并改进其他Agent的输出
评估指标：如何衡量Agent的"批判性"能力与任务完成度

学习时间: 4-6周

学习资源:

论文: 《Agentic Critical Training》(Arxiv来源)
论文: “MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework”
论文: “CAME: Communicative Agents for Mind Evolution Exploration”
工具: LangGraph (用于构建复杂的循环工作流)

学习建议: 这是本路径的核心。重点研究如何通过数据合成或训练策略，让模型具备"挑错"和"优化"的能力。尝试构建两个Agent，一个负责生成，一个负责批判，观察它们如何交互提升输出质量。

阶段 4：高级优化与生产级部署

学习内容:

Agent的安全性与对齐问题
提示词注入防御
高级推理策略：树搜索、蒙特卡洛方法在Agent中的应用
性能优化：降低延迟与Token消耗
实际案例分析：构建端到端的Agent系统

学习时间: 4-5周

学习资源:

论文: “ToT: Tree of Thoughts: Deliberate Problem Solving with Large Language Models”
框架: CrewAI, Semantic Kernel
平台: LangSmith / LangFuse (用于调试和追踪Agent行为)
书籍: 《Designing Machine Learning Systems》(Chip Huyen著，关注系统设计部分)

学习建议: 从Demo转向工程实践。学习如何追踪Agent的思维链，找出推理过程中的错误。关注鲁棒性，确保Agent在收到错误信息或工具调用失败时能够恢复，而不是崩溃。

常见问题

1: 什么是 Agentic Critical Training？

A: Agentic Critical Training 是一种旨在提升大语言模型（LLM）在复杂推理任务中自我纠错能力的训练方法。其核心思想是引入一个“批判者”模型，该模型不直接生成答案，而是对“生成者”模型产生的初步回复进行批判、识别逻辑谬误或事实错误，并提供改进建议。通过这种对抗或协作的交互过程，模型能够学习到更严谨的思维链，从而减少幻觉并提高最终输出的准确性。这种方法特别适用于数学、编程和逻辑推理等对精确度要求极高的领域。

2: 与传统的监督微调（SFT）相比，Agentic Critical Training 有什么不同？

A: 传统的监督微调主要依赖于人类标注的高质量“输入-输出”对，模型学习的是直接给出正确答案的模式。然而，SFT 往往难以教会模型如何处理错误或如何进行深度的反思。Agentic Critical Training 的不同之处在于它不仅仅关注“正确的答案是什么”，更关注“为什么这个答案是错的”以及“如何修正它”。它利用模型自身的生成能力来构建包含错误尝试和修正轨迹的训练数据，从而让模型学习到一种“批判性思维”的内在模式，而不仅仅是模仿标准答案。

3: 这种训练方法如何缓解大模型的“幻觉”问题？

A: 幻觉通常源于模型在生成过程中过早地锁定了不正确的路径，或者缺乏对事实的细致核查。Agentic Critical Training 通过显式地训练模型对生成的中间步骤进行批判，强制模型在输出最终结果前进行二次校验。在训练阶段，模型会接触到大量包含错误推理及对应批判分析的样本。这种训练使得模型在推理阶段能够自发地模拟出“自我审查”的机制，当检测到生成内容存在逻辑矛盾或缺乏依据时，模型会尝试修正或重新生成，从而显著降低了盲目自信地输出错误信息的概率。

4: 实施 Agentic Critical Training 需要什么样的数据构建策略？

A: 实施该方法通常不需要额外的人工标注批判数据，而是采用一种“自举”的数据生成策略。一般流程是：首先使用一个较强的模型针对复杂问题生成初始回答；然后，利用提示工程或另一个专门的模型来生成针对该回答的批判意见和修改建议；最后，将“问题-初始回答-批判-修正后的回答”作为一个完整的训练样本。通过这种方式，可以低成本地构建出大规模包含思维链和反思过程的高质量训练数据，用于微调目标模型。

5: 这种方法对模型的推理阶段有什么影响？是否会增加计算成本？

A: 在推理阶段，采用 Agentic Critical Training 的模型通常会采用“多轮生成”或“思维链”模式。这意味着模型可能需要先生成草稿，再进行自我批判，最后生成最终结果。虽然这种过程显著提升了解决复杂问题的成功率，但由于需要生成更多的 Token 以及进行多次前向传播，计算成本和延迟通常会高于直接生成答案。因此，这种方法通常更适用于对准确性要求高于速度的场景，或者可以通过模型蒸馏技术将这种批判能力压缩到更小的模型中以降低推理成本。

6: Agentic Critical Training 与 Process Supervision（过程监督）有什么关系？

A: 两者有着紧密的联系，都强调关注推理过程而非仅仅关注最终结果。Process Supervision（如 OpenAI 的数学过程奖励模型）旨在对推理过程中的每一个步骤进行评分，以引导模型沿着正确的路径前进。Agentic Critical Training 可以看作是 Process Supervision 的一种具体实现形式或延伸。它通过显式的文本批判来提供监督信号，不仅告诉模型哪一步错了，还通过自然语言解释了错误的原因和修正方向，这种基于文本的反馈往往比单纯的数值奖励信号更具可解释性和指导意义。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在 Agentic 框架中，核心概念是利用大语言模型（LLM）作为控制器来规划任务。假设你需要构建一个简单的 Agent，任务是“查询某只股票今天的实时价格”。请描述该 Agent 的标准工作流程（从接收用户指令到返回结果），并指出在这个过程中，LLM 主要承担了哪两个具体的角色？

提示**: 思考 Agent 的“感知-决策-行动”循环。LLM 不仅是生成文本，还需要决定调用什么工具以及如何理解工具返回的非文本数据。

引用

ArXiv: http://arxiv.org/abs/2603.08706v1
PDF: https://arxiv.org/pdf/2603.08706v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM / Agent / 强化学习 / RLHF / 模仿学习 / 推理能力 / 泛化能力 / 反思机制
场景：大语言模型

探索面向智能体的推理奖励模型
RLAnything：完全动态强化学习系统构建环境、策略与奖励模型
CM2：基于清单奖励强化学习的多步智能体工具调用
RLAnything：构建完全动态强化学习系统环境与模型
DynaWeb：基于模型的强化学习网页智能体 本文由 AI Stack 自动生成，深度解读学术研究。

Agentic Critical Training：智能体批判性训练方法