语言模型自我改进：代理发现与测试时扩展

基本信息

ArXiv ID: 2605.08083v1
分类: cs.CL
作者: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang
PDF: https://arxiv.org/pdf/2605.08083v1.pdf
链接: http://arxiv.org/abs/2605.08083v1

摘要

背景

Test‑time scaling（TTS）在推理阶段为模型分配额外计算，以提升性能，但现有 TTS 策略多为手工设计的启发式，缺乏系统探索。

方法

AutoTTS 将设计对象从单个启发式转变为可自动搜索的“环境”。环境构建的关键是：① 将控制空间限制在可管理的维度；② 提供廉价、频繁的反馈，避免重复调用大模型。具体实现为宽度‑深度 TTS，把控制器视为对已收集的推理轨迹和探测信号的合成器，控制器可决定分支、继续、探测、剪枝或停止。为降低搜索难度，引入 beta 参数化；为快速定位失败原因，提供细粒度的执行轨迹反馈。

实验

在数学推理基准上，自动发现的策略在相同成本下准确率更高，或在相同准确率下成本更低，明显优于强手工基线。策略还能迁移到未见的基准和不同规模的模型。完整发现过程仅花费 39.9 美元、约 160 分钟。

资源

代码与数据计划开源于 https://github.com/zhengkid/AutoTTS。

论文声称

AutoTTS 将 test‑time scaling（TTS）从手工启发式改造为可自动搜索的“环境”。
通过宽度‑深度搜索、beta 参数化以及细粒度轨迹反馈，实现控制器的高效探索。
在数学推理基准上，自动发现的策…（摘要截断，未给出具体数值）。

证据

摘要仅提供框架概述，未提供实验数据、对比基线或统计显著性分析。
文中提到的 beta 参数化和轨迹反馈是实现细节，缺乏公开代码或可复现的实验结果。

推断

借鉴强化学习中的自动策略搜索经验，若控制空间可压缩且反馈足够廉价，该框架在小至中等规模模型上具备潜在提升。
由于仍需对大模型进行多次调用，搜索成本可能抵消性能增益，尤其在算力受限的部署场景。

关键假设与潜在失效条件

维度可控假设：假设控制空间维度受限且搜索可收敛。失效时（如任务规模增长导致组合爆炸），搜索可能陷入局部最优或根本无法收敛。
廉价反馈假设：假设轨迹反馈成本低且细粒度高。若实际系统仍需频繁调用大模型，计算开销将显著上升，违背初衷。
beta 参数化适用性：假设 beta 分布能够平滑策略空间。若任务对离散决策或稀疏奖励敏感，参数化可能失效。

可验证方式

在 MATH、GSM8K 等不同难度的数学基准上开展对照实验，记录搜索耗时、算力消耗与最终准确率。
消融实验分离 beta 参数化与轨迹细粒度的贡献，评估其单独及组合效果。
改变模型规模（1B、7B、70B）与推理时间预算，检验控制器在不同硬件约束下的鲁棒性与可扩展性。

技术分析

研究背景

Test-time scaling（TTS）通过在推理阶段分配额外计算资源来提升大语言模型性能，已成为近年来提升模型能力的重要技术路径。摘要明确指出，现有 TTS 策略多为手工设计的启发式方法，这限制了策略的系统性探索和性能上限。这一背景信息直接来源于摘要，为研究提供了明确的动机。

核心方法

AutoTTS 的核心创新在于将 TTS 策略设计从手工构建转变为可自动搜索的环境。具体而言，该方法通过三个关键步骤实现：首先是控制空间限制，将高维策略空间约束在可管理的维度内；其次是提供廉价且频繁的反馈机制，避免在策略搜索过程中重复调用大型语言模型，从而降低成本。

在具体实现上，AutoTTS 采用宽度-深度 TTS 架构，将控制器视为推理轨迹和探测信号的合成器。控制器具备分支、继续、探测、剪枝和停止五种基本操作能力。这种设计允许控制器在推理过程中动态决定如何分配计算资源。论文引入 beta 参数化技术以降低搜索难度，这一技术选择暗示了控制器输出可能采用概率分布形式。细粒度的执行轨迹反馈则帮助快速定位推理失败的原因。

实验与结果

摘要表明，在数学推理基准上的实验结果显示，自动发现的策略在相同成本下获得更高准确率，或在相同准确率下使用更低成本。这暗示发现的策略具有成本-性能帕累托优势。此外，策略展现出跨基准和跨模型规模的迁移能力，这是一项重要发现，因其表明策略学习可能捕获了某种通用的推理模式。值得注意的是，完整发现过程仅消耗 39.9 美元和约 160 分钟，显示出该方法的实用性。

理论基础

从方法描述推断，AutoTTS 的理论基础可能涉及强化学习或贝叶斯优化框架。Beta 参数化通常见于概率模型，暗示控制器可能输出动作的概率分布。搜索环境的设计遵循机器学习中超参数优化的范式，将策略参数映射到性能指标。这一推断基于方法描述中“自动搜索”的表述和 beta 参数化的使用。

关键假设与潜在失效条件

该研究隐含几个关键假设。其一是控制空间限制的充分性，即通过限制控制空间不会排除潜在最优策略。推断认为，如果真实最优策略超出了限制空间，则方法性能将受限。其二是反馈信号的可靠性，即执行轨迹反馈能够准确反映策略质量，若反馈存在噪声或延迟，搜索过程可能收敛到次优解。Beta 参数化假设控制器输出服从 beta 分布，这一假设可能不适用于所有类型的控制动作。

潜在失效条件包括：当推理任务需要非常长的推理链时，搜索空间可能仍然过大；当模型规模显著变化时，迁移性可能失效；以及在开放式生成任务上，数学推理的策略可能不适用。

应用前景

AutoTTS 的应用前景体现在多个层面。首先，它提供了一种自动化的 TTS 策略设计范式，降低了人工设计成本。其次，低廉的发现成本使其具备实际部署价值。再者，策略的迁移能力表明可能训练出通用型 TTS 控制器。最后，该方法为 LLM 的自我改进提供了新思路，即模型可以通过搜索更好的推理策略来自我提升。

学习要点

Agentic discovery 使 LLM 能够在推理时自主探索并提出改进，实现 test‑time scaling。
通过在推理阶段迭代搜索与评估，模型能够在不重新训练的情况下实现能力的扩展。
自我生成的候选方案结合内部奖励或外部评估指标进行筛选，实现闭环改进。
采用可执行的符号或代码表示，使改进方案能够被自动验证和部署。
循环的“生成‑评估‑更新”流程形成自我改进闭环，显著提升特定任务的表现。
该方法在不同规模模型间具有迁移性，小模型发现的策略可推广至大模型。
与传统离线训练相比，agentic discovery 在推理时快速适配新任务，提高资源利用效率。

引用

ArXiv: http://arxiv.org/abs/2605.08083v1
PDF: https://arxiv.org/pdf/2605.08083v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM / Agent / Test-time scaling / AutoTTS / 推理优化 / 策略搜索 / 数学推理 / 开源
场景：大语言模型

为何Pass@k优化会降低Pass@1：大模型后训练中的提示干扰
面向自动定理证明的最小智能体框架
RedSage：网络安全通用大语言模型
LLM Agent 成本呈二次方增长：算力开销分析
HuggingFace Agent 技能机制解析 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

语言模型自我改进：代理发现与测试时扩展