语言模型自我改进:代理发现与测试时扩展
基本信息
- ArXiv ID: 2605.08083v1
- 分类: cs.CL
- 作者: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang
- PDF: https://arxiv.org/pdf/2605.08083v1.pdf
- 链接: http://arxiv.org/abs/2605.08083v1
摘要
背景
Test‑time scaling(TTS)在推理阶段为模型分配额外计算,以提升性能,但现有 TTS 策略多为手工设计的启发式,缺乏系统探索。
方法
AutoTTS 将设计对象从单个启发式转变为可自动搜索的“环境”。环境构建的关键是:① 将控制空间限制在可管理的维度;② 提供廉价、频繁的反馈,避免重复调用大模型。具体实现为宽度‑深度 TTS,把控制器视为对已收集的推理轨迹和探测信号的合成器,控制器可决定分支、继续、探测、剪枝或停止。为降低搜索难度,引入 beta 参数化;为快速定位失败原因,提供细粒度的执行轨迹反馈。
实验
在数学推理基准上,自动发现的策略在相同成本下准确率更高,或在相同准确率下成本更低,明显优于强手工基线。策略还能迁移到未见的基准和不同规模的模型。完整发现过程仅花费 39.9 美元、约 160 分钟。
资源
代码与数据计划开源于 https://github.com/zhengkid/AutoTTS。
评论
论文声称
- AutoTTS 将 test‑time scaling(TTS)从手工启发式改造为可自动搜索的“环境”。
- 通过宽度‑深度搜索、beta 参数化以及细粒度轨迹反馈,实现控制器的高效探索。
- 在数学推理基准上,自动发现的策…(摘要截断,未给出具体数值)。
证据
- 摘要仅提供框架概述,未提供实验数据、对比基线或统计显著性分析。
- 文中提到的 beta 参数化和轨迹反馈是实现细节,缺乏公开代码或可复现的实验结果。
推断
- 借鉴强化学习中的自动策略搜索经验,若控制空间可压缩且反馈足够廉价,该框架在小至中等规模模型上具备潜在提升。
- 由于仍需对大模型进行多次调用,搜索成本可能抵消性能增益,尤其在算力受限的部署场景。
关键假设与潜在失效条件
- 维度可控假设:假设控制空间维度受限且搜索可收敛。失效时(如任务规模增长导致组合爆炸),搜索可能陷入局部最优或根本无法收敛。
- 廉价反馈假设:假设轨迹反馈成本低且细粒度高。若实际系统仍需频繁调用大模型,计算开销将显著上升,违背初衷。
- beta 参数化适用性:假设 beta 分布能够平滑策略空间。若任务对离散决策或稀疏奖励敏感,参数化可能失效。
可验证方式
- 在 MATH、GSM8K 等不同难度的数学基准上开展对照实验,记录搜索耗时、算力消耗与最终准确率。
- 消融实验分离 beta 参数化与轨迹细粒度的贡献,评估其单独及组合效果。
- 改变模型规模(1B、7B、70B)与推理时间预算,检验控制器在不同硬件约束下的鲁棒性与可扩展性。
技术分析
研究背景
Test-time scaling(TTS)通过在推理阶段分配额外计算资源来提升大语言模型性能,已成为近年来提升模型能力的重要技术路径。摘要明确指出,现有 TTS 策略多为手工设计的启发式方法,这限制了策略的系统性探索和性能上限。这一背景信息直接来源于摘要,为研究提供了明确的动机。
核心方法
AutoTTS 的核心创新在于将 TTS 策略设计从手工构建转变为可自动搜索的环境。具体而言,该方法通过三个关键步骤实现:首先是控制空间限制,将高维策略空间约束在可管理的维度内;其次是提供廉价且频繁的反馈机制,避免在策略搜索过程中重复调用大型语言模型,从而降低成本。
在具体实现上,AutoTTS 采用宽度-深度 TTS 架构,将控制器视为推理轨迹和探测信号的合成器。控制器具备分支、继续、探测、剪枝和停止五种基本操作能力。这种设计允许控制器在推理过程中动态决定如何分配计算资源。论文引入 beta 参数化技术以降低搜索难度,这一技术选择暗示了控制器输出可能采用概率分布形式。细粒度的执行轨迹反馈则帮助快速定位推理失败的原因。
实验与结果
摘要表明,在数学推理基准上的实验结果显示,自动发现的策略在相同成本下获得更高准确率,或在相同准确率下使用更低成本。这暗示发现的策略具有成本-性能帕累托优势。此外,策略展现出跨基准和跨模型规模的迁移能力,这是一项重要发现,因其表明策略学习可能捕获了某种通用的推理模式。值得注意的是,完整发现过程仅消耗 39.9 美元和约 160 分钟,显示出该方法的实用性。
理论基础
从方法描述推断,AutoTTS 的理论基础可能涉及强化学习或贝叶斯优化框架。Beta 参数化通常见于概率模型,暗示控制器可能输出动作的概率分布。搜索环境的设计遵循机器学习中超参数优化的范式,将策略参数映射到性能指标。这一推断基于方法描述中“自动搜索”的表述和 beta 参数化的使用。
关键假设与潜在失效条件
该研究隐含几个关键假设。其一是控制空间限制的充分性,即通过限制控制空间不会排除潜在最优策略。推断认为,如果真实最优策略超出了限制空间,则方法性能将受限。其二是反馈信号的可靠性,即执行轨迹反馈能够准确反映策略质量,若反馈存在噪声或延迟,搜索过程可能收敛到次优解。Beta 参数化假设控制器输出服从 beta 分布,这一假设可能不适用于所有类型的控制动作。
潜在失效条件包括:当推理任务需要非常长的推理链时,搜索空间可能仍然过大;当模型规模显著变化时,迁移性可能失效;以及在开放式生成任务上,数学推理的策略可能不适用。
应用前景
AutoTTS 的应用前景体现在多个层面。首先,它提供了一种自动化的 TTS 策略设计范式,降低了人工设计成本。其次,低廉的发现成本使其具备实际部署价值。再者,策略的迁移能力表明可能训练出通用型 TTS 控制器。最后,该方法为 LLM 的自我改进提供了新思路,即模型可以通过搜索更好的推理策略来自我提升。
相关工作对比
推断认为,现有 TTS 研究主要集中于手工设计策略,如多数投票、自我一致性等方法。AutoTTS 的创新点在于将策略设计自动化,这与神经架构搜索等 AutoML 技术的方法论相似,但应用于推理过程控制。该方法与近期关于 LLM 自我改进的研究相关,但侧重于推理阶段而非训练阶段。
学习要点
- Agentic discovery 使 LLM 能够在推理时自主探索并提出改进,实现 test‑time scaling。
- 通过在推理阶段迭代搜索与评估,模型能够在不重新训练的情况下实现能力的扩展。
- 自我生成的候选方案结合内部奖励或外部评估指标进行筛选,实现闭环改进。
- 采用可执行的符号或代码表示,使改进方案能够被自动验证和部署。
- 循环的“生成‑评估‑更新”流程形成自我改进闭环,显著提升特定任务的表现。
- 该方法在不同规模模型间具有迁移性,小模型发现的策略可推广至大模型。
- 与传统离线训练相比,agentic discovery 在推理时快速适配新任务,提高资源利用效率。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。