语言模型自我改进:代理发现与测试时扩展


基本信息


摘要

背景

Test‑time scaling(TTS)在推理阶段为模型分配额外计算,以提升性能,但现有 TTS 策略多为手工设计的启发式,缺乏系统探索。

方法

AutoTTS 将设计对象从单个启发式转变为可自动搜索的“环境”。环境构建的关键是:① 将控制空间限制在可管理的维度;② 提供廉价、频繁的反馈,避免重复调用大模型。具体实现为宽度‑深度 TTS,把控制器视为对已收集的推理轨迹和探测信号的合成器,控制器可决定分支、继续、探测、剪枝或停止。为降低搜索难度,引入 beta 参数化;为快速定位失败原因,提供细粒度的执行轨迹反馈。

实验

在数学推理基准上,自动发现的策略在相同成本下准确率更高,或在相同准确率下成本更低,明显优于强手工基线。策略还能迁移到未见的基准和不同规模的模型。完整发现过程仅花费 39.9 美元、约 160 分钟。

资源

代码与数据计划开源于 https://github.com/zhengkid/AutoTTS


评论

论文声称

  • AutoTTS 将 test‑time scaling(TTS)从手工启发式改造为可自动搜索的“环境”。
  • 通过宽度‑深度搜索、beta 参数化以及细粒度轨迹反馈,实现控制器的高效探索。
  • 在数学推理基准上,自动发现的策…(摘要截断,未给出具体数值)。

证据

  • 摘要仅提供框架概述,未提供实验数据、对比基线或统计显著性分析。
  • 文中提到的 beta 参数化和轨迹反馈是实现细节,缺乏公开代码或可复现的实验结果。

推断

  • 借鉴强化学习中的自动策略搜索经验,若控制空间可压缩且反馈足够廉价,该框架在小至中等规模模型上具备潜在提升。
  • 由于仍需对大模型进行多次调用,搜索成本可能抵消性能增益,尤其在算力受限的部署场景。

关键假设与潜在失效条件

  1. 维度可控假设:假设控制空间维度受限且搜索可收敛。失效时(如任务规模增长导致组合爆炸),搜索可能陷入局部最优或根本无法收敛。
  2. 廉价反馈假设:假设轨迹反馈成本低且细粒度高。若实际系统仍需频繁调用大模型,计算开销将显著上升,违背初衷。
  3. beta 参数化适用性:假设 beta 分布能够平滑策略空间。若任务对离散决策或稀疏奖励敏感,参数化可能失效。

可验证方式

  • 在 MATH、GSM8K 等不同难度的数学基准上开展对照实验,记录搜索耗时、算力消耗与最终准确率。
  • 消融实验分离 beta 参数化与轨迹细粒度的贡献,评估其单独及组合效果。
  • 改变模型规模(1B、7B、70B)与推理时间预算,检验控制器在不同硬件约束下的鲁棒性与可扩展性。

技术分析

研究背景

Test-time scaling(TTS)通过在推理阶段分配额外计算资源来提升大语言模型性能,已成为近年来提升模型能力的重要技术路径。摘要明确指出,现有 TTS 策略多为手工设计的启发式方法,这限制了策略的系统性探索和性能上限。这一背景信息直接来源于摘要,为研究提供了明确的动机。

核心方法

AutoTTS 的核心创新在于将 TTS 策略设计从手工构建转变为可自动搜索的环境。具体而言,该方法通过三个关键步骤实现:首先是控制空间限制,将高维策略空间约束在可管理的维度内;其次是提供廉价且频繁的反馈机制,避免在策略搜索过程中重复调用大型语言模型,从而降低成本。

在具体实现上,AutoTTS 采用宽度-深度 TTS 架构,将控制器视为推理轨迹和探测信号的合成器。控制器具备分支、继续、探测、剪枝和停止五种基本操作能力。这种设计允许控制器在推理过程中动态决定如何分配计算资源。论文引入 beta 参数化技术以降低搜索难度,这一技术选择暗示了控制器输出可能采用概率分布形式。细粒度的执行轨迹反馈则帮助快速定位推理失败的原因。

实验与结果

摘要表明,在数学推理基准上的实验结果显示,自动发现的策略在相同成本下获得更高准确率,或在相同准确率下使用更低成本。这暗示发现的策略具有成本-性能帕累托优势。此外,策略展现出跨基准和跨模型规模的迁移能力,这是一项重要发现,因其表明策略学习可能捕获了某种通用的推理模式。值得注意的是,完整发现过程仅消耗 39.9 美元和约 160 分钟,显示出该方法的实用性。

理论基础

从方法描述推断,AutoTTS 的理论基础可能涉及强化学习或贝叶斯优化框架。Beta 参数化通常见于概率模型,暗示控制器可能输出动作的概率分布。搜索环境的设计遵循机器学习中超参数优化的范式,将策略参数映射到性能指标。这一推断基于方法描述中“自动搜索”的表述和 beta 参数化的使用。

关键假设与潜在失效条件

该研究隐含几个关键假设。其一是控制空间限制的充分性,即通过限制控制空间不会排除潜在最优策略。推断认为,如果真实最优策略超出了限制空间,则方法性能将受限。其二是反馈信号的可靠性,即执行轨迹反馈能够准确反映策略质量,若反馈存在噪声或延迟,搜索过程可能收敛到次优解。Beta 参数化假设控制器输出服从 beta 分布,这一假设可能不适用于所有类型的控制动作。

潜在失效条件包括:当推理任务需要非常长的推理链时,搜索空间可能仍然过大;当模型规模显著变化时,迁移性可能失效;以及在开放式生成任务上,数学推理的策略可能不适用。

应用前景

AutoTTS 的应用前景体现在多个层面。首先,它提供了一种自动化的 TTS 策略设计范式,降低了人工设计成本。其次,低廉的发现成本使其具备实际部署价值。再者,策略的迁移能力表明可能训练出通用型 TTS 控制器。最后,该方法为 LLM 的自我改进提供了新思路,即模型可以通过搜索更好的推理策略来自我提升。

相关工作对比

推断认为,现有 TTS 研究主要集中于手工设计策略,如多数投票、自我一致性等方法。AutoTTS 的创新点在于将策略设计自动化,这与神经架构搜索等 AutoML 技术的方法论相似,但应用于推理过程控制。该方法与近期关于 LLM 自我改进的研究相关,但侧重于推理阶段而非训练阶段。


学习要点

  • Agentic discovery 使 LLM 能够在推理时自主探索并提出改进,实现 test‑time scaling。
  • 通过在推理阶段迭代搜索与评估,模型能够在不重新训练的情况下实现能力的扩展。
  • 自我生成的候选方案结合内部奖励或外部评估指标进行筛选,实现闭环改进。
  • 采用可执行的符号或代码表示,使改进方案能够被自动验证和部署。
  • 循环的“生成‑评估‑更新”流程形成自我改进闭环,显著提升特定任务的表现。
  • 该方法在不同规模模型间具有迁移性,小模型发现的策略可推广至大模型。
  • 与传统离线训练相比,agentic discovery 在推理时快速适配新任务,提高资源利用效率。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章