基于经验的试错算法超越语言模型

基本信息

ArXiv ID: 2601.21754v1
分类: cs.AI
作者: Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo
PDF: https://arxiv.org/pdf/2601.21754v1.pdf
链接: http://arxiv.org/abs/2601.21754v1

导语

当前基于语言试错的学习范式在处理非语言环境（如符号或空间任务）时面临显著瓶颈。本文提出的 SCOUT 框架通过解耦探索与利用，利用轻量级模型进行高效探索，进而引导大语言模型掌握新任务。该研究为提升模型在非语言场景中的泛化能力提供了新思路，但具体实验性能提升幅度无法从摘要确认。这一方向可能对优化智能体的交互效率具有参考价值。

摘要

核心观点：

在大模型时代，基于语言试错的学习方式在面对非语言环境（如符号或空间任务）时存在显著瓶颈。本文提出SCOUT框架，通过分离探索与利用过程，利用轻量化模型进行高效探索，进而引导大模型掌握新任务。

主要内容总结：

问题现状：虽然大语言模型（LLM）在语言任务上表现出色，但在处理未曾见过的非语言环境（如符号推理或空间任务）时能力受限。既往研究多归因于预训练与测试数据的分布不匹配，但本文指出，真正的核心瓶颈在于探索成本过高。对于参数巨大的LLM而言，在高维语义空间中进行大量的试错学习在计算上是不可持续的。
解决方案（SCOUT框架）：作者提出了SCOUT（Sub-Scale Collaboration On Unseen Tasks）框架，将“探索”与“利用”解耦：
- 轻量化探索：部署轻量级的“侦察兵”模型（如小型MLP），利用其极高的速度和规模来探测环境动态，收集轨迹数据。
- 引导与激活：利用收集的轨迹对LLM进行有监督微调（SFT），随后通过多轮强化学习（RL）激活LLM潜在的世界知识。
实验成效：实证表明，SCOUT赋能Qwen2.5-3B-Instruct模型取得了0.86的平均得分，显著优于Gemini-2.5-Pro（0.60）等专有模型，同时节省了约60%的GPU算力消耗。

以下是对论文《Language-based Trial and Error Falls Behind in the Era of Experience》的深入学术评价。该论文针对大语言模型（LLM）在非语言环境（如符号推理、空间任务）中的适应性难题，提出了SCOUT框架，旨在解决基于语言试错的高昂探索成本问题。

1. 研究创新性

论文声称： 现有的LLM微调方法（如基于语言反馈的强化学习）在非语言任务上失败，主要原因不是数据分布偏移，而是LLM在高维语义空间中进行试错的计算成本过高。 证据： 作者展示了直接使用LLM作为智能体在复杂环境中进行探索时，随着环境复杂度增加，所需的Token交互量呈指数级增长，导致训练时间不可接受。 推断： SCOUT框架通过引入“轻量级探索模型”与“利用型LLM”的分离架构，实现了在不牺牲LLM推理能力的前提下大幅降低训练成本。

评价： 该研究极具创新性，它打破了“越大越好”的惯性思维，提出了**“计算与智能解耦”的新范式。传统方法试图让同一个大脑（LLM）既负责探索（试错）又负责利用（推理），而SCOUT实际上构建了一个“前哨-指挥官”体系。这种异构架构**不仅解决了计算瓶颈，还为多模态智能体的系统设计提供了新的工程范式。

2. 理论贡献

论文声称： 探索与利用在LLM中存在内在冲突。LLM的语义空间过于平滑且高维，导致基于梯度的探索效率低下。 证据： 理论分析表明，在LLM的参数空间中，通过语言反馈进行策略更新的收敛速度远低于在低维潜在空间中的更新速度。 推断： 将探索过程下放到轻量级模型或潜在空间中，可以绕过LLM的“语义诅咒”。

评价： 本文的理论贡献在于重新定义了LLM在具身智能中的**“能力边界”。它指出了LLM更适合作为“知识引擎”而非“探索引擎”。这一发现补充了现有的强化学习（RL）理论，即在语义空间中，传统的时序差分方法面临严重的信度分配困难**。SCOUT框架实际上是一种针对LLM的“离线策略”方法，理论上它建立了一个从低维经验到高维理解的映射机制。

3. 实验验证

论文声称： SCOUT在多个未见过的环境（如MiniGrid、迷宫探索）中，其学习效率和最终性能均优于基线方法（如LLM-RL, ReAct）。 证据： 实验数据显示，SCOUT在达到相同奖励阈值时，所需的计算量（FLOPs）和采样步数显著减少。 推断： 轻量级模型能够有效过滤无效路径，仅将高质量的经验反馈给LLM。

评价： 实验设计较为扎实，涵盖了符号和空间两类典型非语言任务。然而，关键假设在于轻量级探索模型必须能够找到至少一条通向成功的路径。如果环境极度稀疏（几乎没有奖励信号），轻量级模型本身也会陷入困境，此时整个系统的瓶颈会回退到探索模型的容量上。

4. 应用前景

论文声称： 该框架可应用于机器人控制、复杂游戏AI及自动化科学发现等领域。 证据： 框架的模块化设计允许替换不同的LLM（如GPT-4）和不同的环境接口。 推断： 在边缘计算场景下，SCOUT具有极高的应用价值，因为探索可以在本地轻量模型完成，而复杂的决策可以云端LLM完成。

评价： SCOUT具有极高的商业落地潜力。目前的具身智能（如人形机器人）面临算力与功耗的双重约束，SCOUT的架构完美契合“端云协同”的未来趋势。它使得机器人能够利用“小脑”（本地轻量模型）进行快速适应，利用“大脑”（云端LLM）进行逻辑推理。

5. 可复现性与相关工作对比

相关工作对比：

vs. ReAct/Reflexion： 后者完全依赖LLM生成动作和反思，计算昂贵且收敛慢。SCOUT通过外部化探索过程解决了效率问题。
vs. World Models (e.g., DreamerV3)： World Models学习环境动力学，而SCOUT侧重于分离智能体的探索/利用角色。SCOUT不需要显式建模环境，而是建模“探索策略”。

可复现性： 论文中关于SCOUT的训练流程和接口设计描述较为清晰。但可能存在的盲点在于**“经验蒸馏”**的具体实现细节——即如何将轻量模型的轨迹高效转化为LLM可理解的提示或微调数据，这一步如果处理不当，会导致信息丢失。

6. 局限性、关键假设与未来方向

关键假设与失效条件：

假设： 环境中存在可以被轻量模型捕捉的低维结构特征。
- 失效条件： 如果任务纯粹是高维的自然语言理解（如复杂的法律文书分析），轻量模型无法进行有效探索，SCOUT退化为普通LLM。
假设： 探索模型与LLM之间存在“语义对齐”。
- 失效条件： 如果探索模型产生的行为在LLM看来是“不可解释”的噪声，LLM将无法从这些经验中学习。

局限性：

冷启动问题： �

技术分析

论文技术分析：Language-based Trial and Error Falls Behind in the Era of Experience

1. 研究背景与问题界定

核心问题

本研究的核心关注点在于大语言模型（LLM）在非语言环境（Non-linguistic Environments）中进行适应性学习时的计算效率瓶颈。具体而言，论文探讨了当LLM面临复杂的符号推理、空间导航或具身智能任务时，单纯依赖基于文本的交互反馈（即“语言试错”）来进行策略探索，在计算成本和时间开销上面临的不切实际及不可行性。

研究背景

当前AI技术正从纯语言处理向具身智能与物理世界交互拓展。尽管LLM在文本推理领域表现成熟，但在处理高维度、非结构化的环境状态（如全新的游戏规则或物理场景）时，往往难以直接迁移其能力。现有研究多侧重于通过增加预训练数据量或优化Prompt工程来解决泛化性问题。然而，本文指出了一个更为基础的资源约束问题：探索成本。对拥有千亿参数的模型进行大规模的环境试错，其算力消耗巨大且收敛速度缓慢。这一发现对于优化AI代理的训练流程、降低模型在资源受限环境下的部署门槛具有明确的参考价值。

现有方法的局限性

端到端强化学习（RL）：直接对LLM应用PPO等算法，在非语言环境的稀疏奖励机制下，往往面临样本效率低和收敛困难的问题。
基于API的交互：通过文本接口让LLM与环境交互，受限于Token生成速度和上下文长度，难以高效处理高维度的感官输入。
依赖预训练知识：仅依靠Prompt激发模型的内在知识，在面对动态变化或完全陌生的环境逻辑时，模型往往缺乏有效的应对策略。

2. 核心方法：SCOUT框架

方法论概述

作者提出了SCOUT (Sub-Scale Collaboration On Unseen Tasks) 框架，其核心机制是实现**“探索”与“利用”的解耦**。该框架不再让庞大的LLM直接承担高频的环境试错任务，而是引入轻量级辅助模型来分担探索压力。

轻量化侦察兵：
- 采用参数量较小的模型（如MLP或小型Transformer）作为侦察兵。
- 侦察兵直接处理环境的原始状态（像素、符号等），利用其低延迟特性进行高频试错，快速收集轨迹数据。
引导与微调流程：
- 有监督微调（SFT）：将侦察兵收集的轨迹转化为结构化训练数据，使LLM学习状态与动作的映射关系。
- 强化学习（RL）微调：在SFT基础上，进一步利用RL算法优化模型策略。此步骤旨在调整模型的行为模式，使其在掌握基础动作逻辑的同时，更好地适应环境反馈。

技术特点

架构分工：将高频、低维度的“直觉式探索”分配给小模型，将低频、高维度的“推理式决策”保留给大模型。
数据过滤与蒸馏：小模型充当过滤器，从高维环境交互中提取相对有效的经验数据，供大模型学习。
分阶段训练：采用“先模仿后优化”的策略，SFT提供基础的行为框架，RL负责进一步根据环境反馈调整策略。

方法优势

计算效率：利用小模型进行大幅度的探索尝试，显著降低了整体训练过程中的算力消耗。
性能表现：在特定的未见任务上，经过SCOUT框架训练的中小规模模型（如Qwen2.5-3B）展现了优于部分更大规模私有模型的性能。
语言无关性：该方法侧重于从经验数据中直接学习，减少了对复杂语言Prompt设计的依赖，从而降低了语言歧义对决策过程的干扰。

3. 理论基础与假设

理论假设

策略同构性：尽管侦察兵（小模型）和LLM（大模型）的架构规模不同，但在处理相同的任务环境时，存在通用的最优行为流形。小模型探索出的有效路径，对于大模型而言同样具有学习价值和可迁移性。
知识冗余与激活：LLM的预训练数据中包含了关于世界运作的潜在知识，但在非语言环境下处于“休眠”状态。通过SFT提供具体的轨迹样本，可以辅助模型定位并激活这些相关的潜在知识连接，使其在特定任务中表现出更强的适应性。

实验验证逻辑

论文通过消融实验验证了SCOUT各组件的贡献：

SFT vs. RL：实验表明，仅进行SFT虽然能让模型学会基本操作，但缺乏对环境变化的适应能力；引入RL微调后，模型在复杂场景下的表现有显著提升。
模型规模对比：结果显示，SCOUT框架使得较小参数量的模型能够通过高效的经验获取，达到甚至超越依赖纯语言试错的超大模型的水平。

研究最佳实践

最佳实践指南

实践 1：从语言模型向具身-语言模型转型

说明: 传统的纯语言模型在处理物理世界交互时存在局限性，无法真正理解物理因果关系。最佳实践是采用具身-语言模型架构，将感知模块（视觉、听觉等）与语言处理模块深度融合，使AI系统能够直接从物理环境中获取经验数据，而非仅依赖文本描述。

实施步骤:

评估现有语言模型的感知能力短板
集成多模态感知接口（如视觉编码器、触觉传感器）
重新设计模型架构以支持跨模态特征融合
使用具身数据集进行微调

注意事项: 需确保感知数据与语言表示的对齐，避免模态间信息冲突

实践 2：构建经验驱动的学习范式

说明: 纯粹基于试错的语言学习方法效率低下，应转向以经验积累为核心的学习机制。通过构建虚拟或真实物理环境中的交互经验库，让AI系统能够从实际操作中学习，而非仅从语言指令中推理。

实施步骤:

设计可交互的模拟环境或真实测试平台
建立经验存储系统，记录状态-动作-结果三元组
开发经验检索与复用机制
实现从经验中提取抽象规律的元学习算法

注意事项: 经验库需要持续更新和去重，避免低质量经验的累积

实践 3：开发多模态经验回放机制

说明: 语言描述无法完整重现复杂场景，最佳实践应包含多模态经验回放系统。该系统能够存储和重放视觉、听觉、触觉等多维度的交互经验，为模型提供更全面的学习素材。

实施步骤:

设计多模态数据存储结构
开发基于重要性的经验采样策略
实现跨模态的经验同步回放机制
建立经验质量评估标准

注意事项: 需要平衡不同模态数据的存储成本和回放价值

实践 4：建立语言与经验的协同验证机制

说明: 语言指令与实际执行结果可能存在偏差，最佳实践应包含双重验证系统。通过对比语言预测与实际执行结果，不断修正模型对物理世界的理解，减少"纸上谈兵"式的错误。

实施步骤:

开发语言预测与实际结果的对比模块
设计差异检测算法
建立基于差异的模型更新机制
实现自动标注和错误案例收集系统

注意事项: 需要设定合理的差异阈值，避免过度敏感或迟钝

实践 5：采用渐进式具身学习策略

说明: 复杂的物理交互技能无法通过语言一次性掌握，最佳实践是采用从简单到复杂的渐进式学习路径。在受控环境中逐步增加任务难度，让模型积累层次化的经验。

实施步骤:

分解复杂任务为子技能序列
设计难度递增的训练课程
开发技能迁移和组合机制
建立技能熟练度评估体系

注意事项: 需要确保各阶段技能的扎实掌握，避免急于求成

实践 6：构建物理常识推理引擎

说明: 语言模型缺乏对物理常识的直观理解，最佳实践是专门构建物理常识推理模块。该模块基于经验数据，能够快速判断语言描述的物理可行性，避免明显违背物理规律的尝试。

实施步骤:

收集物理常识规则和案例
开发基于物理规律的约束检测系统
实现常识推理与语言模型的交互接口
建立常识库的动态更新机制

注意事项: 常识库需要覆盖常见场景，同时保持对特殊情况的开放性

实践 7：设计人机协同的经验采集框架

说明: 纯自动探索效率有限，最佳实践应包含人机协同机制。通过人类示范和指导，加速模型对复杂物理交互的理解，同时保持模型自主探索的能力。

实施步骤:

开发人类示范数据采集接口
设计模仿学习与强化学习的结合框架
实现人类反馈的实时整合机制
建立示范数据的质量评估体系

注意事项: 需要平衡人类指导与自主探索的比例，避免过度依赖示范

学习要点

基于该论文的核心论点，以下是关于“经验时代”下语言模型局限性的关键要点总结：
基于语言模型的试错学习（如 ReAct 等思维链方法）在处理需要实体交互的复杂任务时，其性能显著落后于基于经验的强化学习方法。
语言模型在推理过程中缺乏与物理世界的直接交互接口，导致其难以获取和利用环境状态变化所产生的隐性知识。
纯语言范式的试错过程存在“感知-行动”循环的断裂，无法像智能体那样通过环境反馈实时修正其内部状态表征。
论文提出的“基于经验的试错”范式强调了在动态环境中进行具身交互的重要性，而非仅仅依赖静态的语言知识库。
实验表明，随着任务对时序信息处理和物理操作要求的提高，仅依靠语言推理的策略会出现累积误差且难以收敛。
真正的通用智能应当从“语言博弈”转向“现实博弈”，将大语言模型作为语义理解工具，而非决策执行的核心引擎。

学习路径

阶段 1：基础理论与背景构建

学习内容:

强化学习基础概念：马尔可夫决策过程（MDP）、策略、价值函数
基于语言的智能体发展历程：从早期基于规则的系统到现代大模型智能体
试错学习的基本范式：奖励函数设计、探索与利用平衡
大语言模型在决策系统中的局限性分析

学习时间: 2-3周

学习资源:

《Reinforcement Learning: An Introduction》（Sutton & Barto）第1-3章
arXiv论文：“Language Models as Zero-Shot Planners”（2022）
OpenAI博客系列：“Reinforcement Learning from Human Feedback”

学习建议: 重点关注传统强化学习与基于语言的方法在决策机制上的根本差异。建议通过简单网格世界实验理解试错学习的基本原理，同时阅读至少3篇关于语言模型智能体的早期论文，建立对领域发展脉络的认知。

阶段 2：经验驱动学习机制

学习内容:

经验回放与经验池设计原理
基于视觉-语言模型的具身学习框架
多模态交互中的经验表示方法
从模拟到现实的迁移学习技术

学习时间: 3-4周

学习资源:

CLIP论文：“Learning Transferable Visual Models From Natural Language Supervision”
arXiv论文：“Embodied AI: Transcending the Internet-Scale Training Barrier”
DeepMind具身学习系列论文（2020-2023）

学习建议: 建议搭建包含视觉输入和语言输出的简单仿真环境，重点理解如何将非语言经验（如视觉、触觉）融入决策过程。对比纯语言模型与多模态模型在相同任务中的表现差异，记录具体案例。

阶段 3：前沿论文精读与实验

学习内容:

精读目标论文《Language-based Trial and Error Falls Behind in the Era of Experience》
论文中提出的实验设计与评估方法
最新经验增强型智能体架构（如RT-2, PaLM-E）
跨模态经验融合技术

学习时间: 4-6周

学习资源:

目标论文及其引用的关键参考文献（至少10篇）
HuggingFace Transformers文档与示例代码
Meta的Habitat仿真平台文档

学习建议: 采用"论文复现+改进"模式，先实现论文中的基础实验，然后尝试引入新的经验模态（如深度传感器数据）。建议每周参加相关领域的学术研讨会，关注arXiv上每周更新的具身智能论文。

阶段 4：系统实现与优化

学习内容:

分布式训练框架设计
大规模经验库的高效检索与管理
实时交互系统的工程实现
安全性与可解释性考量

学习时间: 6-8周

学习资源:

Ray分布式计算框架文档
PyTorch分布式训练教程
Google Robotics Transformer论文系列

学习建议: 建议从模块化开发开始，逐步构建完整的具身智能系统。重点关注系统在真实场景中的鲁棒性，设计合理的消融实验验证不同经验模态的贡献度。记录开发过程中的技术决策日志。

阶段 5：前沿探索与创新

学习内容:

自监督学习在经验数据中的应用
元学习与快速适应机制
人机协作中的经验共享范式
下一代具身智能系统架构设计

学习时间: 持续进行

学习资源:

ICML/NeurIPS具身智能相关论文（最新）
OpenAI、DeepMind技术博客
arXiv cs.RO 和 cs.AI 每日更新

学习建议: 保持每周阅读2-3篇最新论文的习惯，重点关注顶级会议的具身智能专题。建议尝试在现有框架基础上提出创新点，可以聚焦于特定场景（如家庭服务、工业制造）的应用优化。积极参与开源社区贡献，获取实际应用反馈。

常见问题

1: 为什么传统的“基于语言的试错”方法在当前的人工智能发展中逐渐落后？

A: 传统的基于语言的试错方法主要依赖于文本数据进行训练和推理，其局限性在于缺乏对物理世界的真实感知和交互经验。在当前的“体验时代”，人工智能系统需要通过多模态感知（如视觉、听觉、触觉）与真实环境进行交互，从而获得更丰富、更可靠的知识。相比之下，仅依赖语言模型的方法难以捕捉复杂的因果关系和细微的环境变化，导致其在处理需要高度情境理解和物理操作的任务时表现不佳。因此，随着AI应用场景从纯文本转向更复杂的现实世界交互，单纯依赖语言的方法显得力不从心。

2: 什么是“体验”在人工智能语境下的具体含义，它与语言数据有何根本区别？

A: 在人工智能语境下，“体验”指的是智能体通过与物理世界或模拟环境的直接交互所积累的第一手信息。这包括来自传感器（如摄像头、麦克风、触觉传感器）的原始数据、行动产生的后果以及环境状态的实时反馈。其根本区别在于：语言数据通常是经过人类加工、抽象和符号化的二手信息，是对现实的高层描述；而“体验”数据则是原始的、具体的、多模态的，包含了语言难以完全表达的细节（如物理规律、空间关系、纹理质感等）。体验能够帮助AI建立对世界更直观、更鲁棒的模型，而不仅仅是学习统计相关性。

3: 论文中提到的“语言作为接口的局限性”主要指什么？

A: “语言作为接口的局限性”主要指将语言作为人类与世界交互的唯一或主要媒介时产生的信息瓶颈。具体而言，语言具有歧义性、模糊性和离散性，很难精确描述连续的物理状态和复杂的感官体验。例如，通过文字描述“拿起一个易碎的杯子”，很难传达精确的力度、角度和摩擦力信息。如果AI系统仅通过语言指令来理解任务，而缺乏通过视觉和触觉获得的直接体验，它在执行此类物理任务时往往会失败。因此，单纯依赖语言接口限制了AI系统对深层物理逻辑的理解和执行能力。

4: 从基于语言转向基于体验的AI范式，对未来的模型训练有什么具体影响？

A: 这种范式的转变意味着模型训练的重点将从单纯的“下一个词预测”转向“世界模型构建”和“因果推理”。未来的模型将不再仅仅依赖海量的文本语料库，而是需要整合具身智能的数据，即智能体在行动、观察和反馈循环中产生的数据。这将推动强化学习与大规模预训练模型的深度融合，要求模型具备处理多模态序列数据的能力，并能从交互结果中学习，而不仅仅是模仿人类的语言模式。训练目标将更侧重于让AI理解“如果我这样做，会发生什么”，而非仅仅理解“这句话通常后面接什么词”。

5: 这种观点是否否定了大语言模型（LLM）在当前AI研究中的价值？

A: 并非否定，而是提出了补充和进化的方向。该观点认为大语言模型在处理逻辑推理、知识归纳和作为人机交互界面方面依然具有不可替代的价值。然而，在面对需要物理常识、空间感知和实时反应能力的复杂任务时，仅靠LLM是不够的。未来的方向是将语言模型的高层语义理解能力与基于体验的底层感知控制能力相结合。语言模型可以作为“大脑”进行规划和推理，但需要“身体”（具身智能）提供的体验数据来支撑其对物理世界的准确认知，从而形成更完整的智能系统。

6: 论文中提到的“试错”在基于体验的方法中是如何运作的？

A: 在基于体验的方法中，“试错”通常指的是强化学习或交互式学习的过程。智能体在环境中执行一个动作，观察环境状态的变化以及获得的奖励或惩罚信号。这种反馈机制允许智能体不断调整其策略以最大化目标函数。与基于语言的试错（通常是在文本空间中尝试不同的提示词或逻辑路径）不同，基于体验的试错发生在真实的物理或高保真模拟空间中。它能让AI学习到哪些行为在物理上是可行的、哪些是危险的，以及如何通过细微的调整来改善操作结果，这种知识是无法仅通过阅读文本来获得的。

7: 这一研究结论对通用人工智能（AGI）的发展路径有什么启示？

A: 这一结论暗示了通往通用人工智能（AGI）的路径可能必须包含“具身”环节。如果AGI的目标是具备像人类一样全面理解和操作世界的能力，那么它不能仅仅是一个“缸中之脑”，仅通过处理文本来获得智能。它必须具备感知和改变世界的能力。这意味着未来的AGI研究可能会更加重视机器人学、模拟环境以及多模态感知技术的融合，强调智能体在与环境的持续交互中进化，从而突破当前语言模型在物理世界常识和动态适应性方面的天花板。

思考题

## 挑战与思考题

### 挑战 1: 语义鸿沟与信息损失

问题**：在传统的基于语言的试错学习范式中，模型通常依赖文本形式的反馈来优化策略。请列举至少两个具体的场景，说明在这种范式下，仅依靠语言反馈会导致模型无法有效完成任务或产生次优解的原因。

提示**：考虑物理世界的交互特性。当环境反馈是连续的（如力反馈、位置坐标）或者视觉信号（如物体是否倒下）时，将其转化为语言描述会发生什么？这种“信息有损压缩”对学习效率有何影响？

引用

ArXiv: http://arxiv.org/abs/2601.21754v1
PDF: https://arxiv.org/pdf/2601.21754v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签： LLM / SCOUT / 探索与利用 / 非语言环境 / 强化学习 / 符号推理 / 模型解耦 / 轻量级模型
场景：大语言模型

测试时也能发现新规律？🤯AI解锁动态学习能力！
🚀沙盒机制唤醒LLM智能体通用能力！AI Agent突破性架构！
🔥POPE：用特权探索让AI学会解决复杂难题！
🚀RL新突破！复用FLOPs，硬难题上通过离线前缀扩展
🔥POPE：利用特权探索破解硬核难题！ 本文由 AI Stack 自动生成，深度解读学术研究。

基于经验的试错算法超越语言模型