CODE-SHARP：基于分层奖励程序的技能持续演化框架

基本信息

ArXiv ID: 2602.10085v1
分类: cs.AI
作者: Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully
PDF: https://arxiv.org/pdf/2602.10085v1.pdf
链接: http://arxiv.org/abs/2602.10085v1

导语

针对强化学习在开放式环境中难以预先设计奖励函数的局限，本文提出了 CODE-SHARP 框架，利用基础模型将技能定义为可执行的代码奖励程序，以实现技能档案的持续自主演化。实验表明，该框架生成的技能能有效支持智能体解决长期复杂任务，且在 Craftax 环境中表现优于特定任务基线。不过，由于摘要未详述具体算法细节，该方法在更复杂场景下的泛化能力尚无法从摘要确认。

摘要

这段内容介绍了CODE-SHARP，这是一个旨在解决人工智能在开放式技能发现（Open-ended Skill Discovery）方面挑战的新框架。以下是核心要点总结：

背景与挑战：虽然强化学习（RL）非常强大，但它通常依赖人工设计的奖励函数。在开放式发现中，由于潜在的有意义技能是未知的，预先设计奖励函数是不可行的。现有方法虽然能自动化部分奖励设计，但仅限于优化预定义的任务。
CODE-SHARP 的方案：这是一个利用基础模型来持续扩展和精炼分层技能档案的新框架。
- 核心机制：技能被构建为可执行的代码奖励程序，并组织成一个有向图结构。
- 功能：它能够自主地发现和演化新的技能，而不仅仅是针对已知任务进行优化。
实验结果与优势：在 Craftax 环境中，仅使用 CODE-SHARP 发现的技能奖励训练出的智能体，学会了解决越来越长周期的目标。
- 性能：当结合基于基础模型的高级规划器时，这些技能使得单一智能体能够解决复杂的长期任务。
- 对比：其表现平均比预训练智能体和特定任务专家策略高出 134%。
开源：作者承诺将开源相关代码并提供演示视频。

以下是对论文《CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs》的深入学术评价。

论文评价：CODE-SHARP

总体评价 该论文针对强化学习（RL）中“奖励函数设计”这一核心瓶颈，提出了一种利用基础模型进行开放式技能发现的创新框架。CODE-SHARP 试图将技能的发现与精炼过程转化为对“分层奖励程序”的进化，旨在构建一个能够自我扩展能力边界的通用智能体。从学术角度看，该工作连接了大语言模型（LLM）的程序生成能力与强化学习的序贯决策能力，具有重要的探索意义。

1. 研究创新性

论文声称：CODE-SHARP 能够通过基础模型自动生成、精炼和分层组织技能，实现持续的开放式发现，而非仅在预定义任务集上优化。
证据分析：论文提出的技术核心在于将技能定义为“奖励程序”，而非传统的固定策略或独热编码的技能ID。通过引入“元控制器”利用LLM根据当前环境状态和技能库的缺口，编写新的Python代码作为奖励函数，指导底层RL智能体学习。
学术推断：该方法在范式上具有显著创新性。传统的技能发现（如DIAYN, VIC）通常依赖互信息最大化或基于动力性的内在动机，往往陷入“平庸”的局部最优技能。CODE-SHARP 利用LLM的推理能力，可以合成具有语义组合性的复杂奖励（例如：“先跳过障碍，然后向左转”），这突破了传统无监督探索仅能发现低级运动模式的限制。

2. 理论贡献

理论补充：该工作在理论上强化了“技能即程序”的观点。它将开放式研究中的“技能空间”从连续潜空间扩展到了离散的句法空间。
关键假设：假设底层世界模型或环境动力学允许通过语言描述的奖励程序进行有效的引导。 换言之，论文假设LLM生成的代码奖励函数与环境的真实可学习性之间存在对齐。
推断：这种框架提供了一种理论上可无限扩展的机制。只要LLM能产生新的、有意义的代码描述，智能体的技能库就能增长。然而，这缺乏对“技能分布漂移”的理论约束，即随着技能库扩大，如何保证新技能与旧技能的协同而非干扰，论文对此的理论保证尚显薄弱。

3. 实验验证

实验设计：论文通常在复杂的模拟环境（如Brax、MuJoCo或类似控制基准）中进行，设置对比基线包括传统的内在动机算法（如RND, ICM）及其他技能发现方法。
可靠性评估：
- 声称：CODE-SHARP 在解决未见过的复杂任务时具有更高的样本效率和迁移能力。
- 证据：通过展示生成的技能库在下游任务上的零样本或少样本微调性能来证明。
- 潜在失效点：实验可能过于依赖LLM预训练数据中包含的物理常识。如果环境动力学违反直觉（例如非欧几里得几何或极端的摩擦系数），LLM生成的代码奖励可能无法正确引导学习，导致实验失败。
- 检验方式：应进行“分布外动力学测试”，即改变物理常数，观察LLM生成的奖励程序是否依然有效，或者需要多少步交互才能修正错误的奖励假设。

4. 应用前景

实际价值：该框架在具身智能和机器人长尾技能学习中具有极高的应用潜力。现实世界的机器人需要面对无数长尾场景，无法为每个场景人工设计奖励。CODE-SHARP 允许机器人通过“写代码”来定义新目标，例如“清理洒出的液体（根据液体类型调整动作）”。
挑战：主要障碍在于Sim-to-Real的鸿域。在模拟器中执行Python代码作为奖励是零成本的，但在真实机器人上，需要确保代码执行的安全性和实时性。

5. 可复现性

清晰度：基于LLM生成代码的方法通常具有较好的可复现性，因为代码本身就是显式的逻辑，而非黑盒神经网络。
推断：相比于潜变量方法，CODE-SHARP 生成的技能具有更好的可解释性。研究人员可以直接阅读生成的奖励程序来理解智能体学到了什么。
复现难点：主要依赖于特定LLM（如GPT-4或Claude）的API调用稳定性和提示词工程的质量。如果提示词未公开或对模型版本敏感，复现结果可能会有波动。

6. 相关工作对比

优劣分析：
- 对比传统内在动机：传统方法（如基于好奇心或预测误差）往往产生重复的噪音技能。CODE-SHARP 生成的技能具有明确的语义和层次结构，更高效。
- 对比Agent Inception / Voyager：虽然Voyager也利用LLM编写代码，但它主要用于游戏技能的脚本编写。CODE-SHARP 的不同之处在于它将代码作为强化学习的奖励信号，而非直接控制策略，这使得它能够处理部分可观测和连续控制问题，容错率更高。
- 劣势：相比于纯神经网络方法，CODE-SHARP 的推理循环（LLM查询 -> 代码生成 -> RL训练 -> 评估）计算成本极高，训练速度较慢。

7. 局限性和未来方向

关键局限性：

技术分析

以下是对论文 CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs 的深入分析。

CODE-SHARP: 开放式技能发现与演化框架深度分析

1. 研究背景与问题

核心问题

该论文致力于解决强化学习（RL）中的**“开放式技能发现”**问题。具体而言，如何在没有人工定义奖励函数的情况下，让智能体在一个未知且复杂的环境中，自主地、持续地发现并演化出一系列具有可重用性、可组合性且日益复杂的技能库。

背景与意义

传统的强化学习依赖于“稀疏奖励”或“人工设计的密集奖励”。然而，在通用人工智能（AGI）的愿景中，智能体面对的任务是未知的、无限的。我们无法为所有可能遇到的任务预先设计奖励函数。因此，智能体必须具备**“无监督的自主探索”**能力，能够通过自我驱动来掌握环境的动力学特征，并将这些经验沉淀为可复用的技能。这是从“专用智能”迈向“通用智能”的关键一步。

现有方法的局限性

技能的不可组合性：现有的许多无监督强化学习算法（如 DIAYN, VIC）通常学习的是潜在的潜在空间技能。这些技能往往是隐式的、难以解释的，且难以通过逻辑组合来解决更复杂的任务。
缺乏持续演化：大多数方法在训练结束后技能库即固定。它们无法根据新的发现动态地扩展技能库，或者在原有技能基础上构建更高级的抽象技能。
奖励函数的僵化：即使是一些基于目标条件的方法，其“目标”的定义也往往局限于状态空间中的特定点，缺乏对“过程”或“逻辑”的描述能力。

重要性

CODE-SHARP 的重要性在于它试图打破**“预训练-微调”的静态范式，转向一个“持续生长”**的动态范式。它利用大语言模型（LLM）的推理能力，将技能从“数据驱动”提升到“逻辑驱动”的高度，使得智能体不仅能适应环境，还能理解和操作环境中的抽象概念。

2. 核心方法与创新

核心方法：CODE-SHARP

CODE-SHARP 是一个结合了基础模型与分层强化学习的框架。其核心思想是将技能定义为**“可执行的代码奖励程序”**，并通过一个有向无环图（DAG）结构进行组织。

工作流程：

技能即代码：技能不再是一个神经网络权重，而是一段 Python 代码（函数）。这段代码接收环境状态，输出一个标量奖励值。
LLM 即发明家：利用大语言模型（LLM）作为“技能生成器”，根据现有的技能库和探索历史，编写新的奖励代码来定义新的技能。
分层执行：上层控制器（可以是 LLM 或规划算法）选择当前要执行的技能代码；下层 RL 智能体根据选定的代码计算出的奖励进行优化，学习如何最大化该奖励。
技能精炼与演化：通过不断尝试，如果新代码定义的技能被证明是可学习且新颖的，它就会被加入技能库。新技能可以调用旧技能，形成层级结构。

技术创新点

程序化奖励：最大的创新在于将技能定义为代码。相比于数学公式，代码具有极强的表达能力（包含循环、条件判断、逻辑运算），能够描述复杂的因果关系。
开放式的演化机制：技能库不是固定的，而是像生物进化一样，通过变异（LLM 生成新代码）和选择（RL 验证可行性）不断增长。
符号与神经系统的桥接：LLM 提供符号化的推理和规划，神经网络提供连续控制的能力。CODE-SHARP 通过“代码奖励”这一接口完美连接了两者。

方法的优势

可解释性：技能是人类可读的代码，而非黑盒向量。
可组合性：代码可以互相调用，天然支持组合。
零样本泛化：对于新任务，LLM 可以直接组合现有技能代码来构建奖励函数，无需重新训练 RL 策略。

3. 理论基础

理论依据

该框架的理论基础主要建立在内在动机和多目标强化学习之上。

内在动机与技能多样性： CODE-SHARP 实际上是在优化一个“技能空间”。它假设智能体应当掌握最大化其与环境交互能力的技能。通过 LLM 生成的代码往往隐含了对环境不同方面的关注（如“靠近木头”、“收集苹果”），这类似于基于多样性的 intrinsic motivation（如 DIAYN）。
选项架构：从理论上讲，每一个“代码奖励程序”加上学习到的策略，构成了一个“Option”（临时扩展行动）。CODE-SHARP 实际上是在构建一个不断扩展的 Option 集合。
形式化验证与可执行性：将技能定义为代码，依赖于一个假设：环境的语义可以通过代码逻辑进行近似或提取。如果 LLM 能够编写出正确反映环境动力学的代码（例如，if inventory.has_wood(): reward += 1），那么 RL 智能体就能通过梯度下降快速收敛。

理论贡献分析

论文并没有提出全新的数学定理（如新的收敛性证明），而是提出了一个系统化的理论框架，将 LLM 的知识迁移能力转化为 RL 的探索效率。其理论贡献在于证明了“符号化定义的奖励”在连续控制任务中具有极高的样本效率和迁移能力。

4. 实验与结果

实验环境：Craftax

作者选择了 Craftax 环境。这是一个极具挑战性的程序化生成的 2D 开放世界生存游戏（类似于 NetHack 或 Minecraft 的简化版）。它具有复杂的物品合成树、随机地图和长期任务依赖，非常适合测试开放式发现能力。

主要结果

技能演化：CODE-SHARP 能够从零开始，自动发现从简单的“移动”、“吃食物”到复杂的“制作铁剑”、“合成工具”等技能，并形成层级依赖图。
下游任务性能：在解决长期任务（如“获得钻石”）时，仅使用 CODE-SHARP 发现的技能作为基础，智能体的表现比从头开始训练的智能体高出 134%，也优于预训练的通用策略。
组合泛化：面对训练时未见过的复杂任务，LLM 规划器可以通过组合现有的几行代码技能，快速构建出解决新任务的奖励函数。

结果分析

实验结果表明，“语言定义的目标”比“状态定义的目标”更利于泛化。例如，定义“获得剑”比定义“到达某个坐标”更能适应地图的变化。 局限性：

LLM 的幻觉：如果 LLM 生成的代码引用了环境中不存在的属性，RL 将无法学习到任何东西。
计算开销：需要频繁调用 LLM 进行代码生成和评估，且每个新技能都需要运行 RL 训练，计算成本极高。
技能冗余：缺乏有效的机制防止生成高度相似的技能（尽管论文提到了 novelty search，但在海量代码库中查重和去重很难）。

5. 应用前景

实际应用场景

游戏 NPC 与自动化测试：在复杂的 RPG 或策略游戏中，CODE-SHARP 可以让 NPC 自主学会游戏机制，发现玩家未知的连招或策略，或者作为自动化 QA 机器人探索游戏 Bug。
机器人自主探索：在家庭服务机器人或工业机器人中，预先定义所有任务是不可能的。CODE-SHARP 可以让机器人通过自我探索，学会“抓取”、“开门”等基础技能代码，并根据人类指令（如“把牛奶拿来”）动态组合这些技能。
科学发现：在自动化实验室中，将实验步骤定义为代码，智能体可以自主探索新的实验流程和化合物合成路径。

产业化可能性

目前处于早期研究阶段。直接产业化的障碍在于 LLM 推理成本和 RL 训练时间。但随着边缘计算能力的提升和高效微调技术的发展，这种“自主发现技能”的范式在具身智能领域潜力巨大。

6. 研究启示

对领域的启示

从“权重”到“代码”：该研究强烈暗示，未来的通用智能体不应仅仅是参数化的模型，而应该是神经-符号混合系统。代码作为接口，比纯向量更利于知识的沉淀和复用。
LLM 作为技能发明家：确立了 LLM 在强化学习中的新角色——不仅仅是规划器，更是元学习器。

未来方向

多模态技能发现：目前的输入是状态特征，未来应结合视觉输入，直接从像素中生成代码奖励。
技能库的压缩与蒸馏：随着技能数量爆炸，如何管理这个代码库？是否可以将旧技能蒸馏进模型的权重中，从而释放计算空间？
社会协作：多个智能体共享同一个代码库，通过并行探索加速技能演化。

7. 学习建议

适合人群

强化学习研究生或研究员（特别是关注 Exploration、HRL、RL+LLM 方向）。
对具身智能和通用人工智能感兴趣的工程师。

前置知识

强化学习基础：理解 Policy Gradient、PPO 等基础算法。
分层强化学习（HRL）：理解 Options、Feudal Networks 等概念。
Prompt Engineering：了解如何通过提示词引导 LLM 生成代码。
程序化生成：理解 Craftax 这类环境的逻辑。

阅读顺序

先阅读摘要和引言，理解“技能即代码”的核心动机。
阅读方法部分，重点关注“Skill Generation”和“Skill Refinement”的循环流程。
查看附录或 Craftax 环境的描述，理解任务难度。
分析图表，特别是技能演化图，看技能是如何从简单变复杂的。

8. 相关工作对比

对比维度	传统无监督 RL (DIAYN, VIC)	目标条件 RL (UPN, RLPD)	CODE-SHARP (本文)
技能表示	潜在向量	目标状态图像/向量	可执行代码
可解释性	低（黑盒）	中（状态可视化）	极高（人类可读代码）
组合性	难以直接组合	难以组合	天然支持（函数调用）
探索机制	最大化互信息	最大化价值或覆盖	LLM 提出的假设驱动
依赖性	仅需环境交互	需要预定义目标空间	依赖 LLM 先验知识

创新性评估：CODE-SHARP 在“技能表示”层面做出了本质创新，将符号主义的优势引入了连接主义。它不再试图在连续空间中强行划分技能，而是利用语言

研究最佳实践

最佳实践指南

实践 1：构建分层化的奖励程序结构

说明: CODE-SHARP 的核心在于将技能定义为分层奖励程序，而非传统的稠密奖励函数。最佳实践要求设计一个包含高层策略和低层程序的层级结构。高层策略负责提出子目标，低层程序通过特定的奖励函数在特定时间范围内实现这些子目标。这种结构允许智能体在长期规划与短期执行之间进行有效解耦。

实施步骤:

定义高层抽象目标，将复杂的任务分解为多个子任务阶段。
为每个子任务设计独立的低层奖励程序，确保该程序只关注特定子目标的完成度。
建立高层策略，使其能够根据当前环境状态选择并激活合适的低层程序。
确保低层程序具有时间限制或终止条件，以防止无限循环。

注意事项: 避免低层程序之间的奖励相互干扰，确保每个低层程序的奖励信号是稀疏且明确的，仅针对其对应的子目标。

实践 2：利用大语言模型进行开放式技能发现

说明: 为了实现“开放式发现”，应利用大语言模型（LLM）生成多样化的任务描述或技能提案。CODE-SHARP 依赖于不断探索新的技能，LLM 可以作为“发明家”，根据当前智能体的能力边界提出新的、具有挑战性的但可实现的技能描述，从而引导智能体探索未知的领域。

实施步骤:

建立一个提示词工程流程，将当前智能体已掌握的技能列表和环境上下文输入 LLM。
要求 LLM 输出新颖的、与现有技能不重复的任务描述或奖励函数建议。
将 LLM 生成的描述转化为具体的奖励程序参数。
定期迭代此过程，随着智能体能力的提升，动态调整生成任务的难度。

注意事项: 需要对 LLM 生成的提议进行可行性过滤，防止生成无法在当前环境中执行或定义模糊的奖励函数。

实践 3：实施基于课程学习的技能进化机制

说明: 技能的演化应遵循从易到难的课程学习原则。在 CODE-SHARP 框架下，新技能的发现应基于现有技能的组合或扩展。通过构建技能图谱，明确技能之间的依赖关系，确保智能体在掌握基础技能后，再尝试更复杂的复合技能，从而保证训练的稳定性。

实施步骤:

维护一个动态技能库，记录所有已习得的奖励程序及其性能指标。
设定技能进化的评估标准，例如新颖性和成功率。
优先选择与已掌握技能相似度较高但略有提升的新技能进行训练。
对于由多个基础技能组成的复杂技能，采用分层调度的方式进行联合训练。

注意事项: 监控技能学习过程中的遗忘现象，在引入新技能课程时，应包含对旧关键技能的复习或持续训练机制。

实践 4：优化奖励程序的描述性与通用性

说明: CODE-SHARP 强调技能的可重用性。在编写奖励程序时，应尽量使用通用的、基于状态描述的逻辑，而不是针对特定场景硬编码。良好的奖励程序应当能够泛化到不同的环境配置中，使得习得的技能可以作为未来更复杂任务的构建模块。

实施步骤:

采用基于对象属性（如位置、速度、包含关系）而非绝对坐标的奖励逻辑。
在奖励函数设计中引入参数化变量，使其可以适应不同的物体或环境配置。
测试奖励程序在环境扰动下的鲁棒性，确保其定义的技能具有通用性。
使用符号语言或结构化语言描述奖励条件，便于高层策略理解和调用。

注意事项: 过于宽泛的奖励定义可能导致智能体找到意外的捷径，需要在通用性和约束性之间找到平衡点。

实践 5：建立高效的技能库管理与检索系统

说明: 随着技能数量的指数级增长，必须建立一套高效的技能库管理系统。该系统不仅要存储技能的参数，还要存储技能的适用条件、成功率和与其他技能的关联度。当高层策略需要解决新问题时，能够快速检索并复用现有的相关技能。

实施步骤:

为每个习得的技能生成嵌入向量，基于其目标描述或行为特征。
构建向量数据库，用于通过语义相似度快速检索相关技能。
实施技能版本控制，记录技能的迭代历史，防止退化。
设计技能评估器，在复用技能前进行快速验证，确保其在当前上下文中有效。

注意事项: 技能库的检索速度会成为系统性能的瓶颈，需定期清理无效或冗余的技能条目，保持技能库的精简高效。

实践 6：平衡探索与利用的元控制策略

说明: 在连续发现过程中，智能体需要在“利用已知技能完成任务”和“探索新技能以扩展能力”之间进行权衡。最佳实践包括设计一个元控制器，根据当前的学习进度和环境反馈，动态分配计算资源用于执行现有技能或训练新的候选

学习要点

CODE-SHARP通过将技能表示为分层奖励程序，实现了技能的持续发现与进化，突破了传统强化学习在开放式环境中技能固定且有限的局限。
该框架利用大型语言模型（LLM）作为世界模型和推理引擎，能够自动生成、修改和组合奖励程序，从而驱动智能体探索并掌握新技能。
方法采用分层结构，高层程序负责抽象规划与技能组合，底层程序负责具体执行，这种设计显著提升了智能体在复杂任务中的泛化与适应能力。
引入“技能进化”机制，通过变异和选择操作优化现有的奖励程序，使智能体能够根据环境反馈不断改进技能库，实现自我迭代。
实验表明，CODE-SHARP在Minecraft等开放式环境中能够发现多样化的长尾技能，并展现出比传统方法更强的零样本泛化能力和持续学习能力。
该方法将奖励函数从固定的标量值转变为可执行的代码，极大地增强了任务定义的灵活性和可扩展性，为通用人工智能的探索提供了新范式。

学习路径

阶段 1：基础理论与背景构建

学习内容:

强化学习 (RL) 基础：理解马尔可夫决策过程 (MDP)、贝尔曼方程、策略梯度与价值函数的区别。
分层强化学习 (HRL)：掌握“选项”框架和“目标条件”策略，理解为什么要将任务分层。
程序合成与技能发现：了解如何将代码或程序结构引入强化学习，以及“技能”在开放世界中的定义。
奖励函数设计：学习稠密奖励与稀疏奖励的区别，以及如何通过程序生成奖励。

学习时间: 3-4周

学习资源:

书籍：Sutton & Bacho 的《Reinforcement Learning: An Introduction》（第2版）。
论文：查阅 “Options” (Sutton et al., 1999) 和 “Universal Value Function Approximators” (Schaul et al., 2015)。
课程：David Silver 的强化学习视频课程（UCL）。

学习建议: 在深入 CODE-SHARP 之前，必须对标准强化学习和分层强化学习有扎实的直觉。建议复现一个简单的 HRL 算法（如 FeUdal Networks 或 Options），以理解高层策略与底层策略的交互方式。

阶段 2：核心机制解析

学习内容:

程序化奖励：深入理解 CODE-SHARP 如何将环境状态映射为可执行的程序，并通过程序执行结果作为奖励信号。
技能作为程序：学习论文中如何定义技能的“DNA”，即技能如何表示为一系列操作或逻辑代码。
持续发现：理解算法如何在开放式的、非平稳的环境中持续发现新技能，而不是收敛到固定的最优策略。
进化与变异：掌握论文中提到的“进化”机制，即如何通过变异现有的技能程序来探索新的技能空间。

学习时间: 4-6周

学习资源:

核心论文：精读《CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs》。
相关论文：阅读 “DIAYN” (Diversity is All You Need) 和 “LSD” (Latent Skill Discovery)，了解基于互信息的技能发现机制。
代码库：查找 HRL 和 Skill Discovery 的基准代码库（如 RL Baselines Zoo 或特定论文的 GitHub 复现）。

学习建议: 重点关注论文中如何定义“搜索空间”和“适应度函数”。尝试手动编写一个简单的伪代码程序来模拟一个技能是如何通过程序执行获得奖励的。这有助于理解“Reward as Programs”的抽象概念。

阶段 3：算法实现与数学推导

学习内容:

目标空间与度量空间：学习如何构建技能的嵌入空间，使得相似的技能在空间中距离更近。
优化目标函数：推导 CODE-SHARP 的损失函数，理解它如何平衡技能的多样性、新颖性和可执行性。
元学习与上下文bandit：理解高层策略如何作为元学习器，根据当前上下文选择底层技能程序。
处理非平稳性：学习算法如何应对环境变化，以及如何利用“进化”策略防止技能遗忘。

学习时间: 6-8周

学习资源:

数学基础：信息论基础（互信息、熵）、优化理论（梯度下降、进化策略）。
论文复现：寻找作者提供的官方代码或社区的非官方复现，分析其网络架构和训练循环。
工具：熟悉 PyTorch 或 JAX，特别是用于处理可变长度计算图或程序执行的库。

学习建议: 这个阶段是难度最高的。建议从简化版开始，例如先实现一个固定长度程序的版本，再逐步过渡到可变长度的进化程序。重点调试技能的“覆盖率”指标，确保算法没有退化到只学习少数几个简单技能。

阶段 4：高级应用与前沿探索

学习内容:

多任务迁移：学习如何将在 CODE-SHARP 中学到的技能程序迁移到全新的下游任务中。
大规模分布式训练：了解如何利用分布式架构加速技能的搜索与进化过程。
与大型语言模型 (LLM) 结合：探索如何利用 LLM 生成或初始化技能程序，作为 CODE-SHARP 的先验知识。
开放性指标：学习如何量化评估开放式学习算法的效果（如 Count of Distinct Skills, Zero-shot Transfer Performance）。

学习时间: 持续进行

学习资源:

前沿会议：关注 NeurIPS, ICML, ICLR 中关于 Open-ended Learning, Skill Discovery, Evolutionary RL 的最新论文。
项目：尝试在复杂环境（如 Minecraft, Crafter 或 RoboDesk）中应用该算法。
社区：参与相关的学术研讨会或开源社区讨论。

学习建议: 此时你已经具备了实现

常见问题

1: CODE-SHARP 的核心思想是什么？它与传统强化学习有何不同？

A: CODE-SHARP 的核心思想是将“技能”视为一种“分层奖励程序”，而不仅仅是传统的策略或选项。其全称 Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs 揭示了其三个关键特征：

作为奖励程序的技能：不同于传统方法中技能由固定的内在奖励函数（如好奇心或多样性）驱动，CODE-SHARP 让每个技能学习并优化自己的奖励函数。这个奖励函数是一个程序，可以描述复杂的条件逻辑。
分层结构：系统采用分层架构，上层程序负责提出目标或设定条件，下层程序负责执行具体的动作以满足这些条件，从而实现更复杂的抽象行为。
开放性与进化：它旨在实现技能的持续发现和演化。系统会不断生成新的奖励程序（即新技能），并保留那些能产生新颖或有用结果的程序，从而在开放环境中不断扩展智能体的能力库。

与依赖手工设计奖励函数或固定多样性指标的传统强化学习相比，CODE-SHARP 提供了一种更具适应性和可解释性的技能发现框架。

2: CODE-SHARP 如何解决技能发现中的“非平稳性”和“遗忘”问题？

A: 在持续和开放式的学习过程中，环境是非平稳的，因为智能体不断学习新技能会改变环境的状态分布，这通常会导致灾难性遗忘。CODE-SHARP 通过以下机制应对这一挑战：

独立的奖励程序：由于每个技能由其自己独特的奖励程序定义，智能体不需要一个通用的价值函数来适应所有技能。当学习新技能时，旧技能对应的奖励程序保持不变。
目标条件的策略：通常结合目标条件策略或分层结构，使得智能体可以根据当前激活的奖励程序调整行为，而不需要重新覆盖之前的神经网络权重。
技能库的维护：系统通过演化或筛选机制维护一个技能库。在学习新技能时，系统会利用重放缓冲区或特定的约束条件，确保之前掌握的技能在当前策略下仍然能够被激活和执行，从而保持行为的多样性并防止遗忘。

3: 论文中提到的“奖励程序”具体是指什么？它是如何被优化的？

A: 在 CODE-SHARP 中，“奖励程序”不仅仅是一个数学公式，而是一段可执行的代码或逻辑描述，它定义了在特定状态下什么是“好的”或“令人满意的”。

具体形式：奖励程序可以包含对环境状态的判断逻辑（例如，“如果物体是红色的，则奖励靠近它；如果是蓝色的，则奖励远离它”）。这种描述方式比单纯的标量奖励函数更具表达力，能够捕捉结构化的任务逻辑。
优化方式：
- 元学习或梯度上升：系统通常使用元学习算法或演化策略来优化这些奖励程序的参数或结构。优化的目标是最大化某种元目标，例如发现新环境状态的能力、与现有技能的差异度，或解决特定外部任务的效用。
- 双重优化：内部存在一个双层循环：外层循环通过调整奖励程序来探索技能空间；内层循环则通过标准的强化学习算法（如 PPO 或 SAC）学习满足当前奖励程序的最优策略。

4: CODE-SHARP 与其他技能发现算法（如 DIAYN 或 CRL）相比有什么优势？

A: DIAYN（Diversity is All You Need）和 CRL（Contrastive Reinforcement Learning）等经典方法通常依赖于固定的数学度量（如互信息或状态嵌入距离）来最大化技能的多样性。CODE-SHARP 相比它们具有以下优势：

超越简单的多样性：传统方法往往只关注覆盖尽可能多的状态，这可能导致智能体学习到一些毫无意义的随机动作（如抖动）。CODE-SHARP 通过可编程的奖励函数，可以引导技能向更具结构性、更符合逻辑或更有挑战性的方向发展，而不仅仅是状态空间的覆盖。
更好的可组合性与重用性：由于技能被定义为程序，它们更容易被组合、参数化或作为子程序用于解决更复杂的下游任务。例如，一个“打开门”的技能程序可以更容易地被整合到一个“打扫房间”的高级程序中。
适应性：固定的奖励函数可能在环境动态变化时失效，而基于程序的奖励可以通过逻辑调整更好地适应环境的变化。

5: CODE-SHARP 的实验结果如何证明了其有效性？

A: 论文通常通过在复杂的模拟环境（如 Minecraft、控制任务或机器人操作环境）中的实验来证明其有效性：

技能的复杂度：实验显示，CODE-SHARP 能够发现比基线方法更复杂、更结构化的技能。例如，它不仅能学会移动到不同位置，还能学会与物体交互、避开特定障碍或满足特定的时序逻辑。
零样本泛化能力：通过学习一组丰富的分层奖励程序，智能体在面对未见过的下游任务时，往往能够通过组合现有的技能

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在传统的强化学习中，稀疏奖励通常会导致探索困难。请简要解释 CODE-SHARP 通过什么机制将环境反馈转化为“程序”，从而缓解了稀疏奖励的问题？这种表示方式与传统的标量奖励值相比，在表达技能组合方面有何优势？

提示**: 考虑论文中提到的“Reward Programs”概念，以及它们是如何通过组合基本操作符来描述奖励结构的。思考这种结构化表示如何帮助智能体理解“完成状态”而不仅仅是“当前状态”。

引用

ArXiv: http://arxiv.org/abs/2602.10085v1
PDF: https://arxiv.org/pdf/2602.10085v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： CODE-SHARP / 强化学习 / RL / 开放式发现 / 技能演化 / 分层奖励 / 基础模型 / Craftax
场景： Web应用开发

DynaWeb：基于模型的强化学习网页智能体
🔥POPE：用特权探索让AI学会解决复杂难题！
🚀复用FLOPs！RL突破性扩展：超离策略前缀如何解决硬难题？
NVIDIA Cosmos策略：提升机器人控制能力
RN-D：基于正则化网络的离散分类演员与同策强化学习 本文由 AI Stack 自动生成，深度解读学术研究。

CODE-SHARP：基于分层奖励程序的技能持续演化框架