MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation
基本信息
- ArXiv ID: 2602.07848v1
- 分类: cs.LG
- 作者: Shijie Wang, Pengfei Li, Yikun Fu, Kaifeng Liu, Fangyuan Li
- PDF: https://arxiv.org/pdf/2602.07848v1.pdf
- 链接: http://arxiv.org/abs/2602.07848v1
摘要
本文介绍了 MARTI-MARS$^2$,一种结合强化学习与多智能体树搜索的代码生成框架,旨在突破单一大语言模型(LLM)的性能瓶颈。
核心问题与动机
单智能体系统在复杂代码生成任务中面临性能天花板。现有的多智能体框架通常依赖基于提示词的交互或同质化参数训练,缺乏有效的错误纠正能力和策略多样性。
方法创新
MARTI-MARS$^2$ 将多智能体协作探索过程构建为一个动态且可学习的环境,通过以下方式实现突破:
- 策略学习与树搜索融合:允许智能体在环境中迭代探索和修正。
- 从同质到异质的演进:训练过程从“参数共享的同质多角色”进化为“异质多智能体”,打破了单智能体的能力限制。
- 高效推理策略:提出了 MARTI-MARS$^2$-T+ 策略,在测试时充分释放多智能体协作的潜力。
实验结果与新发现
在多个规模的代码生成基准测试中,该框架表现优异。使用两个协作的 32B 模型,MARTI-MARS$^2$ 达到了 77.7% 的通过率,超越了 GPT-5.1 等强基线模型。
新缩放定律
研究揭示了一条新的缩放定律:从单智能体过渡到同质多角色,最终演变为异质多智能体范式,能够逐步提高强化学习的性能上限、增强鲁棒的文本到代码(TTS)能力,并显著提升策略多样性。这表明,策略多样性是通过多智能体强化学习扩展智能的关键因素。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。