MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Rei

ArXiv ID: 2602.07848v1
分类: cs.LG
作者: Shijie Wang, Pengfei Li, Yikun Fu, Kaifeng Liu, Fangyuan Li
PDF: https://arxiv.org/pdf/2602.07848v1.pdf
链接: http://arxiv.org/abs/2602.07848v1

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation

本文介绍了 MARTI-MARS$^2$，一种结合强化学习与多智能体树搜索的代码生成框架，旨在突破单一大语言模型（LLM）的性能瓶颈。

单智能体系统在复杂代码生成任务中面临性能天花板。现有的多智能体框架通常依赖基于提示词的交互或同质化参数训练，缺乏有效的错误纠正能力和策略多样性。

MARTI-MARS$^2$ 将多智能体协作探索过程构建为一个动态且可学习的环境，通过以下方式实现突破：

在多个规模的代码生成基准测试中，该框架表现优异。使用两个协作的 32B 模型，MARTI-MARS$^2$ 达到了 77.7% 的通过率，超越了 GPT-5.1 等强基线模型。

研究揭示了一条新的缩放定律：从单智能体过渡到同质多角色，最终演变为异质多智能体范式，能够逐步提高强化学习的性能上限、增强鲁棒的文本到代码（TTS）能力，并显著提升策略多样性。这表明，策略多样性是通过多智能体强化学习扩展智能的关键因素。

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。