构建智能体文明：多智能体协作系统开源

基本信息

作者: urav
评分: 14
评论数: 6
链接: https://github.com/nocodemf/werld
HN 讨论: https://news.ycombinator.com/item?id=47195530

导语

随着大模型能力的演进，单一智能体已难以满足复杂任务的需求，构建多智能体协作系统成为探索 AI 边界的新方向。本文记录了作者从零搭建一个“智能体文明”的实践过程，详细阐述了如何让多个 AI 角色在模拟环境中自主交互与协作。通过阅读本文，你将了解多智能体架构的设计思路，以及如何通过代码实现这一系统的核心逻辑。

评价：Show HN: Decided to play god this morning, so I built an agent civilisation

中心观点 文章通过构建一个基于 LLM 的多智能体模拟环境，展示了智能体在无需显式编程的情况下涌现出的复杂社会行为与层级结构，验证了“社会即计算”的实验哲学，但同时也暴露了当前 AI 智能体在长期记忆维持与目标一致性上的局限性。

支撑理由与边界条件

涌现行为的验证（事实陈述 / 作者观点）
- 理由：文章的核心亮点在于利用简单的通信协议和角色设定，观察到了智能体之间自发形成的交易、传播信息甚至欺骗等行为。这支持了“复杂系统源于简单规则交互”的复杂性科学理论。
- 边界条件/反例：这种“涌现”往往局限于短窗口内的对话生成。如果将时间轴拉长，智能体极易陷入逻辑循环或产生毫无意义的幻觉，缺乏真实人类文明中的历史累积性（即文化进化）。
技术实现的轻量级与可复现性（事实陈述）
- 理由：作者使用 Python 和主流 LLM API（如 GPT-4）搭建了框架，而非依赖庞大的私有集群。这种低门槛的实现方式降低了社区进行多智能体研究的准入门槛，具有技术传播价值。
- 边界条件/反例：这种轻量级实现牺牲了工程上的鲁棒性。在高并发或需要复杂工具调用（如联网、执行代码）的场景下，该架构易因 Token 溢出或 API 限流而出现不稳定，难以支撑工业级应用。
“上帝视角”的交互设计（你的推断）
- 理由：文章标题中的“Play God”暗示了一种自上而下的控制论视角。通过允许用户干预环境参数，该系统不仅是一个模拟器，更是一个沙盒，用于测试社会动力学假设，具有社会学实验的潜力。
- 边界条件/反例：这种视角存在伦理风险。将人类复杂的社会关系简化为纯文本的 Prompt 交互，容易忽略现实世界中情感、非语言沟通和物理约束的重要性。

多维度深入评价

1. 内容深度与论证严谨性 文章在技术实现上具有典型的“极客”深度，代码逻辑清晰，Prompt 工程运用娴熟。然而，在论证严谨性上，它更多属于定性的“现象展示”而非定量的科学分析。作者展示了智能体“做了什么”，但缺乏对“为什么这样做”的深层机制分析。例如，智能体的行为是源于真正的推理，还是仅仅是对训练数据中人类对话模式的概率模仿？文章未对此进行区分。

2. 实用价值与行业影响 该文章对行业的价值在于范式转移的启发。它推动了行业从“设计单一超级智能体”向“构建智能体生态系统”转变。在实际工作中，这种思路可以应用于：

游戏 NPC：创建具有自主社交网络的游戏世界。
市场模拟：模拟用户群体对新产品的反应，而非传统的问卷调查。
压力测试：利用“红队”智能体社区来攻击防御系统。

3. 创新性与争议点

创新性：将“文明”作为一级公民进行编程，而非单个个体。它提出了一种新的软件架构思路：通过社会分工来解决单一模型能力不足的问题。
争议点：主要争议在于智能体自主性的幻觉。目前的 LLM 本质上是状态less 的，所谓的“文明”仅仅是上下文窗口内的临时泡影。一旦对话重置，所有的社会关系、财富积累和仇恨都会瞬间消失，这与真实文明的连续性背道而驰。

实际应用建议

引入外部记忆库：不要仅依赖 LLM 的 Context Window。必须引入向量数据库或图数据库，将智能体的社会关系和历史经验持久化，才能实现真正的“文明演化”。
设置“物理”约束：在模拟中加入资源限制（如 Token 预算、行动冷却时间），防止智能体无限生成无效内容，迫使其产生经济行为。
人机协同干预：将此工具作为“头脑风暴”辅助，而非决策系统。人类应扮演“立法者”角色，随时修正智能体社会偏离的伦理轨道。

可验证的检查方式

图灵测试的变体（观察窗口）：
- 方法：将智能体社会的对话日志与人类在社交媒体（如 Reddit/Twitter）上的讨论记录混合，交给第三方评判员进行分类。
- 指标：若判断准确率低于 60%（即随机水平），则说明该模拟具有高度的社会拟真度。
涌现行为计数器（指标）：
- 方法：定义一组非显式编程的行为列表（如：撒谎、结盟、贸易、宗教崇拜）。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 示例1：基础智能体行为模拟
import random

class Agent:
    def __init__(self, name):
        self.name = name
        self.energy = 100  # 初始能量值
        self.alive = True
    
    def work(self):
        """智能体工作消耗能量"""
        if self.alive:
            energy_cost = random.randint(10, 30)
            self.energy -= energy_cost
            print(f"{self.name}工作了，消耗{energy_cost}点能量")
            if self.energy <= 0:
                self.die()
    
    def rest(self):
        """智能体休息恢复能量"""
        if self.alive:
            recovery = random.randint(10, 20)
            self.energy = min(100, self.energy + recovery)
            print(f"{self.name}休息了，恢复{recovery}点能量")
    
    def die(self):
        """智能体死亡"""
        self.alive = False
        print(f"{self.name}因能量耗尽而死亡")

# 模拟智能体生命周期
agent = Agent("Agent-001")
for _ in range(5):
    action = random.choice(["work", "rest"])
    getattr(agent, action)()
    if not agent.alive:
        break

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# 示例2：智能体社会互动系统
class Society:
    def __init__(self):
        self.agents = []
        self.resources = 1000  # 社会总资源
    
    def add_agent(self, agent):
        """添加智能体到社会"""
        self.agents.append(agent)
        print(f"新智能体{agent.name}加入社会")
    
    def distribute_resources(self):
        """资源分配机制"""
        if not self.agents:
            return
        
        share = self.resources // len(self.agents)
        for agent in self.agents:
            agent.energy = min(100, agent.energy + share)
        print(f"资源分配完成，每个智能体获得{share}点能量")
    
    def simulate_day(self):
        """模拟一天的社会活动"""
        print("\n---新的一天---")
        for agent in self.agents:
            if agent.alive:
                agent.work()
                if random.random() > 0.7:  # 30%概率休息
                    agent.rest()
        self.distribute_resources()
        self.remove_dead_agents()
    
    def remove_dead_agents(self):
        """移除死亡智能体"""
        self.agents = [a for a in self.agents if a.alive]

# 创建社会并运行模拟
society = Society()
for i in range(3):
    society.add_agent(Agent(f"Agent-{i+1:03d}"))

for _ in range(3):
    society.simulate_day()

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
# 示例3：智能体进化系统
class EvolvableAgent(Agent):
    def __init__(self, name, generation=1):
        super().__init__(name)
        self.generation = generation
        self.skills = {"work": random.random(), "rest": random.random()}
    
    def work(self):
        """带技能加成的工作"""
        if self.alive:
            efficiency = 1 + self.skills["work"] * 0.5
            energy_cost = int(20 / efficiency)
            self.energy -= energy_cost
            print(f"{self.name}高效工作(技能{self.skills['work']:.2f})，消耗{energy_cost}点能量")
            if self.energy <= 0:
                self.die()
    
    def reproduce(self):
        """繁殖产生下一代"""
        if self.energy > 60:
            self.energy -= 40
            child_name = f"{self.name}-child"
            child = EvolvableAgent(child_name, self.generation + 1)
            # 遗传并变异技能
            for skill in self.skills:
                mutation = random.uniform(-0.1, 0.1)
                child.skills[skill] = max(0.1, min(1.0, self.skills[skill] + mutation))
            print(f"{self.name}繁殖了{child_name}，技能发生变异")
            return child
        return None

# 模拟进化过程
parent = EvolvableAgent("Alpha")
for day in range(5):
    print(f"\n第{day+1}天")
    parent.work()
    if random.random() > 0.5:  # 50%概率尝试繁殖
        child = parent.reproduce()
        if child:
            parent = child  # 子代成为新的观察对象

案例研究

1：斯坦福大学“Generative Agents”小镇实验

背景: 斯坦福大学和谷歌的研究人员进行了一项关于生成式智能体的实验，旨在探索大语言模型（LLM）在模拟复杂人类行为和社会互动方面的潜力。他们构建了一个受《模拟人生》启发的交互式沙盒环境。

问题: 传统的人工智能通常只具备单一任务的执行能力，缺乏长期记忆、连贯的个性以及在社交环境中进行复杂推理和规划的能力。研究人员面临的核心挑战是如何让25个AI智能体在互不干扰的情况下，基于各自的角色设定进行自主交互，并涌现出类似人类社会的集体行为。

解决方案: 研究团队构建了一个名为“Smallville”的虚拟小镇。每个智能体都基于ChatGPT-4，并被赋予了独特的身份、性格、记忆库和初始计划。核心技术架构包括：

记忆流系统：智能体能够记录、检索和反思过去的经历，形成长期记忆。
反思机制：智能体能够从记忆中提取高层次的概念，以指导未来的行为。
多智能体交互：智能体之间通过自然语言进行对话和交流，甚至可以发起会议、传播信息或建立人际关系。

效果: 实验展示了惊人的涌现行为。例如，当研究人员告知一个智能体“策划一场情人节派对”时，这一信息在智能体社会中迅速传播。智能体们不仅互相邀请，还会在派对当天自发地装饰场地、赴约并在之后互相回忆派对细节。这证明了基于LLM的智能体文明具备模拟人类社会动态的潜力，为社交计算和角色扮演应用提供了新的范式。

2：CognosysAI - 自主智能体工作流

背景: CognosysAI 是一个基于Web的自主智能体平台，旨在通过自动化复杂的工作流程来提高个人和企业的生产力。它利用最新的GPT-4模型来驱动智能体的决策过程。

问题: 用户在面对复杂任务时，往往需要跨越多个网站、工具和步骤才能完成。例如，规划一次旅行需要查找机票、预订酒店、对比景点价格等，这非常耗时且繁琐。传统的自动化工具（如宏或简单的脚本）缺乏灵活性，无法处理非结构化的信息。

解决方案: CognosysAI 构建了一个“上帝模式”的控制台，允许用户设定一个高层级的目标。系统会自动将该目标分解为子任务，并生成一个待办事项列表。智能体会自动浏览网页、提取信息、验证数据，并根据执行结果动态调整下一步的行动计划。用户可以通过观察“思维链”实时监控智能体的推理过程。

效果: 该平台能够独立完成从市场调研、内容生成到旅行规划等一系列复杂任务。例如，在“策划为期5天的东京之旅”的任务中，智能体不仅列出了详细的行程安排，还提供了每个景点的链接、预估费用和当地的天气预报。这种“智能体文明”式的协作模式极大地减少了用户的操作步骤，将复杂任务的完成时间从数小时缩短至几分钟。

3：AutoGen - 多智能体对话框架

背景: 微软研究院开发的 AutoGen 是一个开源框架，允许开发者构建能够通过对话相互协作以解决任务的LLM应用。

问题: 在开发复杂的应用程序时，单一的AI模型往往难以胜任所有角色。例如，编写代码需要同时考虑架构设计、具体编码、代码审查和执行测试。如果仅靠一个模型，容易出现逻辑错误或代码漏洞，且缺乏自我纠错的机制。

解决方案: AutoGen 允许开发者创建多个具有特定角色的智能体，并通过“可对话智能体”的概念让它们相互交互。在一个典型的代码生成场景中，可以设置一个“用户代理”提出需求，一个“助手代理”编写代码，以及一个“评论家代理”负责审查代码并提出修改意见。这些智能体之间会进行多轮对话，直到任务完成。

效果: 这种多智能体协作显著提高了代码生成的准确性和可靠性。在实际测试中，AutoGen 生成的代码质量优于单一模型的直接输出，因为它模拟了人类开发团队中的协作与审查流程。它不仅能够解决复杂的数学和编程问题，还能在执行过程中自动修正错误，展示了智能体分工合作在实际生产环境中的巨大价值。

最佳实践

最佳实践指南

实践 1：构建模块化的智能体架构

说明: 在构建智能体文明时，应采用面向对象的设计思想，将每个智能体设计为独立的模块。每个智能体应具备独立的感知、决策和执行能力，同时拥有清晰的接口定义。这种架构便于后续扩展和维护，也更容易实现智能体之间的协作。

实施步骤:

定义基础智能体类，包含通用属性和方法
为不同类型的智能体创建子类，实现特定行为
设计标准化的通信协议和接口
实现智能体注册和发现机制

注意事项:

避免智能体之间过度耦合
保持每个智能体的职责单一
考虑使用依赖注入来管理智能体之间的关系

实践 2：实现基于规则的交互协议

说明: 智能体文明需要一套清晰的交互规则来维持秩序。这些规则应定义智能体如何通信、如何共享资源、如何解决冲突等。良好的交互协议能够防止系统陷入混乱，同时保持足够的灵活性以支持涌现行为。

实施步骤:

定义智能体之间的消息格式和通信协议
建立资源分配和共享机制
设计冲突解决策略
实现行为约束和惩罚机制

注意事项:

规则不应过于严格，以免抑制创新行为
考虑实现规则的可演化性
监控规则执行情况，及时调整

实践 3：设计动态的环境反馈系统

说明: 环境是智能体文明的重要组成部分。通过设计动态变化的环境，可以刺激智能体的适应和进化。环境应能够根据智能体的行为做出响应，形成智能体与环境之间的协同进化。

实施步骤:

定义环境参数和状态变量
实现环境对智能体行为的响应机制
设计资源生成和消耗规则
创建环境事件系统（如自然灾害、季节变化）

注意事项:

平衡环境的稳定性和变化性
避免环境变化过于剧烈导致系统崩溃
提供环境监控和调试工具

实践 4：建立全面的观测和调试工具

说明: 复杂的智能体系统难以通过简单观察来理解。建立强大的观测和调试工具对于理解系统行为、发现问题和优化性能至关重要。这些工具应提供多层次的系统视图。

实施步骤:

实现智能体行为日志记录
创建可视化界面展示系统状态
开发时间轴回放功能
构建性能分析工具

注意事项:

日志记录可能影响性能，需要合理配置
可视化界面应支持多维度数据展示
考虑实现数据导出功能以便离线分析

实践 5：实现可配置的演化机制

说明: 为了让智能体文明能够持续发展，需要引入演化机制。通过变异、选择和遗传等操作，智能体种群可以不断适应环境并优化自身行为。这些机制应当是可配置的，以便于实验不同的演化策略。

实施步骤:

定义智能体的基因型表示
实现变异和交叉操作
设计适应度评估函数
构建选择和繁殖机制

注意事项:

控制变异率以保持种群稳定性
避免过早收敛
考虑实现多种演化策略供选择

实践 6：采用分层的时间管理机制

说明: 智能体文明中的不同过程可能需要不同的时间尺度。采用分层的时间管理机制可以有效地处理这种复杂性，允许某些过程以更快的速度运行，而另一些过程则以较慢的速度运行。

实施步骤:

识别系统中不同时间尺度的过程
为每个时间尺度定义独立的时钟
实现时间同步机制
设计时间加速和减速功能

注意事项:

确保不同时间尺度之间的正确交互
避免时间管理逻辑过于复杂
考虑实现暂停和恢复功能

实践 7：建立沙盒和安全限制

说明: 在模拟复杂系统时，建立适当的安全边界至关重要。这不仅防止系统失控，还能保护计算资源。沙盒环境应限制智能体的行为范围，同时提供足够的自由度以支持有意义的行为。

实施步骤:

定义智能体行为的边界条件
实现资源使用限制
创建异常检测和处理机制
设计紧急停止功能

注意事项:

安全限制不应过度限制系统行为
定期审查安全策略的有效性
准备好应对突发情况的预案

学习要点

构建基于大语言模型的智能体文明，核心在于通过角色设定和记忆机制赋予智能体独特的个性和行为模式。
智能体之间的社交互动和信息传播会涌现出复杂的社会动态，无需硬编码所有行为规则。
为智能体赋予长期记忆和反思能力，使其能够根据过往经历调整行为，从而实现更连贯的叙事发展。
生成式智能体的行为具有不可预测性，这种涌现特性使得模拟结果既令人惊讶又充满创造力。
该项目展示了如何利用现有的 AI 模型（如 GPT-4）快速构建复杂的社会模拟系统，而非从零开始训练模型。
智能体之间的对话和关系网络是推动模拟进程的关键，而非单一智能体的独立行动。
这种模拟方法为研究社会行为、传播理论和人机交互提供了新的实验平台和思路。

常见问题

1: 这个项目具体是做什么的？

A: 这是一个基于智能体模拟的项目。作者构建了一个虚拟环境，其中包含多个具有自主性的 AI 智能体。这些智能体不仅仅是简单的脚本，它们拥有各自的目标、性格和记忆系统。它们在虚拟社会中互动、交流、合作甚至产生冲突，模拟了一个微型人类文明的演化过程。项目旨在展示当多个 AI 智能体在同一个封闭系统中自由交互时，会涌现出怎样复杂的社会行为。

2: 项目使用了哪些技术栈来实现？

A: 根据 Hacker News 上的讨论和此类项目的常见实现方式，核心技术通常包括：

大语言模型 (LLM)：作为智能体的“大脑”，负责处理信息、生成对话和做出决策（通常使用 GPT-4 或 Claude 等模型）。
记忆流系统：让智能体能够记住过去的互动、事件和其他智能体的关系，这是实现长期连贯行为的关键。
环境框架：使用 Python 编写的模拟环境（可能基于 LangChain、AutoGen 或自研框架），用于管理智能体的状态、位置和交互规则。
向量数据库：用于存储和检索智能体的长期记忆。

3: 智能体之间是如何进行交互和交流的？

A: 交互是基于自然语言处理的。系统会设定一个“心跳”或时间步机制。在每个时间步，智能体会观察周围环境（包括其他智能体的位置和动作），结合自己的记忆和性格特征，通过 LLM 决定下一步的行动。如果一个智能体决定与另一个智能体交谈，它会生成一段对话内容，接收方则会根据这段对话、双方的关系以及自己的性格生成回应。这种循环往复形成了复杂的社交网络。

4: 这个项目与斯坦福的“Generative Agents”小镇实验有什么区别？

A: 虽然核心概念相似（都是基于 LLM 的多智能体模拟），但作者提到“扮演上帝”暗示了可能更侧重于观察者视角或宏观演化。可能的区别包括：

规模与复杂度：可能尝试了更大规模的智能体数量或更复杂的社会规则。
可视化：可能提供了独特的可视化界面来观察文明的演化。
演化机制：可能引入了繁衍、死亡或资源竞争等更接近“文明”概念的机制，而不仅仅是社交模拟。具体的区别需要查看项目的源代码或文档以确定。

5: 运行这个项目的成本高吗？如何部署？

A: 成本主要取决于调用大语言模型 API 的费用。如果使用 GPT-4 等高端模型，随着智能体数量和交互轮次的增加，Token 消耗会非常迅速，成本可能很高。关于部署，通常该项目是一个开源的 Python 应用。用户需要克隆代码库，配置 OpenAI API Key（或其他兼容的 API Key），安装必要的依赖库（如 LangChain, ChromaDB 等），然后在本地运行。部分项目可能支持 Docker 容器化部署以简化环境配置。

6: 智能体的行为是完全随机的，还是具有一定的逻辑连贯性？

A: 智能体的行为具有很强的逻辑连贯性，这主要归功于记忆检索机制和提示词工程。智能体不仅仅是根据当前输入生成回复，还会从数据库中检索相关的历史记忆（例如：“我上次和这个人聊过什么，我的印象如何”）。这些上下文信息会被输入给 LLM，从而确保智能体的反应符合其既定的人设和历史经历，产生令人惊讶的拟人化行为。

7: 我可以在这个项目中添加自己的智能体吗？

A: 是的，大多数此类模拟器都允许用户自定义智能体。通常在配置文件中，你可以定义智能体的姓名、年龄、性格特征、初始记忆、职业以及核心目标。一旦配置完成并重启模拟，你创建的智能体就会进入虚拟世界，与其他 AI 智能体进行互动。这是测试 LLM 角色扮演能力的有趣方式。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 设计一个基于有限状态机（FSM）的“智能体”类。该智能体需要在一个 10x10 的网格世界中生存，具有三种基本状态：寻找食物、进食和休息。请实现状态转换逻辑，例如当能量低于 30 时触发“寻找食物”状态，当找到食物且能量未满时进入“进食”状态。

提示**: 定义一个包含当前状态、位置和能量值的字典或对象作为智能体的核心数据结构。使用 `if-elif` 逻辑或状态转移表来根据能量值和周围环境（是否有食物）更新状态。

引用

原文链接: https://github.com/nocodemf/werld
HN 讨论: https://news.ycombinator.com/item?id=47195530

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：开源生态 / 大模型
标签：智能体 / 多智能体协作 / Agent / 模拟仿真 / 开源项目 / LLM / AI应用 / 社会模拟
场景：大语言模型 / AI/ML项目

AGENTS.md 架构在智能体评估中超越 Skills 技能
LangBot：生产级多平台智能体机器人开发平台
Agent Skills：大模型智能体的技能评估框架
Agent Skills：AI 智能体技能框架
Agent Skills：AI 智能体的技能框架 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

AI Stack

构建智能体文明：多智能体协作系统开源