零基础学 Agent ：拆解一个 Agent 的「零件清单」——8 个模块逐一讲透第 2 期

基本信息

作者: AI淇橦学
链接: https://juejin.cn/post/7618055361979039759

描述

大家好，我是AI淇橦学。上一期我们搞清楚了Agent到底是什么：AI大脑 + 工具 + 自主规划，能真正帮你做事，而不是只告诉你怎么做。但光知道定义还不够。如果你想自己做一个Agent，

摘要

这是一份关于如何从零开始构建 Agent 的技术指南，内容详细拆解了构成一个智能体的 8 个核心模块。

以下是内容的核心总结：

1. 核心概念回顾

Agent（智能体）不仅仅是聊天机器人，它的核心公式是：AI 大模型（大脑）+ 工具（手脚）+ 自主规划（思维）。它的目标是真正自动化地解决问题，而不仅仅是生成文本。

2. Agent 的 8 大核心模块（“零件清单”）

文章将构建 Agent 的过程拆解为 8 个具体的技术组件：

用户指令
- 作用：系统的入口，接收用户需求。
- 关键：大模型擅长理解自然语言，因此无需复杂的编程接口，用户直接说话即可。
大模型
- 作用：Agent 的“大脑”，负责所有的推理、决策和生成。
- 关键：虽然模型本身是通用的，但通过后续的提示词工程和上下文管理，可以将其塑造成特定领域的专家。
提示词工程
- 作用：Agent 的“系统设定”或“灵魂”。
- 关键：通过精心设计的 Prompt，告诉 AI 它是谁（角色）、要做什么（任务）、遵守什么规则以及输出的格式。这决定了 Agent 的能力和性格。
上下文/知识库
- 作用：Agent 的“长期记忆”或“外部资料”。
- 关键：大模型本身训练数据有截止日期且可能有幻觉。通过挂载知识库（如 RAG 技术），可以让 AI 访问最新的私有数据，回答更准确。
记忆
- 作用：Agent 的“短期记忆”。
- 关键：AI 本身是无状态的。为了让对话连贯，必须将之前的聊天记录作为“记忆”回传给大模型，让它记得之前的交流内容。
工具
- 作用：Agent 的“手脚”。
- 关键：大模型只能生成文本。通过 Function Calling（函数调用），Agent 可以调用搜索引擎、代码解释器、API 等工具来实际操作世界。
规划
- 作用：Agent 的“

学习要点

根据您提供的内容主题（零基础学 Agent 的 8 个模块拆解），以下是总结出的关键要点：
大语言模型（LLM）是 Agent 的“大脑”核心，负责理解意图、逻辑推理与最终决策，是构建 Agent 的首要基础。
提示词工程是赋予 Agent“灵魂”的关键，通过精心设计的背景设定与思维链模板，能够显著规范模型的输出质量。
记忆模块通过短期记忆与长期记忆的配合，解决了大模型无状态的问题，赋予 Agent 持续对话与信息检索的能力。
规划与拆解能力是 Agent 区别于普通脚本的核心，它能将复杂任务自动分解为可执行的子步骤并反思纠错。
工具使用是 Agent 感知与物理世界交互的“手脚”，通过 Function Calling 或 API 调用扩展了模型的能力边界。
智能体工作流编排（如 ReAct 模式）定义了“思考-行动-观察”的循环机制，是连接各个模块实现自动化的逻辑骨架。

常见问题

1: 我完全没有编程基础，可以直接学习 Agent 开发吗？应该从哪里入手？

A: 是可以学习的，但需要明确学习路径。Agent 开发不仅仅是写代码，更重要的是理解如何通过大语言模型（LLM）来规划和执行任务。对于零基础学习者，建议按以下步骤入手：

理解概念：首先要明白 Agent 的核心是“感知”、“规划”和“行动”。你需要理解 LLM 是如何作为“大脑”来处理信息的。
熟悉工具：学习使用现有的低代码/无代码 Agent 平台（如 Coze、Dify 等），通过拖拽组件来直观感受 Agent 的运作流程。
学习基础提示词工程：这是与 Agent 沟通的基础，学会如何清晰地描述任务和设定角色。
逐步接触代码：在理解了逻辑后，再学习 Python 基础，因为目前主流的 Agent 框架（如 LangChain、AutoGPT）大多基于 Python。

2: 文章中提到的 Agent 的 8 个核心模块具体是指哪些？

A: 虽然不同的架构设计会有细微差别，但一个功能完善的 Agent 通常包含以下 8 个核心“零件”：

用户接口：负责接收用户输入并展示 Agent 的输出结果。
核心大脑：通常指大语言模型（LLM），负责推理、决策和生成内容。
记忆模块：包括短期记忆（上下文窗口）和长期记忆（向量数据库），用于存储历史对话和关键信息。
规划模块：负责将复杂的大目标拆解为可执行的小步骤。
工具使用：赋予 Agent 调用外部 API（如搜索、计算器、天气查询）的能力。
行动执行：具体的执行单元，负责调用工具并获取返回结果。
反思与自我修正：Agent 检查自己的执行结果，判断是否需要重试或调整策略。
知识库：特定的领域知识，用于增强 LLM 在专业领域的回答准确性（通常通过 RAG 技术实现）。

3: Agent 中的“规划模块”和“行动执行”有什么区别？

A: 这两者的区别类似于“项目经理”和“程序员”的区别：

规划模块：主要负责**“想”**。当用户提出一个复杂需求时（例如“帮我策划并预定一次旅行”），规划模块会将其拆解为“确定目的地”、“查询机票”、“预订酒店”等子任务。它关注的是逻辑顺序和步骤的依赖关系。
行动执行：主要负责**“做”**。它接收规划模块发出的具体指令（例如“搜索今天北京的天气”），并实际去调用相应的工具或 API，然后拿回数据。它关注的是参数的传递和接口的调用成功与否。

4: 为什么 Agent 需要记忆模块？LLM 本身不是有上下文吗？

A: LLM 自带的上下文窗口通常被称为“短期记忆”，它有两个主要限制：一是容量有限（容易溢出），二是随着对话变长，早期的信息容易被“遗忘”。Agent 的记忆模块（长期记忆）主要解决以下问题：

信息持久化：即使对话结束或重启，Agent 依然能记得用户的偏好、之前的操作结果或关键数据。
信息检索：通过向量数据库技术，Agent 可以从海量历史数据中快速提取与当前任务相关的信息，从而提高决策的准确性。
上下文压缩：将长对话的历史摘要存入记忆库，避免每次都把冗长的历史记录重新发给 LLM，从而节省 Token 成本。

5: 在构建 Agent 时，如何选择合适的 LLM 作为“大脑”？

A: 选择 LLM 取决于你的应用场景和需求，通常需要考虑以下三个维度：

推理能力：如果 Agent 需要处理复杂的逻辑拆解和代码编写，建议选择推理能力较强的模型（如 GPT-4、Claude 3 Opus 或 DeepSeek Coder 等）。
响应速度与成本：如果是简单的客服问答或高频交互，可能不需要顶级的推理能力，此时选择速度快、成本低的模型（如 GPT-3.5 Turbo 或 Llama 3 8B）会更合适。
上下文窗口：如果 Agent 需要处理超长文档或需要极长的记忆链，则需要选择支持长文本的模型（如 Claude 3 支持的上下文窗口通常很大）。

6: 什么是 Agent 的“反思”机制？它真的有必要吗？

A: “反思”是 Agent 从“自动执行”进化为“智能体”的关键机制。它指的是 Agent 在执行完一个动作后，不直接输出结果，而是先进行自我评估。

必要性：非常有必要。在复杂任务中，Agent 的第一次尝试往往会失败（例如代码写错了、

引用

掘金原文: https://juejin.cn/post/7618055361979039759

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 大模型
标签： Agent / LLM / RAG / 提示词工程 / Function Calling / 智能体 / 上下文管理 / AI 架构
场景：大语言模型 / RAG应用 / AI/ML项目

Agent Skills：智能体技能框架
AI核心概念解析：Prompt、Agent与Function Call的区别
LangBot：生产级多平台智能体机器人开发平台
Agent Skills：AI 智能体的技能框架
Agent Skills：大模型智能体技能框架 本文由 AI Stack 自动生成，提供深度内容分析。

零基础学 Agent ：拆解一个 Agent 的「零件清单」——8 个模块逐一讲透 第 2 期