元提示、上下文工程与规格驱动的开发系统

基本信息

作者: stefankuehnel
评分: 253
评论数: 132
链接: https://github.com/gsd-build/get-shit-done
HN 讨论: https://news.ycombinator.com/item?id=47417804

导语

在复杂的软件开发中，如何将抽象的需求转化为可执行的代码，始终是工程效率的关键瓶颈。本文介绍了一套结合元提示、上下文工程与规格驱动开发的系统，旨在通过结构化的流程提升交付质量。读者将从中掌握如何构建严谨的开发规范，利用上下文优化模型输出，从而实现从需求定义到代码落地的自动化闭环。

文章中心观点 文章提出了一种以“规格说明书”为核心、结合元提示和上下文工程的开发系统，旨在通过将软件工程最佳实践（如模块化、分层架构）迁移到 LLM 工作流中，将 AI 从“聊天机器人”转变为可执行复杂任务的“自主工程师”。

深入评价

1. 内容深度与论证严谨性

支撑理由（事实陈述/作者观点）： 文章的深度在于它敏锐地指出了当前 AI 辅助编程的痛点——上下文窗口的有效利用和任务拆解的颗粒度。作者提出的“Context Engineering”（上下文工程）不仅仅是简单的 Prompt 堆砌，而是引入了类似传统软件工程的“文件结构”概念。通过将 Prompt、Context 和 Instructions 分离，文章建立了一个严谨的逻辑框架。这种方法论在技术上是站得住脚的，因为它模仿了人类专家解决复杂问题的思维模型：先定义规范，再逐步细化。
反例/边界条件（你的推断）： 该方法在处理高度依赖隐性知识或需要极度创造性发散的任务时可能失效。例如，在设计一个全新的、从未有过的交互范式时，严格的“Spec-driven”可能会限制 LLM 的探索空间。此外，论证中对于“Token 消耗与产出质量”的性价比分析略显不足，随着上下文窗口增大（如 Claude 200k 或 Gemini 1.5M），这种精细的上下文工程是否还具备边际效益，是一个值得商榷的边界条件。

2. 实用价值与创新性

支撑理由（事实陈述）： 实用价值极高。文章不仅停留在理论，还提供了具体的“元提示”模板和目录结构建议。对于受限于 AI 幻觉和输出不稳定性的开发者来说，这是一种将“非确定性 AI”封装进“确定性工程流”的有效尝试。
创新性（你的推断）： 其最大的创新点在于**“Prompt 组件化”**。它将 Prompt 拆解为 System、Context、Task 等模块，这与现代前端开发的组件化思想异曲同工。这种范式转移比单纯讨论“如何写好 Prompt”要高级得多，它实际上是在构建一种“Prompt 编程语言”的雏形。
反例/边界条件（你的推断）： 对于初学者或非技术人员，这套系统的门槛过高。维护一个复杂的上下文工程系统本身就需要巨大的认知资源。如果任务是一次性的（如写一个简单的脚本），这套系统的“启动成本”远超“手动编码”。

3. 行业影响与争议点

支撑理由（作者观点）： 文章预判了 AI 开发的未来趋势：从“Copilot（副驾驶）”向“Agent（智能体）”过渡。这套系统实际上是一个轻量级的 Agent 架构。
争议点（你的推断）： 核心争议在于**“过度工程化”的风险**。软件工程中 YAGNI（You Aren’t Gonna Need It）原则同样适用。如果为了用 AI 而建立比开发本身还复杂的 Spec 系统，那就是本末倒置。此外，文章似乎假设 LLM 具备完美的指令遵循能力，但实际模型往往对复杂的、多层的嵌套指令理解能力有限，容易出现“指令漂移”。

4. 实际应用建议

支撑理由（你的推断）： 建议将此方法论应用于“遗留代码重构”或“功能型业务逻辑开发”中。这类任务边界清晰，规范明确，最容易被 Spec-driven 系统消化。
反例/边界条件（你的推断）： 避免在探索性编程或算法优化（如调优 SQL 查询性能）的早期阶段使用此系统，因为这类工作需要频繁的试错和直觉判断，僵化的 Spec 会拖慢节奏。

可验证的检查方式

对比实验（指标）： 选取一个中型功能模块（如 CRUD API），分别采用“传统对话式 Prompt”和“文章中的 Spec-driven 系统”开发。
- 观察指标： 代码一次通过率、Human-in-the-loop 修正次数、总耗时。
Token 效率分析（指标）： 统计在达到同等代码质量的前提下，两种方法消耗的 Input/Output Token 比例。
- 观察窗口： 随着项目复杂度提升（代码行数增加），Token 消耗的增长曲线是线性还是指数级。
维护性测试（观察）： 在项目需求变更（如修改数据结构）时，观察仅修改 Spec 文件是否能自动生成正确的代码变更，而不需要人工干预 Prompt。
- 验证点： LLM 是否能准确理解 Spec 变更的连锁反应。

最佳实践

最佳实践指南

实践 1：建立规格驱动开发流程

说明: 在编写代码之前，必须先编写详细的规格文档。这不仅是文档，更是可执行的指令。通过将规格文档作为"单一事实来源"，确保所有代码生成和修改都严格遵循既定标准，减少歧义和返工。

实施步骤:

创建包含输入/输出定义、边缘情况和约束条件的详细规格文档。
使用结构化格式（如 JSON 或 YAML）描述数据结构。
在提示词中明确引用规格文档的特定部分，强制 AI 遵循。

注意事项:

规格文档应保持版本控制，任何变更都应通知 AI 上下文。
避免在规格中使用模糊的自然语言描述，尽量使用形式化描述。

实践 2：实施元提示策略

说明: 不要直接向 AI 发送任务，而是通过一个"元提示"来生成更详细的、结构化的提示词。元提示负责定义角色、设定目标、规划步骤，从而生成能够完成具体任务的"子提示"。

实施步骤:

编写一个元提示，要求 AI 充当"资深架构师"或"提示词工程师"。
在元提示中描述你的最终目标（例如：“构建一个 REST API”）。
让元提示生成一个包含详细步骤、代码规范和测试计划的完整提示词。

注意事项:

元提示应包含"思维链"指令，要求 AI 在生成最终提示前先进行推理。
定期迭代元提示本身，以适应不同类型的任务。

实践 3：上下文工程与模块化

说明: 将大型上下文拆分为独立、可管理的模块。不要一次性将整个代码库扔给 AI，而是根据当前任务的相关性，动态加载特定的上下文模块（如特定的函数、类或文档）。

实施步骤:

将项目知识库拆分为：核心逻辑、工具函数、配置、测试等模块。
使用向量数据库或关键词匹配，检索与当前用户查询最相关的代码片段。
在系统提示中明确告诉 AI：“仅使用以下提供的上下文模块来回答问题”。

注意事项:

确保模块之间的依赖关系清晰，避免 AI 产生不存在的连接。
控制每次交互的上下文窗口大小，去除无关的噪音信息。

实践 4：强制执行验证与测试闭环

说明: 任何生成的代码或方案都必须经过自动化的验证流程。不要盲目信任 AI 的输出，而是将其作为"待验证"的候选方案，通过测试套件进行筛选。

实施步骤:

在提示词中包含"自检"指令，要求 AI 在生成代码后先进行自我审查。
集成自动化测试脚本，AI 生成代码后自动运行测试。
如果测试失败，将错误信息作为反馈回传给 AI 进行修复，直到通过。

注意事项:

测试用例应当由人类预先编写或严格审核，确保测试本身的有效性。
设置最大重试次数，避免陷入无限修复循环。

实践 5：采用迭代式细化

说明: 避免试图通过一个巨大的提示词一次性完成复杂的系统开发。采用"起草-审查-细化"的循环，逐步完善系统架构和代码实现。

实施步骤:

第一步：生成高层架构大纲或伪代码。
第二步：基于大纲，针对每个模块生成具体实现。
第三步：整合模块，处理接口兼容性问题。
第四步：进行代码重构和优化。

注意事项:

在每一步迭代中，保留前一步的上下文作为参考。
明确每一步的"完成定义"，避免在未完成草图阶段就陷入细节实现。

实践 6：严格的输出格式控制

说明: 为了便于程序化处理和后续步骤的自动化，必须严格控制 AI 的输出格式。使用特定的标记、分隔符或数据结构来封装 AI 的回复。

实施步骤:

在提示词中明确规定输出格式（例如：“以 Markdown 代码块形式输出 JSON”）。
定义具体的字段名称（如 reasoning, code, next_step）。
使用解析器验证输出格式，如果格式错误则拒绝处理并要求重试。

注意事项:

对于复杂任务，可以要求 AI 分两部分输出：先输出思考过程，再输出最终结果。

实践 7：维护动态上下文记忆

说明: 在长会话或多阶段开发中，AI 需要记住之前的决策、变量定义和架构选择。建立一个动态更新的"记忆"机制，确保后续操作与前期工作保持一致。

实施步骤:

在每次交互结束时，提取关键信息（如定义的函数名、选定的技术栈）更新到"项目状态"文件中。
在下一次

学习要点

利用元提示词让AI生成结构化、可执行的子任务，将复杂开发流程分解为可管理的步骤，提升系统化执行效率。
通过上下文工程将项目规范、代码库和用户需求整合为动态上下文，确保AI输出与实际开发环境高度一致。
采用规格驱动开发模式，优先定义详细的技术规格和验收标准，减少开发过程中的返工和歧义。
构建迭代反馈循环，通过持续测试和修正AI生成的代码，逐步优化输出质量并适应需求变化。
将AI定位为协作工具而非替代者，通过人机协同流程（如代码审查、集成测试）平衡自动化与人工监督。
强调模块化设计，将开发任务拆分为独立、可复用的组件（如API、函数），便于AI生成和维护代码。
通过自动化测试和验证流程（如单元测试、集成测试）确保AI生成的代码符合性能和安全标准，降低技术债务。

常见问题

1: 什么是 “Get Shit Done” (GSD) 系统，它与传统的 AI 提示词有何不同？

A: “Get Shit Done” 是一种结合了元提示、上下文工程和规范驱动开发的系统化工作流。与传统的单一提示词不同，GSD 系统不仅仅是指令的堆砌，而是一个结构化的框架。它强调在执行任务前，通过严格的“规范”来定义上下文、角色设定和输出标准。这种系统将 AI 视为一名需要详细规格说明书的高级工程师，而不是简单的聊天机器人，从而确保输出结果具有高度的工程一致性和可复现性。

2: 在该系统中，“规范驱动开发”具体是如何运作的？

A: 规范驱动开发借鉴了传统软件工程中“需求文档”的概念。在 GSD 系统中，用户不仅仅是提出一个模糊的需求（例如“写一个贪吃蛇游戏”），而是提供一份详尽的“规格说明书”。这份说明书通常包含：技术栈选择、文件结构定义、依赖库版本、具体的函数签名、边缘情况处理以及测试标准。通过这种预先定义的严格约束，AI 能够生成符合特定工程标准、无需大量修改即可运行的代码，极大地减少了后续调试和重构的时间。

3: 什么是“上下文工程”，为什么它在 GSD 系统中至关重要？

A: 上下文工程是指在构建提示词时，有意识地管理和组织输入给大语言模型（LLM）的信息结构和内容。在 GSD 系统中，这至关重要因为 AI 模型受到上下文窗口（Context Window）的限制。有效的上下文工程涉及将庞大的代码库或文档进行切片、向量化或摘要处理，只将最相关的部分提供给模型。GSD 系统通过精细的上下文管理，确保 AI 在生成代码或解决问题时，能够准确理解项目的整体架构和之前的决策，从而避免生成与现有代码冲突或风格不一致的代码。

4: GSD 系统中的“元提示”是指什么？

A: “元提示”在 GSD 系统中指的是一种用于生成或优化其他提示词的高层指令。它充当了“提示词的提示词”这一角色。在开发流程中，元提示负责动态调整任务策略。例如，当遇到一个复杂任务时，元提示会指示 AI 将其拆解为子任务，或者根据当前的错误日志自动生成调试指令。这种递归或动态的提示策略使得系统能够自主应对复杂多变的开发场景，而不仅仅是静态地执行用户输入的第一条指令。

5: 使用 GSD 系统进行开发有哪些主要的优缺点？

A: 优点方面，GSD 系统能显著提高开发效率，通过标准化的规范输出减少代码中的“幻觉”和逻辑错误，使得代码库更易于维护和扩展。它特别适合快速原型开发和从零开始构建新项目。缺点方面，该系统的学习曲线较陡峭，用户需要具备较强的工程思维，能够编写清晰、无歧义的技术规范。此外，准备详细的上下文和规格说明书在初期需要投入大量时间，对于非常简单或一次性的小任务，可能显得过于繁琐。

6: 对于想要尝试 GSD 系统的开发者，有什么具体的入门建议？

A: 建议从“小处着手，规范先行”开始。不要一开始就试图构建整个操作系统，而是选择一个功能明确的小型模块（如一个 API 接口或数据处理脚本）。首先在文本编辑器中写好详细的规格说明书，明确输入、输出和依赖关系，然后再将其输入给 AI。同时，建议使用支持长上下文的模型，并建立一套自己的“提示词模板库”，将常用的上下文设置和角色设定保存下来，以便在不同项目中复用，从而逐步构建起自己的 GSD 工作流。

思考题

## 挑战与思考题

### 挑战 1: 从自然语言到规格驱动

问题**: 在传统的软件开发中，我们通常使用用户故事来定义需求。请尝试将“实现一个用户登录功能”这一简单的功能需求，转化为一个结构化的“规格驱动”提示词。要求该提示词必须包含明确的输入数据结构、预期的输出格式以及具体的验收标准。

提示**: 不要只描述“做什么”，重点在于描述“如何验证做对了”。思考如何将 JSON Schema 或类型定义融入到你的提示词中，以约束大模型的输出边界。

引用

原文链接: https://github.com/gsd-build/get-shit-done
HN 讨论: https://news.ycombinator.com/item?id=47417804

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 效率与方法论
标签： Meta-prompting / Context Engineering / Spec-driven / LLM / Prompt Engineering / 开发工作流 / 自动化 / 系统设计
场景：大语言模型

Meta提示、上下文工程与规格驱动的开发系统
Meta提示、上下文工程与规格驱动的开发系统
夜间自主运行的智能体系统
睡眠期间自动运行的智能体系统
夜间自主运行的智能体系统 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

AI Stack

元提示、上下文工程与规格驱动的开发系统