AI 写代码效果差？大多数人第一步就错了

基本信息

作者: 风象南
链接: https://juejin.cn/post/7613625507523051526

导语

面对 AI 生成代码质量不达标的困境，开发者往往容易忽略“提示词”这一关键环节，导致在反复调试中空耗精力。本文将结合实际案例，剖析从“需求描述”到“精准指令”的转化逻辑，帮助读者掌握结构化提问的方法。通过优化输入端的表达，你将能有效引导 AI 输出更健壮、可维护的代码，从而真正实现开发效率的跃升。

描述

昨天同事在用 Codex 写一个新模块。从上午到中午，提示词改了好几轮，代码生成了一版又一版，结果始

摘要

由于提供的内容在“结果始”处截断，信息不完整。基于目前可见的文本，为您总结如下：

这段内容主要指出了大多数人在使用 AI（如 Codex）编写代码时存在的误区。

核心观点： 大多数人认为 AI 写代码效果差，是因为第一步就做错了。

现象描述： 文章以同事为例，描述了一种低效的工作模式：从上午到中午花费大量时间，反复修改提示词并生成多版代码，却未能得到理想的结果（原文在此处中断，暗示了这种“不断重试”的方法是错误的）。

总结： 作者意在强调，在与 AI 协作编程时，直接通过不断调整 Prompt 来生成代码往往是徒劳的，正确的起步方法至关重要。

中心观点： 文章的核心观点是：AI 编程助手（如 Codex/Copilot）生成效果不佳，往往不是因为模型能力不足，而是因为使用者缺乏“上下文工程”能力，未能提供包含清晰意图、依赖定义和约束条件的完整上下文。

深入评价与分析：

1. 内容深度与论证严谨性

观点深度： 文章触及了 LLM（大语言模型）应用的核心痛点——概率性补全与确定性工程逻辑之间的矛盾。作者指出“大多数人第一步就错了”，实际上是在批评用户将 AI 视为“全知全能的架构师”而非“需要明确指令的初级工程师”。
论证逻辑： 文章通过“同事改了一上午提示词”的案例，生动地论证了“Garbage In, Garbage Out”在 AI 编码领域的表现。
支撑理由（事实陈述/作者观点）：
1. 上下文敏感性： AI 代码生成高度依赖文件级甚至项目级的上下文，单一代码片段往往存在歧义。
2. 意图传递偏差： 自然语言存在模糊性，而代码要求精确性，缺乏变量定义、类型注解或测试用例的提示词会导致 AI 瞎猜。
3. 迭代成本： 直接生成大段代码比先生成伪代码或骨架代码更难调试，错误的上下文会导致错误的连锁反应。
反例/边界条件（你的推断）：
1. 算法密集型任务： 对于纯算法题（如 LeetCode），上下文往往只需题目描述，无需额外工程，AI 表现依然优异。
2. 超长上下文窗口的局限： 即使提供了完美上下文，如果超过了模型的注意力窗口，模型仍会遗忘关键信息，导致效果下降。

2. 实用价值与创新性

实用价值： 极高。文章纠正了目前普遍存在的“拿来主义”心态。对于开发者而言，它指出了提升 AI 辅助编程效率的具体路径——从“如何提问”转向“如何定义上下文”。
创新性： 文章并未提出全新的技术理论，但重新定义了人机协作的范式。它隐含提出了**“上下文优先”**的开发原则，即在使用 AI 前先进行需求精炼和环境准备，这与传统的“直接写需求”有本质区别。

3. 可读性与行业影响

可读性： 表达清晰，逻辑链条完整（现象 -> 原因 -> 隐喻）。通过“同事”的案例降低了认知门槛，易于引起开发者共鸣。
行业影响： 这篇文章反映了行业从“惊叹于 AI 的能力”向“探索 AI 的工程化落地”的转变。它暗示了未来**“提示词工程师”或“AI 交互架构师”**将成为研发团队中的关键角色，推动了开发流程中“需求分析”环节的权重提升。

4. 争议点与不同观点

争议点：
- 模型能力的归因： 文章似乎将所有问题归咎于用户的第一步。然而，事实陈述是：目前的模型在处理长距离依赖、复杂逻辑推理和保持代码风格一致性上仍存在技术缺陷。即使上下文完美，模型仍可能“幻觉”出不存在的 API。
- 效率悖论： 为了构建完美的上下文（如编写详细的注释、接口定义），开发者花费的时间可能超过了直接手写代码的时间。作者观点倾向于长期收益，但短期看可能降低效率。

5. 实际应用建议

基于文章观点与行业实践，提出以下应用策略：

结构化提示： 不要只说“写一个用户模块”，而应提供：[背景：电商系统] + [输入：UserDTO] + [输出：JSON] + [约束：使用 MyBatis] + [参考：类似功能的旧代码]。
增量开发： 让 AI 生成函数签名或骨架，确认逻辑无误后再填充细节，而非一次性生成整个文件。
测试驱动： 先生成（或让 AI 生成）测试用例，再让 AI 根据测试用例写代码，这是验证上下文理解是否准确的最佳方式。

6. 可验证的检查方式

为了验证“上下文质量决定 AI 编码效果”这一结论，可以进行以下检查：

指标对比实验（A/B 测试）：
- A组： 仅提供一句话需求（如“写一个快排”）。
- B组： 提供需求 + 输入输出示例 + 边界条件说明。
- 观察指标： 代码一次编译通过率、逻辑错误数量、人工修改行数。
- 预期结果： B组的修改行数应显著少于 A组。
“RAG”效应测试：
- 在使用 Cursor 或 Copilot Chat 时，对比“不引用文件”与“@引用相关依赖文件/接口定义”时的生成质量。
- 观察窗口： 观察 AI 生成的代码中是否出现了项目特有的自定义类或私有方法，而非通用库或幻觉代码。
迭代轮次统计：
- 记录解决同一个 Bug，通过“修改自然语言提示词”解决的轮次 vs “直接修改代码”解决的轮次。
- **推断：

学习要点

根据文章内容，总结关键要点如下：
提示词的精确度直接决定代码质量，必须提供详尽的技术栈、文件结构和具体逻辑要求，而非模糊的描述。
将庞大的开发需求拆解为细粒度的原子化任务，是确保 AI 生成代码准确率的核心策略。
采用“迭代式开发”流程，先让 AI 搭建基础框架，再通过不断的反馈与修正来完善功能。
不要直接让 AI 生成整个文件，应将其作为“代码补全”或“逻辑优化”的工具，由开发者主导整合。
在提问中提供“最小可复现示例”或相关代码片段，能帮助 AI 更好地理解上下文并减少语法错误。
AI 生成的代码必须经过人工的严格审查与测试，不可直接部署，需重点关注安全性与边界情况。

常见问题

1: 为什么我直接让 AI 写代码，生成的结果往往不能直接运行，或者充满了低级错误？

A: 这种情况通常是因为你将 AI 视为一个“全知全能的程序员”，而忽略了上下文的重要性。AI 并非你的项目协作者，它不知道你的项目结构、依赖库版本或具体的业务逻辑背景。当你输入过于简短的指令（如“帮我写个登录功能”）时，AI 只能基于通用概率进行猜测，生成的代码可能使用了你项目中未安装的库，或者与现有的架构不兼容。解决这一步的关键在于“投喂”足够的背景信息，而不是仅仅提出需求。

2: 如何向 AI 提供正确的上下文，才能获得高质量的代码？

A: 有效的上下文包含三个核心部分：角色设定、环境描述和具体任务。首先，告诉 AI 它的角色（例如：“你是一位精通 Python 和 Django 的资深后端工程师”）。其次，详细描述技术栈（例如：“项目使用 Python 3.9，Django 4.0，数据库是 PostgreSQL”）。最后，提供相关的代码片段或报错信息。最有效的方法是使用 @ 符号或文件引用功能（如果 AI 工具支持），将相关的配置文件或模型定义直接喂给 AI，让它基于现有代码进行续写或修改，而不是凭空创造。

3: AI 写的代码逻辑是对的，但风格和我现有的代码完全不一样，我该怎么办？

A: 这是一个非常普遍的问题，因为 AI 默认的编程风格通常是教科书式的，未必符合你团队的代码规范。解决方法是在提示词中明确加入风格约束。你可以要求 AI：“请严格按照项目中 src/utils/example.js 的代码风格进行编写”，或者明确指出：“请使用函数式组件，避免使用 Class 组件，并确保使用 ESLint 规范”。如果可能，最好将项目中一段写得很好的标准代码片段作为范例发送给 AI，要求它模仿该范例的风格。

4: 当 AI 生成的代码报错时，直接把报错信息复制回去给它，为什么它有时候修不好？

A: 简单地复制报错信息往往缺乏上下文。AI 可能会尝试“幻觉”出修复方案，或者给出在错误位置打补丁的代码。正确的做法是提供最小复现路径。你应该告诉 AI：“我执行了以下操作……（附上你的输入代码），然后遇到了这个错误……（附上完整的 Traceback 或报错日志），这是我当前的代码状态……（附上相关代码块）”。此外，如果 AI 连续两次无法修复同一个 Bug，建议停止重试，因为继续追问可能会让它陷入逻辑死循环，此时人工介入往往更高效。

5: 对于复杂的业务逻辑，是一次性让 AI 生成整个功能，还是分步生成？

A: 绝对是分步生成。大多数人的错误在于试图用一句话生成一个包含复杂判断、数据库操作和外部接口调用的完整函数。这种“大而全”的提示词会导致 AI 的注意力分散，逻辑漏洞百出。正确的做法是采用“链式提示”策略：第一步，先让 AI 设计实现思路或伪代码；第二步，确认思路无误后，让它编写数据获取部分；第三步，再编写核心逻辑处理部分。将复杂任务拆解为连续的、简单的子任务，能显著提高代码的准确率和可维护性。

6: AI 生成的代码看起来没问题，但是否存在安全隐患或性能陷阱？

A: 是的，AI 目前生成的代码往往只关注“能跑通”，而容易忽略安全性和性能。常见的问题包括：SQL 注入风险（如果使用了拼接字符串）、硬编码的密钥或密码、缺乏输入验证、以及不必要的循环嵌套导致的时间复杂度爆炸。因此，切勿直接复制粘贴 AI 生成的代码到生产环境。你需要像进行 Code Review 一样，重点检查安全漏洞和性能瓶颈，特别是涉及数据库查询和用户输入的地方。

7: 如果我想让 AI 帮我重构旧代码，它经常会把代码改得面目全非，导致功能出问题，如何避免？

A: 重构是 AI 容易出错的领域，因为它可能无法理解旧代码中隐含的业务逻辑或历史遗留的“奇怪写法”。为了避免破坏功能，你应该采取保守的重构策略。不要直接说“重构这个文件”，而是指定具体的重构目标，例如：“请仅优化这个函数的变量命名，不要改变其内部逻辑”，或者“请将这个 for 循环替换为 map 函数，保持输出结果一致”。同时，要求 AI 提供重构前后的对比，并为你编写单元测试来验证重构后的行为是否与原版一致。

引用

掘金原文: https://juejin.cn/post/7613625507523051526

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 效率与方法论
标签： AI编程 / Codex / Prompt / 代码生成 / 开发效率 / 最佳实践 / 工作流 / LLM
场景： AI/ML项目 / 大语言模型

利用AI高效编写高质量代码的实践方法
利用AI高效编写高质量代码的实践方法
Codex App：基于自然语言指令的代码生成工具
利用AI高效编写高质量代码的实践指南
利用AI高效编写高质量代码的实践指南 本文由 AI Stack 自动生成，提供深度内容分析。

AI Stack

AI 写代码效果差？大多数人第一步就错了