大语言模型成为新一代高级编程语言
基本信息
- 作者: swah
- 评分: 58
- 评论数: 102
- 链接: https://federicopereiro.com/llm-high
- HN 讨论: https://news.ycombinator.com/item?id=46868928
导语
随着大语言模型(LLM)的推理能力日益增强,它们正逐渐超越传统的辅助工具角色,演变为一种新型的高级编程语言。这种范式转变意味着开发者不再需要编写底层的语法细节,而是通过自然语言与模型协作来构建复杂的逻辑与系统。本文将深入探讨这一趋势背后的技术逻辑,分析它如何重塑软件开发的边界,以及开发者应如何调整思维以适应这一全新的计算环境。
评论
深度评论:LLM作为新型高级编程语言的视角
核心论点 文章提出了一种范式转移:大语言模型(LLM)不应仅被定义为聊天机器人,而应被视为一种新型高级编程语言(HL)。在这种视角下,自然语言成为了接口,通过概率推理而非确定性逻辑来调度计算资源。
支撑逻辑与边界分析
抽象层级的提升
- 分析:文章基于计算历史进行类比,指出从汇编到Python的演进本质是抽象层级的提高。LLM将底层实现细节封装在模型权重中,允许开发者仅描述意图(“做什么”)而非过程(“怎么做”)。
- 局限性:与传统高级语言不同,LLM具有概率性和非确定性。在金融交易或嵌入式系统等对确定性要求极高的领域,这种特性限制了其作为通用语言的应用。
语义接口的通用性
- 分析:LLM统一了不同库(如Pandas vs PyTorch)的API差异,将交互界面标准化为自然语言。这降低了人机交互的门槛,使得非技术人员能够通过Prompt构建工作流。
- 局限性:自然语言的模糊性增加了精确控制的难度。传统代码重构通常具有安全性,而LLM代码的修改往往意味着重写Prompt,且难以保证功能的完全回归。
上下文窗口作为内存
- 分析:文章将上下文窗口视为该语言的“内存”或“状态空间”。通过上下文学习,逻辑可以在运行时动态注入,改变了传统软件“编译时定逻辑”的模式。
- 局限性:上下文窗口受限于成本和“迷失中间”现象。与传统文件系统相比,这种机制在处理长程序逻辑时缺乏持久、高效且低成本的状态管理能力。
批判性评价
- 内容深度:文章通过“编程语言演化”的视角,准确捕捉了从“语法规则”向“语义理解”的转变。将Prompt Engineering比作编程,将模型比作运行时的类比在逻辑上自洽。然而,文章在工程实现层面面临挑战,特别是LLM的“黑盒”性质导致缺乏类似传统堆栈跟踪的调试机制。
- 实用价值:该视角对技术架构具有参考意义,提示开发栈可能演变为“自然意图 -> LLM -> 结构化操作 -> API”。这有助于构建“人机回环”的工作流,并重新定义开发人员的角色。
- 创新性:将LLM比作操作系统或数据库的观点较为常见,但将其明确界定为“高级语言”是一个精准的切入点,强调了软件开发模式从组合式向生成式的转变。
- 行业影响:如果该观点普及,编程教育的重心将从语法记忆转向逻辑构建和Prompt撰写。同时,这将推动低代码平台向“自然语言编程”平台演进。
争议点与反驳观点
- 逻辑与概率:反对者认为编程语言的核心是逻辑的精确执行,而LLM基于概率预测。将两者混淆可能导致软件工程中不可控的错误率。
- 计算效率:使用LLM处理简单的
if-else逻辑在计算资源上是不经济的。传统CPU处理逻辑具有高能效优势,而LLM推理依赖昂贵的GPU算力。因此,LLM更适合作为“胶水语言”而非底层逻辑的替代品。
实际应用建议
- 混合架构设计:采用分层策略,将确定性逻辑保留在传统代码(如Python/Java)中,将模糊性处理、意图理解和多模态交互交给LLM。
- 建立评估体系:鉴于LLM的输出具有概率性,应建立完善的单元测试和Evals(评估体系),以验证输出的稳定性和准确性。
代码示例
| |
| |
| |
案例研究
1:Klarna(瑞典金融科技公司)
1:Klarna(瑞典金融科技公司)
背景: Klarna 是一家先买后付(BNPL)领域的全球领军企业,拥有庞大的客户服务团队,每天需要处理海量来自全球消费者的重复性咨询(如退款、支付状态查询等)。随着业务规模扩大,传统的人力客服模式面临巨大的成本压力和响应延迟挑战。
问题: 客服中心运营成本高昂,且在高峰期(如节假日购物季)难以保证响应速度。同时,人工客服处理大量重复、简单的低价值查询,导致工作倦怠,无法专注于解决复杂的客户问题。
解决方案: Klarna 并没有编写传统的规则型聊天机器人,而是利用 OpenAI 的 GPT-4 模型作为核心“高级语言”来构建其 AI 助手。他们将公司的知识库、历史客服记录和业务流程“编译”为提示词和上下文,让 LLM 直接理解用户意图并执行操作。这使得 AI 能够像经验丰富的人类代理一样处理复杂对话,而不是机械地匹配关键词。
效果: 该 AI 助手在上线一个月内处理了 230 万次对话(占总量的三分之二),直接相当于 700 名全职客服的工作量。预计每年将为 Klarna 节省 4000 万美元的成本。同时,客户问题的解决时间从 11 分钟缩短至 2 分钟,且客户满意度与人工服务持平甚至更高。
2:Bloomberg(彭博社)
2:Bloomberg(彭博社)
背景: 彭博社的核心业务依赖于金融数据的分析与终端服务,其内部拥有海量的金融文档、新闻稿和专有的结构化数据。金融分析师和程序员需要利用这些资源来生成洞察、构建模型或开发金融工具。
问题: 传统的金融数据分析需要专业的编程技能(如 Python、SQL)以及深厚的金融领域知识。此外,将非结构化的金融新闻转化为机器可读的信号(如情感分析)通常需要训练专门的小型 NLP 模型,开发周期长且灵活性差。
解决方案: Bloomberg 开发了 BloombergGPT,这是一个基于 GPT 架构并经过 7000 亿 token 金融数据微调的大模型。通过将 LLM 作为新的高级接口,彭博社允许用户使用自然语言直接查询复杂的金融数据库,甚至让模型直接生成用于金融分析的 Python 代码。开发者不再需要为每一个特定的分析任务编写专门的代码,而是通过自然语言指令驱动 LLM 完成数据提取、清洗和初步分析。
效果: 极大地降低了金融数据提取和分析的门槛。内部员工能够通过自然语言快速获取以前需要编写复杂查询才能得到的数据洞察。在代码生成方面,它显著提高了开发人员的效率,能够自动补全金融领域特定的代码片段,减少了重复性编码工作,加速了金融工具的迭代速度。
3:Cognition(Devin AI 项目)
3:Cognition(Devin AI 项目)
背景: 软件工程是典型的知识密集型工作,涉及阅读文档、编写代码、调试、部署以及与环境交互等多个环节。传统的自动化工具(如脚本或简单的 Copilot)只能辅助生成代码片段,无法独立完成整个任务流。
问题: 许多编程任务繁琐且重复,例如修复遗留代码中的 Bug 或将现有代码库迁移到新框架。这需要工程师花费大量时间去阅读上下文、尝试修复并验证,不仅耗时而且容易出错。
解决方案: Cognition 推出了 Devin,它被宣传为世界上第一个完全自主的 AI 软件工程师。该产品将 LLM(作为“大脑”或高级语言控制器)与一个能够使用浏览器、代码编辑器和终端的沙箱环境相结合。用户只需用自然语言描述任务(例如“帮我修复这个 React 项目中的登录 Bug”),LLM 会将这一高层指令拆解为具体的子任务(规划),并通过 API 调用执行具体的底层操作(如修改文件、运行测试、查阅文档)。
效果: Devin 能够在真实场景下端到端地完成复杂的工程任务。在实际测试中,它成功通过了 Upwork 等自由职业平台上的真实工程面试,并能够完成整个网站的开发任务。这标志着 LLM 从单纯的“文本生成器”进化为能够指挥复杂系统、执行实际工作流的“高级语言”,将工程师从重复性的编码劳动中解放出来。
最佳实践
最佳实践指南
实践 1:提示词即代码,纳入版本控制
说明: 既然 LLM 被视为高级编程语言,那么驱动模型的提示词就不再是临时的文本,而是核心代码资产。提示词中的细微变化都会导致输出的巨大差异。必须像管理 Python 或 C++ 代码一样严格管理提示词的版本,以确保结果的可复现性和可追溯性。
实施步骤:
- 将所有提示词存储在独立的文件(如
.prompt或.md)中,而非硬编码在脚本里。 - 使用 Git 对提示词文件进行版本控制,每次修改需提交详细的变更日志。
- 建立提示词的版本回滚机制,当新模型发布或效果退化时能快速切换。
注意事项: 避免在通过即时通讯工具或笔记软件中通过复制粘贴来测试提示词,这会导致“最佳版本”丢失且无法回溯。
实践 2:构建结构化的“函数库”
说明: 不要在每次交互时都从头编写复杂的提示词。应将常用的功能(如“总结文本”、“提取 JSON 数据”、“翻译并保持格式”)封装为标准化的“宏”或“函数”。这类似于软件开发中的模块化编程,通过调用经过验证的组件来构建复杂的系统。
实施步骤:
- 建立一个提示词模板库,按功能分类(如:数据处理、内容生成、逻辑推理)。
- 使用模板引擎(如 Jinja2)或 LLM 应用框架(如 LangChain)来动态填充变量。
- 为每个“函数”编写文档,说明其输入输出格式及适用场景。
注意事项: 确保模板的抽象程度适中,既要保持通用性,又要留出足够的上下文注入空间,避免过度泛化导致性能下降。
实践 3:建立严格的评估与测试体系
说明: 自然语言具有模糊性,LLM 的输出具有概率性。如果不建立自动化的评估体系,就无法判断修改提示词或升级模型后系统是变好了还是变坏了。必须将“测试驱动开发”(TDD)的理念引入 LLM 开发。
实施步骤:
- 准备“金标准”数据集:包含典型输入及其理想输出的样本。
- 编写自动化测试脚本,定期运行 LLM 并通过相似度算法(如 BLEU、ROUGE)或语义模型对比输出与金标准的差异。
- 实施持续性集成(CI),在每次变更提示词时自动运行测试套件。
注意事项: 不要依赖单一指标进行评估。对于逻辑类任务,应使用基于规则的断言;对于生成类任务,应结合 LLM-as-a-judge(使用更强的模型来打分)的方法。
实践 4:实施语义缓存策略
说明: LLM 推理成本高昂且延迟较高。在许多场景下,用户的问题或系统的输入往往具有高度的重复性。通过缓存高频输入的输出结果,可以显著降低成本并提升响应速度,这是构建生产级 LLM 应用的关键优化手段。
实施步骤:
- 在调用 LLM 之前,先计算输入文本的向量嵌入。
- 查询向量数据库,寻找语义相似度超过阈值(如 0.95)的历史记录。
- 如果命中缓存,直接返回历史结果;如果未命中,则调用 LLM 并将新结果存入缓存。
注意事项: 需要根据业务场景设定合理的缓存过期时间和相似度阈值。对于时效性强的数据(如新闻查询),应缩短缓存有效期或禁用缓存。
实践 5:约束输出格式与类型安全
说明: LLM 作为高级语言,其输出往往是不确定的自然语言。为了使其能可靠地融入现有的软件工程流程,必须强制其输出结构化数据(如 JSON、XML)。这相当于在动态语言中强制实施类型安全,防止下游程序因解析错误而崩溃。
实施步骤:
- 在提示词中明确包含输出格式的定义,例如:“必须返回纯 JSON 格式,不包含 Markdown 代码块标记”。
- 使用支持 JSON Mode 或 Function Calling 的模型端点,从底层约束输出格式。
- 在代码中编写健壮的解析器和异常处理逻辑,对输出进行清洗和验证。
注意事项: 即使模型承诺返回 JSON,仍有可能出现格式错误。务必在生产环境中加入“重试机制”或“修复机制”(如让 LLM 自我修正错误的 JSON)。
实践 6:上下文感知与检索增强生成 (RAG)
说明: LLM 的知识受限于训练数据截止日期,且无法访问私有数据。为了构建强大的应用,不能仅依赖模型的预训练知识,而必须通过检索外部知识库来增强生成内容。这相当于在编程时动态链接最新的库文件。
实施步骤:
- 将私有领域数据切片并向量化,存入向量数据库。
- 在用户提问时,先检索相关文档片段。
- 将检索到的文档片段作为“上下文”注入到提示词中
学习要点
- 基于“LLMs as the new high level language”这一观点(常见于 Andrej Karpathy 等人的讨论),以下是总结出的关键要点:
- 大语言模型正在成为一种新型的高级编程语言,自然语言本身正逐渐成为最通用的逻辑描述代码。
- 提示词工程本质上是这种新语言下的“编程”过程,其核心在于精确地传达意图而非编写语法。
- 这种抽象层级的提升意味着未来的软件开发将更多关注系统架构与意图定义,而非底层的语法细节。
- 上下文窗口构成了这种新语言运行时的“内存”,其大小直接限制了模型能够处理的复杂度和连贯性。
- 构建应用的重点正从传统的编写硬编码逻辑,转向设计能够检索数据并生成结果的智能编排流程。
- 代码生成(如 Copilot)仅是初级应用,真正的潜力在于利用模型进行非确定性任务的规划与推理。
常见问题
1: 为什么将大语言模型(LLM)比作“新的高级编程语言”?
1: 为什么将大语言模型(LLM)比作“新的高级编程语言”?
A: 这个类比主要基于编程范式的演变和抽象层的提升。在计算机早期,程序员需要编写汇编语言或机器码,直接操作硬件。后来出现了 C、Java、Python 等高级语言,将底层细节抽象化,让开发者只需关注逻辑。LLM 被视为“新的高级语言”,是因为它进一步提升了抽象层级:开发者不再编写具体的语法逻辑(如循环、条件判断),而是使用自然语言(英语或中文)描述“意图”。LLM 充当了编译器或解释器的角色,将人类的意图转化为可执行的代码或直接执行任务。这意味着编程的门槛被大幅降低,非程序员也能通过自然语言指挥计算机完成复杂的逻辑操作。
2: 如果 LLM 成为编程语言,传统的程序员会失业吗?
2: 如果 LLM 成为编程语言,传统的程序员会失业吗?
A: 不会完全失业,但角色会发生转变。就像汇编语言和机器码至今仍在特定领域(如嵌入式系统、驱动开发)使用一样,Python、C++ 等传统语言在追求极致性能、确定性和低资源消耗的场景下依然不可替代。LLM 作为一种更高维度的抽象,主要解决的是“从意图到实现”的效率问题。程序员的职责将从“编写语法细节”转变为“设计系统架构、Prompt Engineering(提示词工程)、验证模型输出的正确性以及处理边缘情况”。未来的程序员更像是一个“管理者”或“编辑”,负责指导和修正 AI 生成的代码,而不是从零开始编写每一行代码。
3: LLM 生成的代码具有不确定性(随机性),这如何满足软件开发对稳定性的要求?
3: LLM 生成的代码具有不确定性(随机性),这如何满足软件开发对稳定性的要求?
A: 这确实是将 LLM 视为编程工具时的核心挑战。传统的编译器是确定性的,相同的输入永远产生相同的输出。而 LLM 具有概率性,可能每次生成的代码略有不同。为了解决这个问题,业界正在采取以下策略:
- 温度控制:在生成代码时将温度参数设为 0,以最大化输出的确定性。
- 测试与验证:建立严格的自动化测试流程,将 LLM 视为一个可能产生错误的“初级程序员”,必须通过单元测试和集成测试才能合并代码。
- 人机协同:保留人类专家的审查环节,确保逻辑安全。
- 专用模型:微调专门用于代码生成的模型(如 GitHub Copilot 背后的模型),使其在代码生成上比通用聊天机器人更精准、结构更严谨。
4: 这种“新语言”的可维护性如何?如果 AI 写的代码很难读懂怎么办?
4: 这种“新语言”的可维护性如何?如果 AI 写的代码很难读懂怎么办?
A: 可维护性是当前 LLM 编程的一个痛点。AI 有时会生成看似能运行但逻辑晦涩,或者包含不必要的复杂度的代码(有时被称为“幻觉代码”)。为了改善这一点:
- 自然语言注释:要求 LLM 在生成代码的同时生成详细的文档和注释,解释其逻辑。
- 上下文学习:在 Prompt 中提供清晰的代码风格指南和示例,强制 AI 遵循特定的编码规范。
- 持续重构:利用 LLM 本身来解释或重构之前生成的代码。如果一段代码难以理解,可以要求 LLM “解释这段代码”或“重构这段代码使其更易读”。
- 模块化设计:人类开发者负责设计清晰的模块接口,内部实现交给 LLM,这样即使内部逻辑复杂,整体系统的依赖关系依然清晰。
5: LLM 作为高级语言,目前最大的局限性是什么?
5: LLM 作为高级语言,目前最大的局限性是什么?
A: 尽管发展迅速,LLM 作为编程工具目前仍面临几个主要局限:
- 上下文窗口限制:LLM 无法一次性“记住”或处理超大型代码库(如数百万行代码),这在处理大型遗留系统时是个问题。
- 逻辑推理与数学能力:在处理极度复杂的算法或需要精确数学推导的场景时,LLM 可能会出错,不如传统算法可靠。
- 调试困难:当 LLM 生成的代码出现 Bug 时,传统的调试工具(如断点、堆栈跟踪)虽然有效,但定位问题的根源可能更难,因为代码的生成逻辑是隐式的。
- 安全性:LLM 可能会无意中引入安全漏洞(如 SQL 注入风险)或使用有版权争议的代码片段,需要额外的扫描工具来保障安全。
6: 这种范式转移对软件开发流程(DevOps/CI/CD)有什么影响?
6: 这种范式转移对软件开发流程(DevOps/CI/CD)有什么影响?
A: LLM 的介入将重塑软件开发生命周期(SDLC)。
- CI/CD 集成:未来的 CI/CD 流水线将包含 LLM 检查步骤,例如自动审查 Pull Request、生成测试用例或自动优化代码。
- 自然语言即代码:配置文件可能从 YAML/JSON 转变为自然语言描述,由 LLM 实时解析为系统配置。
- 文档同步:代码变更时,LLM 可以自动更新文档,解决长期以来文档与代码脱节的问题。
思考题
## 挑战与思考题
### 挑战 1: [简单]
问题**: 传统编程语言(如 Python)通过固定的语法和关键字来执行命令。如果将 LLM 视为一种新的高级语言,请设计一个简单的“Hello World”级别的 Prompt,该 Prompt 不仅要输出文本,还要包含明确的“变量定义”和“控制结构”(例如:如果变量 X 满足条件,则执行 A,否则执行 B)。请记录你的 Prompt 和 LLM 的反馈,并分析其稳定性。
提示**: 考虑如何在 Prompt 中明确区分“指令”与“数据”。尝试多次运行相同的 Prompt,观察 LLM 是否像传统编译器一样严格遵循逻辑分支,还是会产生幻觉。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
相关文章
- AI 编程代理已全面替代我使用的所有开发框架
- 让 Claude 编写 CUDA 内核并指导开源模型
- 💀 低代码已死!2014-2025:编程黄金时代的终结还是重生?
- Claude Code 全面集成至微软内部开发工作流
- 利用AI高效编写高质量代码的实践方法 本文由 AI Stack 自动生成,包含深度分析与可证伪的判断。