2026年AI展望:LLM、智能体、扩展定律与中国角色


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所的后训练负责人,也是《The RLHF Book》的作者。Sebastian Raschka 是《从零构建大语言模型》和《从零构建推理模型》的作者。感谢您的收听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 下方提供时间戳、文字稿,以及提供反馈、提交问题、联系 Lex 等方式。 文字稿:https://lexfridman.com/ai-sota-2026-transcript 联系 Lex: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或来电:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact 赞助商:支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。请访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。请访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。请访问 https://upliftdesk.com/lex Fin:客服 AI 智能体。请访问 https://fin.ai/lex Shopify:在线销售平台。请访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。请访问 https://coderabbit.ai/lex LMNT:零糖电解质冲剂。请访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。请访问 https://perplexity.ai/ 大纲: (00:00) – 介绍 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁将赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁目前领先? (36:11) – 编程最佳 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformers:2019 年以来 LLM 的演进 (1:02:38) – AI 扩展定律:是已失效还是依然适用? (1:18:45) – AI 的训练方式:预训练、中期训练与后训练 (1:51:51) – 后训练详解:令人兴奋的新研究方向


导语

随着大模型技术的快速迭代,2026 年的 AI 发展路径正变得愈发清晰。本期对话邀请了 Nathan Lambert 和 Sebastian Raschka 两位资深研究员,围绕 Scaling Laws、智能体演进以及中国 AI 生态等核心议题展开深入探讨。文章将结合他们的工程实践与前沿洞察,为您剖析从底层算力到应用落地的关键趋势,助您厘清技术演进背后的真实逻辑。


摘要

以下是Lex Fridman播客第490期内容的中文简洁总结:

本期主题:2026年AI现状展望 本期嘉宾是机器学习研究员兼作者Nathan Lambert(Ai2后训练负责人、《RLHF Book》作者)和Sebastian Raschka(《从零构建大语言模型》作者)。两人与Lex Fridman深入探讨了当前AI领域的关键议题及未来趋势。

主要讨论内容:

  1. 地缘政治与竞争格局

    • 中美AI竞赛:探讨了中国与美国在AI领域的博弈,分析双方在算力、数据和算法上的优劣势。
    • 大模型之争:对比了ChatGPT、Claude、Gemini和Grok等主流模型的表现与市场地位。
  2. 技术演进与开发

    • AI编程:评估了目前最适合编程的AI工具。
    • 开源与闭源:讨论了开源LLM与闭源模型之间的竞争,以及开源模式在推动AI发展中的作用。
    • 架构演变:回顾了Transformer架构自2019年以来的进化历程。
  3. 核心法则与训练方法

    • 扩展定律:讨论了AI算力扩展定律是否依然有效,还是已经遭遇瓶颈。
    • 训练全流程:详细解释了AI训练的三个阶段:预训练、中期训练和后训练,重点介绍了后训练领域激动人心的最新研究方向。

评论

核心评价

这篇文章代表了当前 AI 研究界“技术现实主义”流派的声音,其核心观点在于:2026年的AI行业将从“暴力美学”的预训练竞赛,转向“精细化”的后训练、推理优化与具身智能应用,行业焦点将重新回归算法效率与数据质量,而非单纯依赖算力堆叠。

以下是基于技术与行业维度的深入剖析:


一、 中心观点与支撑理由

中心观点:AI 行业正在经历从“以模型为中心”向“以数据和应用为中心”的范式转移,Scaling Law(缩放定律)在推理阶段和特定垂直领域将展现新的生命力,而地缘政治因素将促使技术栈出现分化。

支撑理由:

  1. 预训练的边际效应递减与后训练的崛起

    • [事实陈述]:随着基础模型能力的基线提高,单纯增加预训练算力的性价比在下降。
    • [作者观点]:Nathan Lambert(后训练专家)可能会强调,未来的决胜点在于 RLHF(基于人类反馈的强化学习)、RLAIF(AI反馈)以及合成数据的生成。2026年,模型的“性格”、“安全性”及“指令遵循能力”将比单纯的知识记忆更具商业价值。
    • [你的推断]:这意味着行业对“数据工程师”和“算法微调专家”的需求将超过“算力基础设施专家”。
  2. 推理模型与 Agentic Workflow 的成熟

    • [事实陈述]:OpenAI o1 等模型证明了“思考时间”可以换取更高的智能水平。
    • [作者观点]:Sebastian Raschka(教育者/工程师)倾向于认为,未来的编程不是生成一行代码,而是生成能够自我修正、调试的 Agent 工作流。AI 将从“聊天机器人”进化为“问题解决者”。
    • [你的推断]:软件工程的核心将转变为定义目标、设计工作流以及验证 Agent 的输出,而非手写底层逻辑。
  3. 地缘政治驱动的硬件与模型生态分化

    • [事实陈述]:美国对华高端 GPU(如 H100)禁令持续收紧。
    • [作者观点]:文章标题中的“China”暗示了中国将被迫走出一条不同的技术路径。这不仅仅是算力限制,更是算法创新。
    • [你的推断]:中国将引领“低算力优化”技术,例如 MoE(混合专家模型)的极致压缩、端侧模型的大规模部署以及非 NVIDIA 架构(如华为昇腾、国产 CUDA 替代品)的软件栈成熟。

反例 / 边界条件:

  1. Scaling Law 仍未失效:如果 GPT-5 或 Claude 4 通过单纯扩大参数量实现了 AGI(通用人工智能),那么上述关于“后训练重要性”的讨论将变得次要,基础模型的垄断地位将更加不可撼动。
  2. 推理成本过高:如果 Thinking Models(推理模型)的延迟和成本无法大幅下降,它们将难以在 C 端大规模普及,仅能停留在 B 端专业领域,导致 Agents 的商业化落地速度慢于预期。

二、 维度深入评价

1. 内容深度:从“炼丹”到“工程”的深刻洞察

评价:高。 文章的深度在于它跳出了“模型参数量”的军备竞赛叙事。作为《The RLHF Book》和《Build a LLM From Scratch》的作者,两位作者通常不谈论空泛的未来学,而是关注工程化落地

  • 论证严谨性:他们关于“后训练”的讨论基于当前 LLM 训练流程中成本占比的变化(预训练成本占比下降,对齐和推理成本占比上升)。
  • 批判性思考:文章可能会指出,单纯依赖合成数据可能导致“模型崩溃”,因此如何高质量地生成数据是深水区。

2. 实用价值:工程师的生存指南

评价:极高。 对于从业者而言,这篇文章的价值在于指明了技能树的迁移方向。

  • 指导意义:不要只盯着做大模型,要关注如何让小模型(SLM)在特定任务上表现更好;不要只关注 Prompt,要关注 RAG(检索增强生成)和 Agent 的架构设计。
  • 案例结合:例如,Sebastian 经常提到的 Llama 架构细节分析,能帮助工程师理解如何在受限算力下(如中国环境)优化推理速度。

3. 创新性:旧概念的新组合

评价:中等偏上。 虽然“Agents”和“Scaling Laws”不是新词,但将中国因素后训练作为 2026 年的核心变量是具有前瞻性的。

  • 新观点:提出“Scaling Laws in Post-Training”(后训练阶段的缩放定律),即随着对齐数据的增加,模型性能在特定维度上的提升规律,这比单纯讨论预训练算力更有新意。

4. 行业影响:去中心化与垂直整合

评价:深远。 文章暗示了行业格局的重塑:

  • 去中心化:如果推理和小模型成为主流,云厂商的垄断地位可能会被边缘计算(端侧 AI)削弱。
  • 垂直整合:拥有高质量私有数据的垂直行业巨头(如医疗、金融、代码库)将比通用大模型公司更具护城河,因为他们能提供更好的“后训练

技术分析

基于您提供的标题、摘要以及两位作者(Nathan Lambert 和 Sebastian Raschka)的公开研究重点和近期行业动态,由于我无法直接访问该期播客或文章的逐字稿,我将结合标题中提到的关键主题(LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI)以及作者的专业背景,对这一“2026年AI状态”的预测进行深度重构和分析。

这两位作者分别代表了AI对齐/后训练基础模型工程/教育的顶尖视角。以下是基于这些背景的深度分析:


2026年AI状态深度分析:从缩放定律到智能体

1. 核心观点深度解读

主要观点: 文章的核心论点在于**“AI发展的范式正在从单纯的预训练缩放,转向后训练、推理时计算和系统化智能体的混合优化”。单纯依靠堆砌GPU和数据来提升模型能力的“暴力美学”阶段正在接近边际效益递减的拐点,2026年的AI将更侧重于效率、推理能力(Reasoning)和垂直领域的实际落地**。

核心思想: 作者试图传达的是,虽然Scaling Laws(缩放定律)依然有效,但其定义正在发生变化。未来的进步不再仅仅来自于“更大的模型”,而是来自于“更聪明的使用模型”。这包括:

  1. 推理优先:类似OpenAI o1的推理模型将成为主流,AI通过“思考”而非仅靠概率预测来解决问题。
  2. 智能体化:AI从“聊天机器人”进化为能够自主规划、使用工具(如编程、浏览网页)的智能体。
  3. 地缘政治与硬件:算力(GPU)的分配和地缘政治(特别是中国的独立生态)将成为限制或加速AI发展的关键变量。

观点的创新性与深度: 该观点超越了通用的“AI将改变世界”的宏观论调,深入到了技术架构的演进细节。它指出了2024-2026年期间的关键转折点:即后训练和推理优化的重要性首次超过了预训练模型参数量的增加。

重要性: 这一观点至关重要,因为它纠正了当前行业对于“大模型”的盲目崇拜。它揭示了通往AGI(通用人工智能)的路径可能不是无限的算力堆叠,而是算法效率的质变。这对投资方向、研发策略以及人才需求都有深远的指导意义。

2. 关键技术要点

1. 推理时计算

  • 原理:在生成最终答案前,模型生成多个思维链或进行自我博弈/探索,利用更多的计算资源来换取更高的推理质量。
  • 实现:通过强化学习(RL)让模型学会“思考”,或者通过蒙特卡洛树搜索(MCTS)等技术扩展模型的生成空间。
  • 难点:延迟增加,用户体验变差;推理成本高昂。

2. 智能体架构

  • 原理:LLM不再仅仅是文本生成器,而是作为控制器的“大脑”,调用外部工具(解释器、搜索引擎、API)。
  • 实现:ReAct模式,规划-行动-观察循环。
  • 创新点:从“参数化知识”向“参数化+工具化知识”转变,解决幻觉问题,实现复杂任务自动化。

3. 缩放定律的演变

  • 技术点:传统的Chinchilla定律(最优计算分配)正在失效。新的定律表明,在推理阶段增加计算量可能比在训练阶段增加更有效。
  • 解决方案:开发更小、但经过专门推理优化的模型,使其在特定任务上超越超大模型。

4. 编程作为AI的原生场景

  • 原理:代码具有严格的逻辑结构,是验证AI推理能力的最佳试金石。
  • 趋势:AI编程助手将从“补全代码”进化为“独立完成功能模块”,甚至重构整个软件工程流程。

3. 实际应用价值

对实际工作的指导意义:

  • 企业策略:企业不应盲目追求部署千亿参数级别的模型,而应关注经过强化学习微调的、具备推理能力的中小型模型(如70B或更小),这些模型在私有化部署和成本控制上更具优势。
  • 研发重点:从“刷榜”转向“解决复杂工作流”。重点开发能够处理多步骤任务的Agent系统,而非单一的问答机器人。

应用场景:

  • 复杂决策支持:利用推理模型进行金融分析、法律合同审查。
  • 自动化软件开发:Devin类工具的普及,初级程序员转型为AI系统审查员。
  • 科学研究:AI Agent自主进行文献阅读和假设验证。

需要注意的问题:

  • 评估难题:传统的静态基准测试(如MMLU)已无法衡量Agent的能力,需要引入动态的、基于结果的评估体系。
  • 安全性:具备自主行动能力的AI带来的风险(如无限循环调用API、数据泄露)远超聊天机器人。

4. 行业影响分析

对行业的启示:

  • 硬件层:推理芯片的市场份额将提升,不仅需要训练用的H100,更需要推理用的LPU/ASIC。
  • 模型层:闭源模型(OpenAI/Anthropic)与开源模型(Llama/Mistral/Qwen)的差距可能在Agent能力上拉开。开源社区需要解决后训练的数据匮乏问题。

可能的变革:

  • 软件工程的重构:代码生成将导致“自然语言编程”的兴起,传统的IDE将集成深度Agent能力。
  • 中国AI的独立路径:由于美国的高端GPU禁令,中国将发展出基于昇腾等国产芯片的软件栈,可能会在算法效率上走出一条不同于美国的极致优化路线。

行业格局: 拥有垂直领域数据和强大工程化能力的公司将胜出。单纯的“模型厂商”可能沦为基础设施提供商,而“应用层Agent公司”将捕获大部分价值。

5. 延伸思考

引发的思考:

  • 数据枯竭:如果高质量文本数据在2026年耗尽,合成数据是否真的能维持Scaling Laws?RLHF(人类反馈强化学习)是否会被RLAIF(AI反馈)完全取代?
  • 能源瓶颈:推理型AI的高能耗是否会限制其大规模普及?

未来趋势:

  • 具身智能与Agent的结合:2026年,Agent大脑将更多地植入到机器人硬件中。
  • 边缘侧AI:为了隐私和延迟,部分推理能力将下沉到手机和PC端。

6. 实践建议

如何应用到项目:

  1. 评估推理模型:在项目中测试o1、DeepSeek-R1或类似推理模型,对比其在复杂逻辑任务上的表现与传统模型。
  2. 构建Agent工作流:不要只做Prompt Engineering,开始学习LangGraph或类似框架,设计“状态机”来管理AI的任务流。
  3. 关注开源生态:特别是Llama和Qwen(阿里千问)系列,学习如何对其进行微调(SFT)以适应特定业务逻辑。

行动建议:

  • 学习RLHF原理:阅读Nathan Lambert的《RLHF Book》,理解模型对齐的机制。
  • 数据工程:建立高质量的领域特定数据集,这是后训练时代的核心资产。

7. 案例分析

成功案例:Devin / Cognition(AI程序员)

  • 分析:它不仅仅生成代码,还管理终端、上下文文件和自我修复。这展示了“Agent”相比“Copilot”的代差优势。
  • 经验:将长任务拆解为可验证的子任务是Agent成功的关键。

失败/挑战案例:早期的AutoGPT

  • 反思:早期的Agent经常陷入死循环或无法完成复杂任务。
  • 教训:仅有LLM是不够的,需要强大的约束机制、规划算法和人类干预接口。

8. 哲学与逻辑:论证地图

中心命题:

到2026年,AI的价值创造将从“预训练模型的参数规模”转向“推理时计算与系统化Agent能力”,且地缘政治因素将导致技术路线出现分化。

支撑理由:

  1. 边际效益递减:随着数据稀缺和算力成本上升,单纯扩大预训练模型尺寸的ROI(投资回报率)正在下降。
  2. 技术突破:OpenAI o1等模型证明了“思考”可以显著提升性能,这比单纯增加参数更高效。
  3. 应用需求:企业客户需要的是能解决复杂工作流、自主执行任务的Agent,而非仅仅是一个聊天伙伴。
  4. 地缘政治:美国对华GPU禁令迫使中国发展独立的、可能更注重算法效率而非暴力堆砌算子的技术生态。

依据:

  • 事实:各大模型公司发布的路线图均强调“推理”和“Agent”。
  • 直觉:人类智能不仅取决于大脑神经元数量,更取决于思维方法和工具使用,AI同理。

反例 / 边界条件:

  1. Scaling Law未死:如果GPT-5或类似模型通过巨大的参数量实现了AGI,那么Agent路线可能只是过渡。
  2. 推理成本过高:如果推理时计算的成本始终无法降下来,商业应用可能会被迫回退到更小、更笨但更便宜的模型。

命题性质分析:

  • 事实:GPU短缺、中国发展自主芯片、现有模型架构的演变。
  • 价值判断:认为“Agent”比“Chat”更有价值。
  • 可检验预测:2026年,最顶尖的AI模型在推理阶段消耗的算力将超过训练阶段;大多数AI初创公司的产品将包含Agent功能。

我的立场与验证方式:

  • 立场:支持该命题。我认为2026年是“AI应用元年”,而非“大模型参数元年”。
  • 验证方式
    • 指标:观察SOTA模型在ARC-AGI(推理能力基准)上的得分是否随推理时间线性增长。
    • 观察:GitHub上Star最多的开源项目是否从LLM推理框架转向Agent框架。
    • 实验:在相同任务下,对比70B参数的推理模型与千亿参数的非推理模型的效果差异。

最佳实践

最佳实践指南

实践 1:构建混合智能架构

说明: 随着Scaling Laws(缩放定律)的演进,单纯依赖模型参数提升已触及边际效益递减的临界点。最佳实践转向"推理时计算"(Inference-time Compute),即通过混合架构结合大模型的泛化能力与小模型的专用性,并集成搜索与工具调用功能,而非单纯追求最大参数规模。

实施步骤:

  1. 评估业务场景,区分需要深度推理(由大模型处理)和高频低延迟任务(由小模型处理)。
  2. 部署模型路由层,根据任务复杂度动态分配计算资源。
  3. 集成RAG(检索增强生成)和外部工具接口,减少模型幻觉并提升时效性。

注意事项: 避免过度依赖单一巨型模型,应关注Token的边际产出率,优化推理成本与响应速度的平衡。


实践 2:建立AI原生的代码工程体系

说明: LLM在编程领域的应用已从代码补全升级为系统重构与生成。最佳实践要求开发团队从"人写代码"转向"人机协作",利用AI Agents(智能体)处理从设计、编码到测试的全生命周期,重点在于提升代码审查能力和系统级架构设计,而非单纯的编码速度。

实施步骤:

  1. 引入AI辅助编程工具(如Cursor或GitHub Copilot Workspace),并制定相应的安全规范。
  2. 建立以AI生成的测试用例为核心的自动化测试流程,确保代码质量。
  3. 培训开发者成为"架构师"和"审查者",专注于业务逻辑与AI生成代码的验证。

注意事项: 必须建立严格的代码扫描与合规性检查机制,防止AI引入安全漏洞或受污染的开源代码许可证问题。


实践 3:实施多模型与多云基础设施策略

说明: 鉴于地缘政治对AI供应链的影响(特别是中美在GPU与高端算力上的博弈)以及模型能力的快速迭代,单一依赖特定供应商或特定国家的基础设施存在巨大风险。最佳实践是构建跨云、跨模型的弹性架构,确保算力与算法的持续可用性。

实施步骤:

  1. 设计与云服务商无关的模型接口层,实现模型之间的热切换。
  2. 在合规框架下,建立分布式的算力资源调度体系,平衡本地部署与云端API调用。
  3. 持续监控开源模型(如Llama, DeepSeek等)的进展,准备私有化部署方案以降低API依赖风险。

注意事项: 需密切关注数据跨境传输的合规性要求,特别是在涉及不同司法管辖区的数据存储与处理时。


实践 4:从单一对话转向多智能体协作

说明: 2026年的AI应用将不再局限于单轮对话,而是多个具备特定角色的Agent协同工作以解决复杂问题。最佳实践是将复杂业务流程拆解,由专门的Agent负责规划、执行、验证和反思,形成自动化工作流。

实施步骤:

  1. 识别业务中可标准化的工作流,将其拆解为规划、工具使用、验证等子任务。
  2. 构建多智能体框架(如基于LangGraph或AutoGen),定义各Agent的权限与通信协议。
  3. 引入"监督者"模式,由高级模型或人工介入处理低置信度的决策冲突。

注意事项: 需要设计完善的"停止机制"和"人机回环"(Human-in-the-loop),防止Agent在循环逻辑中无限运行或产生不可控的操作。


实践 5:加速数据资产的结构化与私有化

说明: 随着基础模型能力的趋同,数据质量成为决定竞争力的关键要素。通用预训练的重要性下降,而针对特定领域的后训练和微调变得至关重要。最佳实践是将企业内部非结构化数据转化为高质量的结构化数据集。

实施步骤:

  1. 建立数据治理流水线,清洗并标准化企业内部的文档、代码库和交互日志。
  2. 构建用于评估模型性能的"黄金数据集",确保微调方向与业务目标一致。
  3. 实施合成数据生成策略,利用模型生成高质量的训练数据以弥补真实数据的不足。

注意事项: 严格区分训练数据与推理数据,防止数据泄露,并确保用于微调的数据不包含受版权保护或隐私敏感的信息。


实践 6:培养AI适应力与伦理治理

说明: 在AGI(通用人工智能)愿景逐渐清晰的背景下,组织面临的最大风险并非技术本身,而是人才与文化的滞后。最佳实践是建立全员AI素养,并制定前瞻性的伦理治理框架,以应对模型偏见、Deepfakes(深度伪造)及自动化带来的社会影响。

实施步骤:

  1. 定期开展AI技能培训,涵盖提示词工程、批判性思维及AI工具的安全使用。
  2. 建立AI伦理委员会,制定AI使用的红线政策(如禁止冒充人类、禁止自动化攻击)。
  3. 引入内容溯源技术(如数字水印

学习要点

  • 2026年AI发展的核心在于从单纯的大语言模型(LLM)向具备自主规划与执行能力的智能体(Agents)转变,这将极大扩展AI在实际工作流中的应用边界。
  • 算力基础设施(特别是GPU)的供应紧张与高昂成本仍是行业最大瓶颈,导致推理成本和模型访问价格居高不下,迫使厂商更积极地追求模型效率与算法优化。
  • 预训练的“缩放定律”虽然仍在生效,但边际效益正在递减,行业重心正从单纯追求参数规模转向高质量数据合成、推理时计算以及后训练阶段的强化学习(RL)。
  • AI编程助手已从简单的代码补全进化为能够独立完成复杂任务(如重构、测试、调试)的“虚拟工程师”,这将从根本上重塑软件生产力的经济模型。
  • 中国在面临美国高端芯片出口管制的背景下,正通过构建自主可控的算力生态和大力发展垂直行业应用模型,走出一条与美国不同的本土化AI发展路径。
  • 通用人工智能(AGI)的定义正从静态的学术基准测试转向更具实用性的“经济有用性”标准,即AI能否在复杂任务中可靠地替代人类劳动并创造商业价值。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章