2026年AI展望：LLM、智能体、扩展定律与中国角色

基本信息

来源: Lex Fridman Podcast (podcast)
发布时间: 2026-02-01T02:46:43+00:00
链接: https://lexfridman.com/ai-sota-2026
音频: https://media.blubrry.com/takeituneasy/ins.blubrry.com/takeituneasy/lex_ai_ai_sota_2026.mp3

摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所的后训练负责人，也是《The RLHF Book》的作者。Sebastian Raschka 是《从零构建大语言模型》和《从零构建推理模型》的作者。感谢您的收听 ❤ 查看我们的赞助商：https://lexfridman.com/sponsors/ep490-sc 下方提供时间戳、文字稿，以及提供反馈、提交问题、联系 Lex 等方式。文字稿：https://lexfridman.com/ai-sota-2026-transcript 联系 Lex：反馈 – 向 Lex 提供反馈：https://lexfridman.com/survey AMA – 提交问题、视频或来电：https://lexfridman.com/ama 招聘 – 加入我们的团队：https://lexfridman.com/hiring 其他 – 其他联系方式：https://lexfridman.com/contact 赞助商：支持本播客，请查看我们的赞助商并获取折扣： Box：智能内容管理平台。请访问 https://box.com/ai Quo：企业电话系统（通话、短信、联系人）。请访问 https://quo.com/lex UPLIFT Desk：站立式办公桌和办公人体工学。请访问 https://upliftdesk.com/lex Fin：客服 AI 智能体。请访问 https://fin.ai/lex Shopify：在线销售平台。请访问 https://shopify.com/lex CodeRabbit：AI 驱动的代码审查。请访问 https://coderabbit.ai/lex LMNT：零糖电解质冲剂。请访问 https://drinkLMNT.com/lex Perplexity：AI 驱动的答案引擎。请访问 https://perplexity.ai/ 大纲： (00:00) – 介绍 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国：谁将赢得 AI 竞赛？ (25:11) – ChatGPT vs Claude vs Gemini vs Grok：谁目前领先？ (36:11) – 编程最佳 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformers：2019 年以来 LLM 的演进 (1:02:38) – AI 扩展定律：是已失效还是依然适用？ (1:18:45) – AI 的训练方式：预训练、中期训练与后训练 (1:51:51) – 后训练详解：令人兴奋的新研究方向

导语

随着大模型技术的快速迭代，2026 年的 AI 发展路径正变得愈发清晰。本期对话邀请了 Nathan Lambert 和 Sebastian Raschka 两位资深研究员，围绕 Scaling Laws、智能体演进以及中国 AI 生态等核心议题展开深入探讨。文章将结合他们的工程实践与前沿洞察，为您剖析从底层算力到应用落地的关键趋势，助您厘清技术演进背后的真实逻辑。

摘要

以下是Lex Fridman播客第490期内容的中文简洁总结：

本期主题：2026年AI现状展望 本期嘉宾是机器学习研究员兼作者Nathan Lambert（Ai2后训练负责人、《RLHF Book》作者）和Sebastian Raschka（《从零构建大语言模型》作者）。两人与Lex Fridman深入探讨了当前AI领域的关键议题及未来趋势。

主要讨论内容：

地缘政治与竞争格局
- 中美AI竞赛：探讨了中国与美国在AI领域的博弈，分析双方在算力、数据和算法上的优劣势。
- 大模型之争：对比了ChatGPT、Claude、Gemini和Grok等主流模型的表现与市场地位。
技术演进与开发
- AI编程：评估了目前最适合编程的AI工具。
- 开源与闭源：讨论了开源LLM与闭源模型之间的竞争，以及开源模式在推动AI发展中的作用。
- 架构演变：回顾了Transformer架构自2019年以来的进化历程。
核心法则与训练方法
- 扩展定律：讨论了AI算力扩展定律是否依然有效，还是已经遭遇瓶颈。
- 训练全流程：详细解释了AI训练的三个阶段：预训练、中期训练和后训练，重点介绍了后训练领域激动人心的最新研究方向。

核心评价

这篇文章代表了当前 AI 研究界“技术现实主义”流派的声音，其核心观点在于：2026年的AI行业将从“暴力美学”的预训练竞赛，转向“精细化”的后训练、推理优化与具身智能应用，行业焦点将重新回归算法效率与数据质量，而非单纯依赖算力堆叠。

以下是基于技术与行业维度的深入剖析：

一、中心观点与支撑理由

中心观点：AI 行业正在经历从“以模型为中心”向“以数据和应用为中心”的范式转移，Scaling Law（缩放定律）在推理阶段和特定垂直领域将展现新的生命力，而地缘政治因素将促使技术栈出现分化。

支撑理由：

预训练的边际效应递减与后训练的崛起
- [事实陈述]：随着基础模型能力的基线提高，单纯增加预训练算力的性价比在下降。
- [作者观点]：Nathan Lambert（后训练专家）可能会强调，未来的决胜点在于 RLHF（基于人类反馈的强化学习）、RLAIF（AI反馈）以及合成数据的生成。2026年，模型的“性格”、“安全性”及“指令遵循能力”将比单纯的知识记忆更具商业价值。
- [你的推断]：这意味着行业对“数据工程师”和“算法微调专家”的需求将超过“算力基础设施专家”。
推理模型与 Agentic Workflow 的成熟
- [事实陈述]：OpenAI o1 等模型证明了“思考时间”可以换取更高的智能水平。
- [作者观点]：Sebastian Raschka（教育者/工程师）倾向于认为，未来的编程不是生成一行代码，而是生成能够自我修正、调试的 Agent 工作流。AI 将从“聊天机器人”进化为“问题解决者”。
- [你的推断]：软件工程的核心将转变为定义目标、设计工作流以及验证 Agent 的输出，而非手写底层逻辑。
地缘政治驱动的硬件与模型生态分化
- [事实陈述]：美国对华高端 GPU（如 H100）禁令持续收紧。
- [作者观点]：文章标题中的“China”暗示了中国将被迫走出一条不同的技术路径。这不仅仅是算力限制，更是算法创新。
- [你的推断]：中国将引领“低算力优化”技术，例如 MoE（混合专家模型）的极致压缩、端侧模型的大规模部署以及非 NVIDIA 架构（如华为昇腾、国产 CUDA 替代品）的软件栈成熟。

反例 / 边界条件：

Scaling Law 仍未失效：如果 GPT-5 或 Claude 4 通过单纯扩大参数量实现了 AGI（通用人工智能），那么上述关于“后训练重要性”的讨论将变得次要，基础模型的垄断地位将更加不可撼动。
推理成本过高：如果 Thinking Models（推理模型）的延迟和成本无法大幅下降，它们将难以在 C 端大规模普及，仅能停留在 B 端专业领域，导致 Agents 的商业化落地速度慢于预期。

二、维度深入评价

1. 内容深度：从“炼丹”到“工程”的深刻洞察

评价：高。文章的深度在于它跳出了“模型参数量”的军备竞赛叙事。作为《The RLHF Book》和《Build a LLM From Scratch》的作者，两位作者通常不谈论空泛的未来学，而是关注工程化落地。

论证严谨性：他们关于“后训练”的讨论基于当前 LLM 训练流程中成本占比的变化（预训练成本占比下降，对齐和推理成本占比上升）。
批判性思考：文章可能会指出，单纯依赖合成数据可能导致“模型崩溃”，因此如何高质量地生成数据是深水区。

2. 实用价值：工程师的生存指南

评价：极高。对于从业者而言，这篇文章的价值在于指明了技能树的迁移方向。

指导意义：不要只盯着做大模型，要关注如何让小模型（SLM）在特定任务上表现更好；不要只关注 Prompt，要关注 RAG（检索增强生成）和 Agent 的架构设计。
案例结合：例如，Sebastian 经常提到的 Llama 架构细节分析，能帮助工程师理解如何在受限算力下（如中国环境）优化推理速度。

3. 创新性：旧概念的新组合

评价：中等偏上。虽然“Agents”和“Scaling Laws”不是新词，但将中国因素和后训练作为 2026 年的核心变量是具有前瞻性的。

新观点：提出“Scaling Laws in Post-Training”（后训练阶段的缩放定律），即随着对齐数据的增加，模型性能在特定维度上的提升规律，这比单纯讨论预训练算力更有新意。

4. 行业影响：去中心化与垂直整合

评价：深远。文章暗示了行业格局的重塑：

去中心化：如果推理和小模型成为主流，云厂商的垄断地位可能会被边缘计算（端侧 AI）削弱。
垂直整合：拥有高质量私有数据的垂直行业巨头（如医疗、金融、代码库）将比通用大模型公司更具护城河，因为他们能提供更好的“后训练

技术分析

基于您提供的标题、摘要以及两位作者（Nathan Lambert 和 Sebastian Raschka）的公开研究重点和近期行业动态，由于我无法直接访问该期播客或文章的逐字稿，我将结合标题中提到的关键主题（LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI）以及作者的专业背景，对这一“2026年AI状态”的预测进行深度重构和分析。

这两位作者分别代表了AI对齐/后训练和基础模型工程/教育的顶尖视角。以下是基于这些背景的深度分析：

2026年AI状态深度分析：从缩放定律到智能体

1. 核心观点深度解读

主要观点： 文章的核心论点在于**“AI发展的范式正在从单纯的预训练缩放，转向后训练、推理时计算和系统化智能体的混合优化”。单纯依靠堆砌GPU和数据来提升模型能力的“暴力美学”阶段正在接近边际效益递减的拐点，2026年的AI将更侧重于效率、推理能力（Reasoning）和垂直领域的实际落地**。

核心思想： 作者试图传达的是，虽然Scaling Laws（缩放定律）依然有效，但其定义正在发生变化。未来的进步不再仅仅来自于“更大的模型”，而是来自于“更聪明的使用模型”。这包括：

推理优先：类似OpenAI o1的推理模型将成为主流，AI通过“思考”而非仅靠概率预测来解决问题。
智能体化：AI从“聊天机器人”进化为能够自主规划、使用工具（如编程、浏览网页）的智能体。
地缘政治与硬件：算力（GPU）的分配和地缘政治（特别是中国的独立生态）将成为限制或加速AI发展的关键变量。

观点的创新性与深度： 该观点超越了通用的“AI将改变世界”的宏观论调，深入到了技术架构的演进细节。它指出了2024-2026年期间的关键转折点：即后训练和推理优化的重要性首次超过了预训练模型参数量的增加。

重要性： 这一观点至关重要，因为它纠正了当前行业对于“大模型”的盲目崇拜。它揭示了通往AGI（通用人工智能）的路径可能不是无限的算力堆叠，而是算法效率的质变。这对投资方向、研发策略以及人才需求都有深远的指导意义。

2. 关键技术要点

1. 推理时计算

原理：在生成最终答案前，模型生成多个思维链或进行自我博弈/探索，利用更多的计算资源来换取更高的推理质量。
实现：通过强化学习（RL）让模型学会“思考”，或者通过蒙特卡洛树搜索（MCTS）等技术扩展模型的生成空间。
难点：延迟增加，用户体验变差；推理成本高昂。

2. 智能体架构

原理：LLM不再仅仅是文本生成器，而是作为控制器的“大脑”，调用外部工具（解释器、搜索引擎、API）。
实现：ReAct模式，规划-行动-观察循环。
创新点：从“参数化知识”向“参数化+工具化知识”转变，解决幻觉问题，实现复杂任务自动化。

3. 缩放定律的演变

技术点：传统的Chinchilla定律（最优计算分配）正在失效。新的定律表明，在推理阶段增加计算量可能比在训练阶段增加更有效。
解决方案：开发更小、但经过专门推理优化的模型，使其在特定任务上超越超大模型。

4. 编程作为AI的原生场景

原理：代码具有严格的逻辑结构，是验证AI推理能力的最佳试金石。
趋势：AI编程助手将从“补全代码”进化为“独立完成功能模块”，甚至重构整个软件工程流程。

3. 实际应用价值

对实际工作的指导意义：

企业策略：企业不应盲目追求部署千亿参数级别的模型，而应关注经过强化学习微调的、具备推理能力的中小型模型（如70B或更小），这些模型在私有化部署和成本控制上更具优势。
研发重点：从“刷榜”转向“解决复杂工作流”。重点开发能够处理多步骤任务的Agent系统，而非单一的问答机器人。

应用场景：

复杂决策支持：利用推理模型进行金融分析、法律合同审查。
自动化软件开发：Devin类工具的普及，初级程序员转型为AI系统审查员。
科学研究：AI Agent自主进行文献阅读和假设验证。

需要注意的问题：

评估难题：传统的静态基准测试（如MMLU）已无法衡量Agent的能力，需要引入动态的、基于结果的评估体系。
安全性：具备自主行动能力的AI带来的风险（如无限循环调用API、数据泄露）远超聊天机器人。

4. 行业影响分析

对行业的启示：

硬件层：推理芯片的市场份额将提升，不仅需要训练用的H100，更需要推理用的LPU/ASIC。
模型层：闭源模型（OpenAI/Anthropic）与开源模型（Llama/Mistral/Qwen）的差距可能在Agent能力上拉开。开源社区需要解决后训练的数据匮乏问题。

可能的变革：

软件工程的重构：代码生成将导致“自然语言编程”的兴起，传统的IDE将集成深度Agent能力。
中国AI的独立路径：由于美国的高端GPU禁令，中国将发展出基于昇腾等国产芯片的软件栈，可能会在算法效率上走出一条不同于美国的极致优化路线。

行业格局： 拥有垂直领域数据和强大工程化能力的公司将胜出。单纯的“模型厂商”可能沦为基础设施提供商，而“应用层Agent公司”将捕获大部分价值。

5. 延伸思考

引发的思考：

数据枯竭：如果高质量文本数据在2026年耗尽，合成数据是否真的能维持Scaling Laws？RLHF（人类反馈强化学习）是否会被RLAIF（AI反馈）完全取代？
能源瓶颈：推理型AI的高能耗是否会限制其大规模普及？

未来趋势：

具身智能与Agent的结合：2026年，Agent大脑将更多地植入到机器人硬件中。
边缘侧AI：为了隐私和延迟，部分推理能力将下沉到手机和PC端。

6. 实践建议

如何应用到项目：

评估推理模型：在项目中测试o1、DeepSeek-R1或类似推理模型，对比其在复杂逻辑任务上的表现与传统模型。
构建Agent工作流：不要只做Prompt Engineering，开始学习LangGraph或类似框架，设计“状态机”来管理AI的任务流。
关注开源生态：特别是Llama和Qwen（阿里千问）系列，学习如何对其进行微调（SFT）以适应特定业务逻辑。

行动建议：

学习RLHF原理：阅读Nathan Lambert的《RLHF Book》，理解模型对齐的机制。
数据工程：建立高质量的领域特定数据集，这是后训练时代的核心资产。

7. 案例分析

成功案例：Devin / Cognition（AI程序员）

分析：它不仅仅生成代码，还管理终端、上下文文件和自我修复。这展示了“Agent”相比“Copilot”的代差优势。
经验：将长任务拆解为可验证的子任务是Agent成功的关键。

失败/挑战案例：早期的AutoGPT

反思：早期的Agent经常陷入死循环或无法完成复杂任务。
教训：仅有LLM是不够的，需要强大的约束机制、规划算法和人类干预接口。

8. 哲学与逻辑：论证地图

中心命题:

到2026年，AI的价值创造将从“预训练模型的参数规模”转向“推理时计算与系统化Agent能力”，且地缘政治因素将导致技术路线出现分化。

支撑理由:

边际效益递减：随着数据稀缺和算力成本上升，单纯扩大预训练模型尺寸的ROI（投资回报率）正在下降。
技术突破：OpenAI o1等模型证明了“思考”可以显著提升性能，这比单纯增加参数更高效。
应用需求：企业客户需要的是能解决复杂工作流、自主执行任务的Agent，而非仅仅是一个聊天伙伴。
地缘政治：美国对华GPU禁令迫使中国发展独立的、可能更注重算法效率而非暴力堆砌算子的技术生态。

依据:

事实：各大模型公司发布的路线图均强调“推理”和“Agent”。
直觉：人类智能不仅取决于大脑神经元数量，更取决于思维方法和工具使用，AI同理。

反例 / 边界条件:

Scaling Law未死：如果GPT-5或类似模型通过巨大的参数量实现了AGI，那么Agent路线可能只是过渡。
推理成本过高：如果推理时计算的成本始终无法降下来，商业应用可能会被迫回退到更小、更笨但更便宜的模型。

命题性质分析:

事实：GPU短缺、中国发展自主芯片、现有模型架构的演变。
价值判断：认为“Agent”比“Chat”更有价值。
可检验预测：2026年，最顶尖的AI模型在推理阶段消耗的算力将超过训练阶段；大多数AI初创公司的产品将包含Agent功能。

我的立场与验证方式:

立场：支持该命题。我认为2026年是“AI应用元年”，而非“大模型参数元年”。
验证方式：
- 指标：观察SOTA模型在ARC-AGI（推理能力基准）上的得分是否随推理时间线性增长。
- 观察：GitHub上Star最多的开源项目是否从LLM推理框架转向Agent框架。
- 实验：在相同任务下，对比70B参数的推理模型与千亿参数的非推理模型的效果差异。

最佳实践

最佳实践指南

实践 1：构建混合智能架构

说明: 随着Scaling Laws（缩放定律）的演进，单纯依赖模型参数提升已触及边际效益递减的临界点。最佳实践转向"推理时计算"（Inference-time Compute），即通过混合架构结合大模型的泛化能力与小模型的专用性，并集成搜索与工具调用功能，而非单纯追求最大参数规模。

实施步骤:

评估业务场景，区分需要深度推理（由大模型处理）和高频低延迟任务（由小模型处理）。
部署模型路由层，根据任务复杂度动态分配计算资源。
集成RAG（检索增强生成）和外部工具接口，减少模型幻觉并提升时效性。

注意事项: 避免过度依赖单一巨型模型，应关注Token的边际产出率，优化推理成本与响应速度的平衡。

实践 2：建立AI原生的代码工程体系

说明: LLM在编程领域的应用已从代码补全升级为系统重构与生成。最佳实践要求开发团队从"人写代码"转向"人机协作"，利用AI Agents（智能体）处理从设计、编码到测试的全生命周期，重点在于提升代码审查能力和系统级架构设计，而非单纯的编码速度。

实施步骤:

引入AI辅助编程工具（如Cursor或GitHub Copilot Workspace），并制定相应的安全规范。
建立以AI生成的测试用例为核心的自动化测试流程，确保代码质量。
培训开发者成为"架构师"和"审查者"，专注于业务逻辑与AI生成代码的验证。

注意事项: 必须建立严格的代码扫描与合规性检查机制，防止AI引入安全漏洞或受污染的开源代码许可证问题。

实践 3：实施多模型与多云基础设施策略

说明: 鉴于地缘政治对AI供应链的影响（特别是中美在GPU与高端算力上的博弈）以及模型能力的快速迭代，单一依赖特定供应商或特定国家的基础设施存在巨大风险。最佳实践是构建跨云、跨模型的弹性架构，确保算力与算法的持续可用性。

实施步骤:

设计与云服务商无关的模型接口层，实现模型之间的热切换。
在合规框架下，建立分布式的算力资源调度体系，平衡本地部署与云端API调用。
持续监控开源模型（如Llama, DeepSeek等）的进展，准备私有化部署方案以降低API依赖风险。

注意事项: 需密切关注数据跨境传输的合规性要求，特别是在涉及不同司法管辖区的数据存储与处理时。

实践 4：从单一对话转向多智能体协作

说明: 2026年的AI应用将不再局限于单轮对话，而是多个具备特定角色的Agent协同工作以解决复杂问题。最佳实践是将复杂业务流程拆解，由专门的Agent负责规划、执行、验证和反思，形成自动化工作流。

实施步骤:

识别业务中可标准化的工作流，将其拆解为规划、工具使用、验证等子任务。
构建多智能体框架（如基于LangGraph或AutoGen），定义各Agent的权限与通信协议。
引入"监督者"模式，由高级模型或人工介入处理低置信度的决策冲突。

注意事项: 需要设计完善的"停止机制"和"人机回环"（Human-in-the-loop），防止Agent在循环逻辑中无限运行或产生不可控的操作。

实践 5：加速数据资产的结构化与私有化

说明: 随着基础模型能力的趋同，数据质量成为决定竞争力的关键要素。通用预训练的重要性下降，而针对特定领域的后训练和微调变得至关重要。最佳实践是将企业内部非结构化数据转化为高质量的结构化数据集。

实施步骤:

建立数据治理流水线，清洗并标准化企业内部的文档、代码库和交互日志。
构建用于评估模型性能的"黄金数据集"，确保微调方向与业务目标一致。
实施合成数据生成策略，利用模型生成高质量的训练数据以弥补真实数据的不足。

注意事项: 严格区分训练数据与推理数据，防止数据泄露，并确保用于微调的数据不包含受版权保护或隐私敏感的信息。

实践 6：培养AI适应力与伦理治理

说明: 在AGI（通用人工智能）愿景逐渐清晰的背景下，组织面临的最大风险并非技术本身，而是人才与文化的滞后。最佳实践是建立全员AI素养，并制定前瞻性的伦理治理框架，以应对模型偏见、Deepfakes（深度伪造）及自动化带来的社会影响。

实施步骤:

定期开展AI技能培训，涵盖提示词工程、批判性思维及AI工具的安全使用。
建立AI伦理委员会，制定AI使用的红线政策（如禁止冒充人类、禁止自动化攻击）。
引入内容溯源技术（如数字水印

学习要点

2026年AI发展的核心在于从单纯的大语言模型（LLM）向具备自主规划与执行能力的智能体（Agents）转变，这将极大扩展AI在实际工作流中的应用边界。
算力基础设施（特别是GPU）的供应紧张与高昂成本仍是行业最大瓶颈，导致推理成本和模型访问价格居高不下，迫使厂商更积极地追求模型效率与算法优化。
预训练的“缩放定律”虽然仍在生效，但边际效益正在递减，行业重心正从单纯追求参数规模转向高质量数据合成、推理时计算以及后训练阶段的强化学习（RL）。
AI编程助手已从简单的代码补全进化为能够独立完成复杂任务（如重构、测试、调试）的“虚拟工程师”，这将从根本上重塑软件生产力的经济模型。
中国在面临美国高端芯片出口管制的背景下，正通过构建自主可控的算力生态和大力发展垂直行业应用模型，走出一条与美国不同的本土化AI发展路径。
通用人工智能（AGI）的定义正从静态的学术基准测试转向更具实用性的“经济有用性”标准，即AI能否在复杂任务中可靠地替代人类劳动并创造商业价值。

引用

文章/节目: https://lexfridman.com/ai-sota-2026
音频: https://media.blubrry.com/takeituneasy/ins.blubrry.com/takeituneasy/lex_ai_ai_sota_2026.mp3
RSS 源: https://lexfridman.com/feed/podcast/

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / AI 工程
标签： LLM / 智能体 / 扩展定律 / AI编程 / 开源生态 / 后训练 / Transformer / 中美AI竞争
场景：大语言模型 / AI/ML项目

AGENTS.md 架构在智能体评估中超越 Skills 技能
2026年AI展望：LLM、智能体、缩放定律与中国发展
迈向智能体系统规模化科学：工作原理与适用条件
Agent Skills：压缩智能体技能以提升模型效率
OpenAI内部数据智能体：自动化分析SQL数据库 本文由 AI Stack 自动生成，包含深度分析与方法论思考。

2026年AI展望：LLM、智能体、扩展定律与中国角色