2026年AI展望:LLM、智能体、扩展定律与中国角色


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所的后训练负责人,也是《The RLHF Book》的作者。Sebastian Raschka 是《从零构建大语言模型》和《从零构建推理模型》的作者。感谢收听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc

查看下方以获取时间戳、文字稿,以及提供反馈、提交问题、联系 Lex 等。

文字稿:https://lexfridman.com/ai-sota-2026-transcript

联系 LEX: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或致电:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact

赞助商: 若要支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。访问 https://upliftdesk.com/lex Fin:面向客户服务的 AI 代理。访问 https://fin.ai/lex Shopify:在线销售商品。访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。访问 https://coderabbit.ai/lex LMNT:零糖电解质冲饮。访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。访问 https://perplexity.ai/

大纲: (00:00) – 简介 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁将赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁目前领先? (36:11) – 最适合编程的 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformer:自 2019 年以来 LLM 的演进 (1:02:38) – AI 扩展定律:已失效还是依然有效? (1:18:45) – AI 如何训练:预训练、中期训练和后训练 (1:51:51) – 后训练详解:激动人心的研究新方向


导语

随着大语言模型与算力技术的快速迭代,2026 年的人工智能格局正面临重塑。本期对话邀请了机器学习领域的资深专家,深入剖析 Scaling Laws 的演进、智能体的落地应用以及全球算力竞争等核心议题。无论你是关注前沿技术的研究者,还是希望把握行业趋势的从业者,都能从中获得关于 AGI 发展路径与工程实践的深刻见解。


摘要

根据提供的文本,这是对 Lex Fridman 播客第 490 期节目的总结,主题是探讨 2026 年人工智能(AI)的发展状态。以下是核心内容的中文总结:

1. 嘉宾背景 本期节目邀请了两位资深机器学习研究者:

  • Nathan Lambert:艾伦人工智能研究所 的后训练负责人,也是《RLHF Book》的作者。
  • Sebastian Raschka:著有《从零构建大语言模型》和《从零构建推理模型》,也是教育者。

2. 核心议题大纲 节目通过多个维度深入分析了当前 AI 领域的关键竞争与发展趋势:

  • 地缘政治竞争:探讨了中国与美国在 AI 领域的竞赛,分析谁能最终胜出。
  • 模型竞争格局:比较了目前主流的大模型 ChatGPT、Claude、Gemini 和 Grok 的优劣势及当前的市场地位。
  • AI 编程能力:讨论了目前在编程领域表现最佳的 AI 工具和模型。
  • 开源 vs 闭源:辩论了开源大语言模型与闭源模型之间的竞争与未来发展。
  • 技术演进:回顾了 Transformer 架构自 2019 年以来的演变历程。
  • 扩展定律:讨论了 AI 的“扩展定律”是否依然有效,还是已经失效。
  • 训练流程:详细解析了 AI 的训练步骤,包括预训练、中训练 和后训练。
  • 后训练前沿:深入探讨了后训练阶段令人兴奋的新研究方向。

该节目为听众提供了关于 AI 技术现状、模型能力差异以及未来训练方法的全面视角。


评论

基于文章标题《#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI》及其作者背景(Nathan Lambert 和 Sebastian Raschka,均为一线实战派与教育者),以下是从技术与行业角度的深入评价。

一、 核心观点

文章主张:AI 发展正从“暴力美学”的预训练 Scaling Law(缩放定律)单轮驱动,转向“后训练”与“推理算力”驱动的多极化时代,其中 Agent 智能体与推理优化将成为打破 LLM 天花板、实现 AGI 愿景的关键路径,而地缘政治将重塑这一进程的物理基础。

二、 深度评价与支撑理由

1. 内容深度:从“大力出奇迹”到“巧劲”的范式转移

  • 支撑理由: 两位作者并非纯粹的象牙塔学者,而是深谙工程实现的专家(Lamert 擅长 RLHF,Raschka 擅长底层架构)。[你的推断] 文章极有可能超越了单纯的“模型参数量”比拼,深入探讨了 Post-training(后训练) 的边际效应递减问题。关于“Scaling Laws”的讨论,可能不再局限于预训练阶段的 Data + Compute,而是转向 Inference-time Compute(推理时计算)的扩展。这触及了当前 OpenAI o1 等模型的核心逻辑——即通过在推理阶段投入更多算力来换取逻辑能力的提升,论证具有极高的技术严谨性。
  • 反例/边界条件: [事实陈述] 尽管推理 scaling 很重要,但基础模型的“知识容量”仍受预训练数据规模限制。如果预训练 Scaling Law 真的撞墙(如数据枯竭),单纯靠后训练的“巧劲”无法解决模型“不知道”的事实性知识缺失问题。

2. 实用价值:工程化落地的现实指南

  • 支撑理由: [作者观点] 文章专门讨论了“Coding”和“Agents”。对于行业而言,这极具指导意义。Coding 被视为 AI 进化的阶梯,而 Agents 则是 AI 产生经济价值的核心载体。作者可能会详细拆解如何将 LLM 从一个“聊天机器人”转变为“任务执行者”,涉及 Tool Use(工具使用)、Memory(记忆)和 Planning(规划)的具体工程挑战。这种从 Demo 级到 Product 级的跨越讨论,是工程师最急需的“干货”。
  • 反例/边界条件: [你的推断] 虽然 Agents 前景广阔,但在非确定性环境下的失败率依然很高。文章若过度强调 Agent 的成熟度,可能会忽略当前 SOTA(最先进)模型在多步推理中仍存在的“幻觉”与循环逻辑错误,这在生产环境中是致命的。

3. 行业影响:地缘政治与算力霸权的博弈

  • 支撑理由: 标题中的“China”和“GPUs”表明文章具有宏观视野。[事实陈述] 在美国对华高端 GPU 禁令(如 H100/B200 禁运)的背景下,中国 AI 的发展路径被迫转向国产算力适配与算法效率优化。文章可能分析了这种“算力割裂”如何导致全球 AI 生态的分化:一方追求极致的 AGI,另一方追求在有限资源下的垂直行业落地。这种视角对于理解未来 2-3 年的全球供应链和技术路线图至关重要。
  • 反例/边界条件: [你的推断] 这种地缘政治的叙事可能忽略了开源社区的力量。如果 Meta (Llama) 或 Mistral 继续强力开源,模型权重的流动可能会部分抵消硬件封锁带来的技术代差,使得中国开发者能快速通过“蒸馏”或微调追赶顶尖模型能力。

三、 创新性与争议点

1. 创新性:对“2026”的时间节点预测

  • 大多数预测集中在 2024-2025,而将目光投向 2026 显示了作者的远见。特别是关于 AGI 的讨论,作者可能会提出一个更务实的 AGI 定义——不再是“像人一样思考”,而是“在特定经济任务中完全替代人类劳动”。这种从“图灵测试”向“经济效用测试”的转变,是评价标准上的重要创新。

2. 争议点:Scaling Law 是否真的失效?

  • 争议点: 标题提到 Scaling Laws,暗示了对其可持续性的讨论。
  • 不同观点: 业界对此存在巨大分歧。
    • 观点 A(悲观派/作者可能倾向): 预训练 Scaling Law 正在接近边际效应为零的拐点,数据质量成为瓶颈,需转向 System 2(慢思考/推理)。
    • 观点 B(乐观派/如 Ilya Sutskever): 我们还没有真正感受到缩放的极限,只要堆砌算力和合成数据,能力就会持续涌现。
  • 批判性思考: 如果文章完全否定预训练 Scaling 的潜力,可能为时过早。更可能的情况是,Scaling Law 的形式发生了变化,从单纯追求参数量转向了参数量与推理计算量的混合优化。

四、 可读性与逻辑性

  • 评价: 鉴于 Sebastian Raschka 撰写了《从零构建大语言模型》,Nathan 撰写了《RLHF 书》,两人均以**擅长将复杂概念

技术分析

2026年人工智能状态深度前瞻分析

1. 核心观点深度解读

主要观点

文章的核心观点可能围绕**“从暴力扩展到效率与推理的范式转移”**。即2026年将是AI从"概率预测下一个词"(预训练主导)全面转向"复杂问题解决与系统化思维"(推理与后训练主导)的关键年份。同时,地缘政治(中国因素)和硬件瓶颈(GPU)将成为制约或重塑这一进程的关键变量。

核心思想

作者可能想传达:单纯的模型规模扩张已接近边际效应递减点,未来的竞争力将取决于"数据质量"、“推理能力”(Reasoning)和"垂直整合"(Agents)。 对于开源模型(如Ai2的系列工作)而言,这是缩小与闭源巨头差距的窗口期。

创新性与深度

该观点的深度在于它挑战了"Scaling Law(缩放定律)“的绝对统治地位,引入了**“Test-time Compute”(测试时计算)**作为新的扩展维度。它不再仅仅关注训练阶段的FLOPs,而是关注模型在推理时如何通过自我反思和规划来提升性能。

重要性

这一观点至关重要,因为它定义了未来两年的技术路线图。如果继续盲目追求预训练规模,企业将面临高昂的边际成本和有限的性能提升;而转向推理和Agent架构,则可能解锁AGI的早期形态。

2. 关键技术要点

涉及的关键技术

  1. 推理模型: 如OpenAI o1的延续,模型在回答问题前进行"思维链"规划。
  2. 后训练与RLHF/RLAIF: Nathan Lambert的专长,利用强化学习(特别是基于AI的反馈)来对齐模型行为,激发模型的隐式推理能力。
  3. 合成数据: 随着高质量人类文本耗尽,利用强模型生成弱模型的训练数据将成为标准做法。
  4. GPU算力优化: 在硬件受限背景下,模型量化(如1.58bit量化)、MoE(混合专家模型)的小型化与高效化。

技术原理与难点

  • 原理: 推理模型的核心在于"搜索策略”(如蒙特卡洛树搜索MCTS或波束搜索)与"策略模型"的结合,通过延长推理时间来换取更高的准确率。
  • 难点: 推理成本极高(每次请求可能消耗数十万Token),且如何评估推理过程的正确性(奖励模型设计)是目前的巨大挑战。

技术创新点

  • 从"知识压缩"到"知识蒸馏": 2026年的模型可能不再追求全知全能,而是通过Agent调用工具,模型本身变得更轻量但更擅长规划。
  • 中国AI的独立生态: 在受到高端GPU限制下,中国团队可能在算法效率、国产芯片适配及非Transformer架构(如Mamba/RWKV)上走出独特的创新路径。

3. 实际应用价值

指导意义

对于技术决策者,这意味着不应再盲目堆砌参数,而应投资于数据工程评估体系。对于开发者,关注点应从"调用API"转向"设计Agent工作流"。

应用场景

  • Coding 2.0: 不仅是补全代码,而是整个软件工程的自动化(从需求文档到测试部署)。
  • 科学研究: 利用长思维链处理复杂的实验设计和数据分析。
  • 边缘计算: 高效的小型模型(SLM)运行在端侧设备上。

注意问题

  • 幻觉问题在推理模型中更隐蔽: 模型可能逻辑严密但前提错误。
  • 成本控制: Agent循环调用API可能导致成本指数级上升。

实施建议

建立**“模型-数据-算力”**的闭环反馈机制。不要试图用一个模型解决所有问题,而是构建专门化的Agent团队。

4. 行业影响分析

对行业的启示

  • 硬件层: 博通、AMD等定制化芯片(ASIC)可能因推理需求增加而进一步抢占GPU市场份额。
  • 软件层: 操作系统层面的变革,Agent可能取代传统的App交互。

行业变革

  • 开源与闭源的界限模糊: 随着Meta Llama等强开源模型的出现,闭源模型的护城河将仅限于最顶级的推理能力,通用能力的差距将大幅缩小。
  • 中国AI的独立生态: 在受到高端GPU限制下,中国团队可能在算法效率、国产芯片适配及非Transformer架构(如Mamba/RWKV)上走出独特的创新路径。

总结

2026年将是AI技术从"量变"转向"质变"的临界点。单纯依赖算力堆砌的时代即将结束,取而代之的是对算法效率、推理深度和系统架构的精细化打磨。对于开发者和企业而言,能否在新的范式下找到落地场景,将成为决胜的关键。


最佳实践

最佳实践指南

实践 1:构建“模型-算力”协同的弹性基础设施

说明: 随着Scaling Laws(扩展定律)在2026年继续主导AI发展,模型性能与算力投入仍呈正相关。企业需建立能够适应GPU短缺或供应链波动(如中美科技博弈影响)的弹性架构,避免因单一硬件依赖导致业务停滞。

实施步骤:

  1. 评估现有工作负载,区分对延迟敏感型任务与批处理任务。
  2. 采用混合云策略,将训练任务部署在具备高性能GPU(如NVIDIA H100/B200集群)的专用云或自有集群上。
  3. 推理层实施多供应商策略,兼容不同规格的GPU或TPU,甚至考虑针对特定模型进行量化和优化以运行在消费级显卡上。
  4. 建立算力预算机制,根据模型性能提升的边际效应动态分配资源。

注意事项: 需密切关注地缘政治对高端芯片获取的限制,提前做好硬件储备或寻找替代算力源。


实践 2:采用AI智能体重构业务流程自动化

说明: 2026年的AI应用将从单纯的“聊天机器人”进化为具备规划、记忆和工具使用能力的Agent(智能体)。最佳实践要求企业将AI视为“员工”而非“工具”,让其自主完成端到端的复杂任务,而非仅充当问答接口。

实施步骤:

  1. 识别业务中具有明确输入输出、涉及多步骤决策的高价值流程(如供应链优化、自动代码审计)。
  2. 为Agent配备安全的工具箱,包括API访问权限、数据库查询权限及内部系统操作权限。
  3. 设计“人机协作”的监督机制,设定关键节点的审批阈值,防止Agent在执行过程中出现“失控”或幻觉。
  4. 部署专门的Agent编排框架(如LangChain或AutoGen的高级版本),管理多Agent之间的协作与通信。

注意事项: 必须在沙箱环境中测试Agent行为,防止其因逻辑错误导致非预期的系统操作或数据泄露。


实践 3:实施“人机协同”的软件工程范式

说明: 鉴于LLM在编程领域的成熟度已极高,2026年的编码工作将完全由AI主导。开发者的角色将从“编写代码”转变为“审查、架构设计和系统维护”。拒绝使用AI辅助的团队将面临极高的效率劣势。

实施步骤:

  1. 强制推行AI编程助手(如GitHub Copilot、Cursor或企业内部定制的Code LLM)覆盖全员。
  2. 重新定义KPI,考核重点从代码行数转变为架构设计能力、Code Review质量及AI提示词工程能力。
  3. 建立严格的AI生成代码审查流程,重点关注安全性漏洞和逻辑合规性。
  4. 投资建设内部代码库的RAG(检索增强生成)系统,确保AI生成的代码符合企业内部规范和风格。

注意事项: 警惕开发者过度依赖AI而导致的基础技能退化,同时需严格防范AI将敏感代码片段泄露给公共模型。


实践 4:建立针对中国市场的合规与本地化技术栈

说明: 在中美AI技术脱钩的背景下,针对中国市场需要特定的技术路线。这包括使用符合中国监管要求的本地大模型,以及适应国内特有的硬件生态。

实施步骤:

  1. 梳理业务中涉及数据出境和生成内容合规性的环节,确保模型使用符合《生成式人工智能服务管理暂行办法》。
  2. 评估并测试国内头部大模型(如文心、通义、DeepSeek等)在特定业务场景下的表现,建立备选模型库。
  3. 针对国内算力环境(如华为昇腾芯片),优化模型推理与训练脚本,确保技术栈的非美系兼容性。
  4. 建立专门的安全围栏,自动过滤敏感词并生成合规的审计日志。

注意事项: 全球顶尖模型(如GPT-5/Clude等)可能无法在中国境内直接使用,必须做好“降级”使用国产模型的预案,并接受性能可能存在差距的现实。


实践 5:基于数据飞轮效应构建持续学习机制

说明: 随着模型架构趋于同质化,数据质量将成为竞争壁垒。最佳实践不再是一次性的模型训练,而是建立“使用-反馈-数据清洗-微调”的闭环系统,利用业务数据反哺模型性能。

实施步骤:

  1. 在应用前端部署显式和隐式的反馈机制(如点赞/点踩、停留时长、修改率)。
  2. 建立自动化数据管线,将高质量的交互数据转化为Instruction Tuning(指令微调)或RLHF(人类反馈强化学习)的数据集。
  3. 定期(如每季度)利用积累的业务数据对基础模型进行微调,形成行业专用模型。
  4. 投资数据合成技术,利用强模型生成高质量合成数据来训练小模型,降低成本。

注意事项: 必须严格清洗用户隐私数据和PII(个人身份信息)在进入训练


学习要点

  • 2026年AI发展的核心驱动力将从单纯追求模型参数规模转向智能体(Agent)的实际应用落地,AI将从“聊天工具”进化为能够自主完成复杂任务的“数字员工”。
  • 代码生成将成为大模型最快产生商业价值的领域,AI编程助手将极大提升开发效率,并可能重塑软件工程的整个工作流程。
  • 尽管算力成本高昂,但“缩放定律”尚未失效,通过算法优化和高质量数据训练,模型性能仍将持续提升,但行业焦点正从预训练转向推理阶段的优化。
  • 美国对中国实施的先进GPU出口管制虽然短期内造成算力短缺,但正倒逼中国构建独立于美国的完整AI技术栈(包括硬件、框架和模型),从而形成具有中国特色的AI生态系统。
  • 随着模型能力的同质化,AI领域的竞争壁垒将从模型本身转移到应用层的数据飞轮和私有数据上,拥有独特用户场景数据的企业将建立更深的护城河。
  • 通用人工智能(AGI)的定义正在变得模糊,行业将不再执着于通过单一图灵测试,而是接受AI在不同垂直领域达到或超越人类专家水平的“实用型AGI”。
  • 2026年将是AI推理成本大幅下降的一年,随着推理芯片的进步和模型蒸馏技术的成熟,高性能AI的使用门槛将显著降低,推动大规模普及。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章