2026年AI展望:LLM、智能体、缩放定律与中国发展


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所(Ai2)的后训练负责人,也是《The RLHF Book》的作者。Sebastian Raschka 是《Build a Large Language Model (From Scratch)》和《Build a Reasoning Model (From Scratch)》的作者。感谢收听 ❤ 请查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 请查看下方以获取时间戳、文字记录,以及提供反馈、提交问题、联系 Lex 等方式。 文字记录:https://lexfridman.com/ai-sota-2026-transcript 联系 Lex: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或致电参与:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact 赞助商:若需支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。请访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。请访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。请访问 https://upliftdesk.com/lex Fin:用于客户服务的 AI 代理。请访问 https://fin.ai/lex Shopify:在线销售平台。请访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。请访问 https://coderabbit.ai/lex LMNT:零糖电解质冲饮。请访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。请访问 https://perplexity.ai/ 概要: (00:00) – 介绍 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁将赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁目前领先? (36:11) – 编程最佳 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformer:2019 年以来 LLM 的演变 (1:02:38) – AI 缩放定律:已失效还是依然有效? (1:18:45) – AI 的训练方式:预训练、中期训练和后训练 (1:51:51) – 后训练详解:激动人心的新研究方向


导语

随着人工智能技术的快速迭代,2026 年的行业格局正围绕大语言模型、智能体以及算力基础设施发生深刻变革。本次对话中,Nathan Lambert 与 Sebastian Raschka 结合前沿研究视角,深入剖析了扩展定律的演进、中国 AI 生态的发展以及 AGI 的实现路径。通过阅读本文,读者不仅能厘清当前技术发展的关键脉络,还能获得关于模型训练、推理优化及未来趋势的专业洞察。


摘要

这是 Lex Fridman 播客第 490 期节目的内容总结,主题为“2026 年 AI 现状”。本期嘉宾是机器学习研究员 Nathan Lambert(Ai2 后训练负责人)和 Sebastian Raschka(AI 技术畅销书作者)。

以下是节目核心观点的简洁总结:

1. 中美 AI 竞争

讨论了中美在 AI 领域的角力。虽然美国目前在顶级模型(如 GPT-4、Claude)和硬件资源上占据优势,但中国正在迅速追赶,拥有强大的应用能力和庞大的数据资源。未来的竞争将是动态的,不仅仅在于模型大小,还在于应用落地和生态系统的构建。

2. 主流模型对比:谁在赢?

对于 ChatGPT、Claude、Gemini 和 Grok 的比较:

  • OpenAI (ChatGPT): 依然是生态系统的中心,拥有强大的品牌和用户基础。
  • Anthropic (Claude): 在模型“性格”调整、安全性和长上下文处理方面表现出色,深受开发者喜爱。
  • Google (Gemini): 拥有无可匹敌的数据优势和多模态整合能力(如搜索、Android),正在快速追赶。
  • xAI (Grok): 具有独特的数据来源(X/Twitter)和更开放的风格,在实时信息获取上有潜力。

3. 最佳 AI 编程工具

AI 编程助手(如 Cursor, GitHub Copilot)已经彻底改变了开发流程。目前的趋势是从单纯的“代码补全”转向“Agent(代理)式编程”,即 AI 可以自主完成多步骤的任务。嘉宾们认为,未来的编程将更多是管理这些 AI Agent,而不是手写每一行代码。

4. 开源与闭源的较量

开源 LLM(如 Llama 系列, Mistral)正在变得极其强大。

  • 开源的优势: 数据隐私、可定制性、低成本以及对技术的透明度。
  • 闭源的优势: 更强大的推理能力(如 OpenAI o1)和更易用的产品体验。 嘉宾认为,开源模型正变得越来越接近闭源模型的性能天花板,这对于推动 AI 的普及至关重要。

5. 缩放定律 与 Transformer 的演变

  • Scaling Laws: 关于“缩放定律已死”的讨论被

评论

基于您提供的文章标题及摘要(Nathan Lambert 和 Sebastian Raschka 关于 2026 AI 状态的讨论),以下是从技术与行业角度的深入评价。

一、 核心观点与支撑理由

中心观点: [你的推断] 2026年将是AI从“暴力扩展”向“推理与系统化”转型的分水岭,单纯依赖Scaling Laws(扩展定律)的边际效应递减将迫使行业重心转向Agent智能体、后训练优化及地缘政治驱动的算力基础设施。

支撑理由:

  1. Scaling Laws 的范式转移:从预训练到推理

    • [作者观点/行业共识] 随着GPT-4等模型的出现,单纯增加参数和数据的“预训练”阶段收益正在变低。行业共识(如OpenAI的o1模型)表明,计算重心将从“训练时计算”转向“推理时计算”。
    • 事实陈述 文章作者Lambert(Ai2后训练负责人)和Raschka(LLM构建专家)的背景暗示,文章将强调RLHF(基于人类反馈的强化学习)和推理模型的重要性,这比单纯堆砌GPU更能提升模型性能。
  2. Agent 智能体将成为 LLM 的主要应用形态

    • [你的推断] 标题中单独列出“Agents”,意味着LLM将不再仅仅是聊天机器人,而是能够调用工具、规划任务、自主执行代码的智能体。这要求技术栈从单纯的模型权重转向包含Memory、Planning和Tool Use的系统工程。
    • 事实陈述 2024-2025年,Coding Agents(如Devin, Cursor)已经展示了生产力跃升的潜力,这将是2026年企业落地的核心场景。
  3. 地缘政治与供应链重塑

    • [事实陈述] 标题中的“China”和“GPUs”指向了硬件限制下的创新。由于美国对华高端芯片出口管制,中国将被迫发展独立的软件生态(如华为昇腾适配)和算法优化(以较小算力实现较高性能),这将导致全球AI生态的分化。

反例/边界条件:

  1. Scaling Law 尚未失效(反例): 虽然边际效应递减,但OpenAI、Anthropic等巨头仍在筹备百万卡集群的“GPT-5”级别训练。如果2026年出现新的“数据奇迹”或架构突破(如SSM架构),预训练Scaling Law可能再次爆发,使得“推理优化”成为次要矛盾。
  2. Agent 落地的鲁棒性瓶颈(边界条件): 目前的Agent技术在处理长链任务时错误率依然较高。如果SOTA(最先进)模型在复杂逻辑推理上的幻觉问题无法在2026年前根本解决,Agent将仅能作为辅助工具而非独立劳动者,限制其行业影响。

二、 多维度深入评价

1. 内容深度:理论与实践的结合

  • 评价: 鉴于两位作者的背景,文章预计具有较高的技术深度。Lambert作为《The RLHF Book》作者,其对“后训练”的解读将超越表面的“对齐”,深入到如何通过强化学习激发模型的推理能力。Raschka的工程背景则确保了对模型构建细节的讨论不是空谈。
  • 批判性思考: 深度可能受限于“预测”的性质。技术预测往往容易线性外推当前的热点(如Agents),而可能忽视了非线性风险(例如,如果Transformer架构被取代,或者能源危机限制了GPU扩张)。

2. 实用价值:对工程师与决策者的指引

  • 评价: 极高。文章关于“Coding”和“LLMs”的讨论将直接指导开发者如何利用AI提升编程效率。
  • 实际案例: 文章可能会探讨类似Cursor或GitHub Copilot Workspace的未来形态,即从“代码补全”进化为“功能级实现”。对于CTO而言,关于“GPUs”的讨论是基础设施预算的关键参考。

3. 创新性:对“2026”的时间节点定义

  • 评价: 将时间点定在2026年而非2025,暗示了作者认为当前的“Transformer + RLHF”范式仍有至少两年的红利期,且AGI(通用人工智能)的实现路径将更加清晰。
  • 新观点: 可能提出“算法即算力”的观点——即在中国被制裁背景下,算法效率的提升等同于硬件算力的获取。

4. 行业影响:去中心化与垂直整合

  • 评价: 文章可能暗示大模型领域的“赢家通吃”局面在基础层难以撼动,但在应用层,基于开源模型(如Ai2的Tulu系列或Llama系列)的微调将成为主流。
  • 影响: 这将鼓励企业不再盲目追求自研千亿参数基座,而是转向如何利用开源模型构建垂直领域的Agent系统。

5. 争议点:AGI 的定义与可达性

  • [你的推断] 标题中的“AGI”最具争议。Lambert和Raschka作为严谨的研究者,可能倾向于将AGI定义为“在大多数专业任务中达到人类专家水平”,而非科幻意义上的全能AI。
  • 争议点: 2026年是否真的能通过“Scaling + Reasoning”触及AGI的边缘?反对者(如Yann LeCun)可能会认为仅靠自回归大模型无法实现真正的世界模型

技术分析

490 – 2026年AI技术前瞻:从暴力缩放到系统智能的范式转移

1. 核心观点深度解读

主要观点

本期播客的核心论点在于:AI的发展正在从单纯依赖“暴力美学”的预训练阶段,全面转向“精细化”的后训练与推理优化阶段。 在算力硬件(GPUs)受地缘政治供应链限制的背景下,行业发展的重心将转移至应用层的爆发与模型能力的质变,特别是智能体与通用人工智能(AGI)的早期形态。

核心思想

Nathan Lambert和Sebastian Raschka试图传达的核心思想是:“缩放定律并未失效,但其形式正在发生根本性变形。” 未来的技术进步将不再仅仅通过堆砌参数量和训练数据来实现,而是更多地依赖于高质量合成数据、推理时的计算量以及系统层面的工程优化。单纯追求“更大规模”的模型将让位于追求“更强推理能力”和“更高可用性”的系统。

观点的创新性与深度

  • 架构与地缘政治的交叉视角:技术分析往往局限于模型架构本身,但本期内容将“China”和“GPUs”作为关键变量,深刻指出了算力供应链与硬件限制将成为技术演进路径的硬约束,迫使行业在算法效率上寻求突破。
  • 后训练的战略地位提升:Lambert作为后训练专家,强调了RLHF/RLAIF在2026年不再是模型发布的锦上添花,而是决定模型能否落地、能否具备复杂逻辑推理能力的决定性环节。

为什么重要

这是行业从“狂热期”进入“深水区”的明确信号。对于从业者和投资者而言,盲目投入巨资进行基础预训练的窗口期正在关闭。未来的竞争壁垒将建立在如何利用有限的算力,通过推理优化和智能体架构来解锁AGI的潜力。


2. 关键技术要点

1. 后训练与推理优化

  • 原理:利用合成数据和强化学习(RLHF/RLAIF)在基础模型之上进行深度微调,重点在于提升模型的逻辑推理能力和对齐程度。
  • 实现路径:从传统的监督微调(SFT)转向更强的推理对齐,例如OpenAI o1式的“思维链”强化学习,让模型在输出前进行自我博弈和规划。
  • 技术难点:如何在利用合成数据避免“模型崩溃”的同时,解决“对齐税”问题,即在对齐过程中不损失模型的创造性能力。

2. 智能体

  • 原理:LLM不再仅仅是生成文本的聊天机器人,而是作为系统的“大脑”,负责任务规划、工具调用及多步骤执行。
  • 技术栈:基于ReAct框架、AutoGPT架构,以及专门针对代码执行的安全沙箱环境。
  • 创新点:实现了从“对话”到“行动”的跨越。其中,Coding Agent(编程智能体)被视为最先落地且具有高商业价值的生产力工具。

3. 缩放定律 2.0 (Test-time Compute)

  • 原理:在推理阶段通过增加计算量(让模型“多思考”一段时间)来换取性能的显著提升。
  • 技术点:探索AlphaZero式的搜索算法在LLM中的应用,模型在给出最终答案前进行内部验证、路径探索和错误修正。

4. 硬件与算力约束

  • 现状:NVIDIA H100/H200仍为主流,但2026年将面临更定制化的ASIC芯片竞争以及供应链波动导致的算力分配不均。
  • 挑战:随着模型体积增大,推理成本过高成为主要瓶颈,必须依赖量化、蒸馏及投机采样等技术来降低部署门槛。

3. 实际应用价值

对实际工作的指导意义

  • 开发者:应当停止尝试从头训练通用大模型,转而掌握如何利用开源权重(如Llama, Mistral)结合RAG(检索增强生成)和Agents构建垂直应用。
  • 企业决策:应关注“小模型+大算力推理”的性价比组合,以及私有数据在后训练中的价值。

应用场景

  • Coding:从代码补全进化为自主完成Feature开发、自动化Code Review、Bug修复及系统重构。
  • Agentic Workflow:实现客户服务全流程自动化、复杂长文档的深度分析以及科研实验的自动化执行。

实施建议

  • 避免重复造轮子:优先利用现有的成熟API或高性能开源模型。
  • 数据质量为王:清洗并构建高质量的领域私有数据,这比选择具体的模型架构更具决定性作用。
  • 建立评估体系:构建针对Agent行为结果的评估标准,而非仅关注传统的困惑度指标。

4. 行业影响分析

对行业的启示

  • 去中心化与专业化趋势:受限于算力成本,市场可能会出现更多“小而美”的专有模型,而非少数几家通用的巨量模型垄断市场。
  • 软件工程的重构:传统的“手写代码”工作流将转变为“设计系统并监督AI生成代码”。工程师的角色将向系统架构师和代码审查者转变。

变革与格局

  • 地缘政治导致的技术分化:标题中特别提及的“China”暗示了全球AI生态可能出现分裂。由于美国的高端GPU出口管制,中国可能会发展出一套独立的、侧重于算法效率与软硬协同优化的技术栈,这将重塑全球AI供应链格局。

最佳实践

最佳实践指南

实践 1:采用“小模型+智能体”架构策略

说明: 随着模型推理成本优化及参数规模小型化趋势的发展,依赖超大参数规模模型处理所有任务的性价比逐渐降低。最佳实践是将复杂任务拆解,利用小模型(SLM)处理特定领域或简单逻辑任务,并通过智能体框架进行编排。这有助于降低延迟并减少 Token 消耗。

实施步骤:

  1. 评估现有业务流程,识别适合由 70 亿-100 亿参数模型替代的场景(如摘要、分类、简单提取)。
  2. 构建或采用多智能体框架,将不同任务分配给专门的智能体(如检索、代码生成、审核)。
  3. 实施级联验证机制,利用大模型对小模型处理结果进行最终把关,以平衡成本与质量。

注意事项: 避免过度工程化,简单直接的任务应通过 API 直接调用,无需强制使用智能体架构。


实践 2:建立模型无关的基础设施与数据飞轮

说明: 模型迭代速度较快,能力持续提升。最佳实践是不与特定模型锁定,而是建立能够快速切换底层模型的基础设施。同时,核心壁垒应转向高质量的企业私有数据,通过数据回流持续优化模型表现。

实施步骤:

  1. 采用语义层或中间件架构,确保应用逻辑与模型 API 解耦,便于在不同模型间切换。
  2. 建立严格的数据管线,收集用户反馈数据(RLHF 数据),用于微调或构建 RAG 知识库。
  3. 定期进行基准测试,评估新发布的开源或闭源模型在性价比上是否优于当前使用的模型。

注意事项: 数据隐私合规是数据飞轮的前提,涉及企业核心机密时,应优先考虑私有化部署或企业级保障方案。


实践 3:全面拥抱 AI 辅助编码与工作流自动化

说明: AI 编程工具的功能正在从代码补全向处理完整功能模块演进。最佳实践是将 AI 编程助手集成到软件开发生命周期(SDLC)的各个环节,并重构代码审查流程以适应 AI 生成代码的特性。

实施步骤:

  1. 为开发团队配置企业级 AI 编程助手(如 GitHub Copilot, Cursor 或基于 LLM 的私有化代码助手)。
  2. 重新定义代码审查标准,从关注语法错误转向关注安全性、架构合理性和业务逻辑匹配度。
  3. 建立“AI 生成代码”的检测与测试规范,要求所有 AI 生成的代码必须通过高覆盖率的单元测试和安全扫描。

注意事项: 警惕开发人员的技能退化,鼓励通过阅读 AI 生成的代码来学习新库或新模式,而不是盲目复制粘贴。


实践 4:构建混合算力策略以应对 GPU 供需波动

说明: 受高端 GPU 供应紧张及市场因素影响,依赖单一供应商或单一算力来源存在风险。最佳实践是建立包含云端、本地及混合算力的弹性策略,并针对推理场景优化算力使用效率。

实施步骤:

  1. 评估工作负载,将对延迟极度敏感的推理任务放在高端 GPU 上,将离线批处理任务迁移至更具性价比的算力平台。
  2. 探索模型量化与蒸馏技术,使用 4-bit 量化或更低精度的模型以在消费级显卡或推理专用芯片上运行。
  3. 关注国产算力芯片(如华为昇腾等)的软件生态成熟度,在非关键业务或测试环境中进行 PoC(概念验证),以备不时之需。

注意事项: 迁移成本往往被低估,需确保跨芯片平台的代码兼容性(如 CUDA 代码在其他平台上的移植难度)。


实践 5:关注中国 AI 市场的独特生态与合规要求

说明: 中国 AI 生态呈现模型层多样化、应用层快速落地的特点,且受到严格的监管合规约束。最佳实践是在全球化技术栈与本地化合规之间找到平衡,利用应用层的创新能力(如超级应用集成)。

实施步骤:

  1. 针对在中国开展的业务,建立专门的内容安全过滤机制,确保模型输出符合当地法律法规。
  2. 研究并接入头部中国大模型厂商的 API,利用其在中文语境理解和本地文化知识上的优势。
  3. 设计“双模”产品架构,允许在数据主权要求下灵活切换数据存储和处理节点。

注意事项: 密切关注中国关于生成式 AI 服务管理办法的更新,合规是产品落地的红线而非可选项。


实践 6:以 AGI 导向设计系统,而非仅针对单一模型

说明: 随着 AGI(通用人工智能)技术的演进,系统设计应具备前瞻性。最佳实践是构建能够适应未来更高智能等级系统的架构,而非仅针对当前的单一模型能力进行优化。

实施步骤:

  1. 设计模块化的系统架构,确保各组件能够独立升级和替换。
  2. 关注模型能力的通用性和泛化性,避免过度依赖特定模型的专有特性。

学习要点

  • 2026年AI发展的核心逻辑在于通过海量GPU算力堆叠实现的“暴力美学”,单纯依赖算法架构优化的时代已结束,算力成为决定胜负的唯一门槛。
  • 模型推理成本的大幅下降(如GPT-4级别降至个位数美分)将彻底改变商业模式,推动AI从“聊天框”向具备自主规划能力的“智能体”进化。
  • 尽管大语言模型(LLM)在逻辑推理上表现惊人,但它们本质上是基于概率的“随机鹦鹉”,在处理事实准确性方面仍存在结构性缺陷。
  • 中国AI产业正面临巨大的地缘政治算力封锁,被迫构建一套完全独立于英伟达CUDA生态之外的本土技术栈,这将导致全球AI体系出现根本性分裂。
  • AI编程助手已从简单的代码补全升级为能够独立完成复杂任务的全栈工程师,这将极大降低软件开发门槛并重塑软件行业的劳动力结构。
  • 行业对于“Scaling Laws(缩放定律)”的信仰遭遇瓶颈,单纯增加数据量和参数规模带来的边际效益正在递减,迫使研究人员寻找超越预训练的新范式。
  • 通用人工智能(AGI)的实现路径被重新定义,重点不再是单一模型的万能性,而是如何通过系统架构将不同模型与工具高效协同。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章