2026年AI展望:LLM、智能体、缩放定律与中国发展


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所的后训练负责人,也是《The RLHF Book》的作者。Sebastian Raschka 是《从零构建大语言模型》和《从零构建推理模型》的作者。感谢收听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 查看下方获取时间戳、文字记录,以及提供反馈、提交问题、联系 Lex 等信息。

文字记录:https://lexfridman.com/ai-sota-2026-transcript

联系 Lex: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或致电:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact

赞助商: 若要支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。访问 https://upliftdesk.com/lex Fin:客户服务 AI 代理。访问 https://fin.ai/lex Shopify:在线销售平台。访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。访问 https://coderabbit.ai/lex LMNT:零糖电解质冲饮。访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。访问 https://perplexity.ai/

大纲: (00:00) – 简介 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁将赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁是赢家? (36:11) – 编程最佳 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformers:自 2019 年以来大语言模型的演变 (1:02:38) – AI 缩放定律:是已失效还是依然成立? (1:18:45) – AI 如何训练:预训练、中期训练和后训练 (1:51:51) – 后训练详解:令人兴奋的新研究方向


导语

随着人工智能技术的快速迭代,2026 年的行业格局正在发生深刻变化。本期内容邀请到艾伦人工智能研究所的后训练负责人 Nathan Lambert 与畅销书作者 Sebastian Raschka,围绕 LLM 演进、扩展定律的边界、中国 AI 的发展态势以及智能体与 GPU 的未来进行深入探讨。通过这次对话,读者不仅能厘清当前技术发展的关键脉络,还能对 AGI 的实现路径获得更具前瞻性的理解。


摘要

这是一份基于 Lex Fridman 播客 #490 期(嘉宾为 Nathan Lambert 和 Sebastian Raschka)关于 2026 年 AI 状态的讨论总结。

核心主题:2026 年 AI 的关键转折点

两位专家(分别来自 Ai2 和专注于 LLM 原创教育)深入探讨了当前 AI 领域的技术瓶颈、竞争格局以及未来的发展方向。

1. 中美 AI 竞赛:差距与制裁

  • 现状:美国目前在模型能力、算力基础设施和顶尖人才方面仍处于领先地位。
  • 中国的挑战与应对:美国对华高端 GPU(如 H100)的出口管制确实延缓了中国的发展,但并未阻止其进步。
  • 趋势:中国正在构建独立的 AI 生态系统,虽然存在算力劣势,但在算法优化和应用层面展现出强大的适应力。这被视为一场长期的马拉松。

2. 大模型之战:闭源 vs 开源

  • 头部玩家:ChatGPT (OpenAI) 仍被视为综合能力最强的模型;Claude (Anthropic) 在长上下文和自然交互方面表现出色;Gemini (Google) 展示了多模态潜力;Grok (xAI) 则以实时数据和幽默感见长。
  • 开源的崛起:嘉宾特别强调了开源模型(如 Llama 系列, Mistral 等)的快速进步。虽然最顶尖的“推理”能力仍掌握在闭源手中,但开源模型的实用性正在迅速缩小差距,成为开发者构建应用的首选。

3. 缩放定律

  • 争议:关于“缩放定律”是否已经失效(即增加算力和数据是否不再带来同等水平的智能提升)是讨论的焦点。
  • 观点:传统的预训练缩放可能正在面临边际效应递减,但这并不意味着定律失效。相反,重点正在转移——从单纯堆砌算力转向更高效的数据质量筛选和后训练技术(如强化学习)。

4. 训练范式的演变

  • 从 Pre-training 到 Post-training:过去几年,AI 的进步主要依赖于预训练。未来的突破口将在于后训练
  • 新阶段:这包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。

评论

中心观点

该文章(基于摘要及对作者背景的推断)主张:AI发展正在从“暴力美学”的预训练阶段,转向以推理、后训练和智能体为核心的工程化落地阶段,同时地缘政治将成为技术演进速度的关键变量。

深入评价与分析

1. 内容深度与论证严谨性

  • 支撑理由:
    • Scaling Laws(缩放定律)的演进: 文章极有可能触及当前学术界最核心的争论——即“预训练缩放撞墙论”。作者作为一线研究者,应会区分“数据规模缩放”与“推理时计算”的边际效益差异,指出单纯堆砌参数的收益递减。
    • 后训练的主导地位: Nathan Lambert作为RLHF专家,会强调SFT(监督微调)和RLAIF(AI反馈强化学习)在模型性格控制、对齐及推理能力激发中的决定性作用,这比Base Model的训练更具技术深度。
    • 中国因素的纳入: 将地缘政治作为技术变量进行讨论,增加了分析的宏观维度,特别是考虑到H100/H800的禁运对中国模型架构(如华为昇腾适配)的影响。
  • 反例/边界条件:
    • OpenAI o1的反直觉成功: 如果OpenAI o1证明了在推理阶段通过极大算力搜索可以掩盖Base Model的不足,那么“预训练撞墙”的论点可能只是工程暂时的瓶颈,而非物理极限。
    • 开源模型的追赶速度: Llama 3.1 405B或Qwen2.5的出现表明,高质量数据集的优化可能比单纯的算力堆砌更有效,这挑战了“算力即霸权”的深度假设。

2. 实用价值与创新性

  • 支撑理由:
    • 工程化指导: Sebastian Raschka的背景意味着文章会包含关于如何从零构建LLM的实战见解,而非纸上谈兵。对于开发者而言,关于“推理模型”的实现细节(如System 2思维链的显式编码)具有极高的参考价值。
    • Agentic Workflow的落地: 从“Chatbot”转向“Agents”是当前应用层的最大创新。文章若能具体阐述多步规划、工具调用的稳定性问题,将直接指导企业级RAG(检索增强生成)和自动化办公的架构设计。
  • 反例/边界条件:
    • Agent的幻觉风险: 在金融或医疗等高风险领域,基于概率的LLM作为Agent自主决策仍不可用,其实用价值在这些行业被严重高估。
    • 成本陷阱: 推理模型的广泛应用可能导致API成本指数级上升,对于大多数初创公司而言,这种“创新”可能不具备商业可持续性。

3. 行业影响与争议点

  • 支撑理由:
    • AGI时间表的修正: 行业正从“Scaling Optimist”转向“System 2 Optimist”。文章可能会修正AGI(通用人工智能)的到达时间,不再单纯依赖算力堆叠的预测,而是看重算法效率的突破。
    • 中美技术脱钩的具象化: 对中国AI生态(GPU禁令、自主模型架构)的深入分析,有助于全球理解两条技术路线的分化。
  • 争议点:
    • 数据枯竭 vs 合成数据: 这是一个巨大的争议点。如果作者认为高质量互联网数据已耗尽,必须依赖合成数据,那么模型是否会出现“崩溃”现象?
    • GPU的摩尔定律失效: 摩尔定律是否还能跟上AI算力需求?如果硬件迭代放缓,软件优化是否足以支撑下一波增长?

4. 可读性与逻辑性

  • 支撑理由:
    • 作者兼具研究员和教育者身份,通常意味着文章能平衡术语的准确性与通俗性。结构上通常会遵循:现状 -> 瓶颈 -> 突破 -> 展望的逻辑闭环。

标注说明

  • [事实陈述]:Nathan Lambert任职于Ai2且专注于RLHF;Sebastian Raschka撰写了LLM构建书籍。
  • [作者观点]:2026年AI的核心将从预训练转向后训练与推理;Agent将成为主要应用形态。
  • [你的推断]:文章将讨论美国对华GPU禁运如何迫使中国开发更高效的算法或替代硬件,从而形成技术双轨制。

实际应用建议

基于上述分析,针对AI从业者提出以下建议:

  1. 关注推理优化: 不要只盯着模型的参数量,应更多关注Prompt Engineering、Context Window优化以及蒸馏小模型的能力。
  2. Agent架构设计: 在构建应用时,从单纯的“问答”转向“工作流”。设计多Agent系统来处理复杂任务,但必须加入人工确认的“回路”以防止灾难性幻觉。
  3. 算力多元化: 鉴于地缘政治风险,在技术选型上应保持对非NVIDIA生态(如AMD、华为昇腾)的关注和适配储备。

可验证的检查方式

为了验证文章中的预测是否准确,建议在以下时间窗口和指标进行观察:

  1. 指标:OpenAI/Anthropic下一代模型的发布形式(观察窗口:2025年底-2026年初)。
    • 验证点: 如果新模型主要宣传的是“推理速度提升”或“复杂

技术分析

2026 年 AI 技术趋势分析:从预训练到后训练的范式转移

1. 核心观点深度解读

文章的主要论点

文章的核心论点是:AI 发展的重心正在从依赖大规模算力的预训练,转向依赖算法效率的后训练与推理优化。技术范式正从单一的“下一个词预测”向具备复杂规划能力的“智能体”演进。同时,地缘政治因素和硬件供应链将成为影响这一进程的主要外部变量。

作者意图分析

作者旨在阐述“缩放定律”的适用范围正在发生变化。单纯增加参数规模和数据量的传统预训练模式,其边际效益正在递减。未来的性能提升将更多依赖于推理阶段的计算优化、合成数据的生成与使用,以及多智能体系统的协同工作。AGI 被视为一个通过工程化手段逐步逼近的目标,而非单纯的规模堆砌。

观点的创新性与深度

该观点的创新性在于突破了“越大越好”的单一线性逻辑,引入了“推理时计算”作为新的评估维度。在深度上,文章分析了“数据墙”(高质量文本数据耗尽)和算力垄断对行业格局的影响,指出了开源与闭源模型之间在技术路径上的分化。

观点的行业意义

这一分析为当前 AI 行业的发展提供了关键参考。如果行业继续盲目追求参数规模,可能会面临收益递减的风险。理解从预训练向后训练及推理优化的转变,对于研究机构、开发者以及投资者制定未来 1-3 年的技术路线至关重要。这标志着 AI 从基础模型构建阶段进入了应用效能优化阶段。


2. 关键技术要点

涉及的关键技术或概念

  1. 后训练与强化学习(RLHF/RLAIF):强化学习对齐不再仅是安全手段,更是提升模型逻辑推理和数学能力的关键技术。
  2. 推理时计算扩展:以 OpenAI o1 为代表的范式,允许模型在生成最终输出前进行多步隐式推理,计算量与问题难度正相关。
  3. AI 智能体:具备工具使用、任务规划和自我修正能力的系统,超越了单纯的对话交互。
  4. 合成数据:利用高性能模型生成训练数据,以缓解人类标注数据稀缺的问题。
  5. 混合专家模型:通过稀疏激活机制降低推理成本,同时保持模型处理复杂任务的能力。

技术原理和实现方式

  • 推理增强:在推理阶段引入搜索算法(如蒙特卡洛树搜索 MCTS)或显式的思维链,使模型能够自我验证并修正中间步骤。
  • 智能体架构:通常采用“规划-行动-观察-反馈”的循环结构。LLM 作为控制器调用外部工具(如代码解释器、API),并根据返回结果调整后续行动。

技术难点与解决方案

  • 主要难点:推理时计算带来的高延迟与成本;合成数据可能导致模型坍塌或质量退化。
  • 应对方案:采用知识蒸馏技术将大模型能力迁移至小模型;开发更高效的验证器以剪枝搜索空间,减少无效计算。

技术创新点分析

主要的创新点在于将强化学习重新确立为核心训练流程的一部分,不再局限于对齐人类偏好,而是用于挖掘模型的推理潜力。此外,代码生成能力被视为通往更高阶智能的关键路径,因为代码环境提供了严谨的逻辑反馈闭环。


3. 实际应用价值

对实际工作的指导意义

对于开发者而言,这意味着技术栈的重心将从“提示词工程”转向“智能体工程”和“流程设计”。开发工作将不再局限于简单的 API 调用,而是构建能够处理复杂任务流和状态管理的系统。

具体应用场景

  • 科研辅助:利用 AI 智能体自动生成假设、编写验证代码并分析实验数据。
  • 企业级流程自动化:结合 RPA 与 LLM,实现跨系统的复杂业务流程自动化,而非简单的问答客服。
  • 高级编程辅助:从单行代码补全进化为模块重构、自动化测试生成及 Bug 修复的全流程辅助。

需要注意的问题

  • 错误累积:智能体在多步调用中容易产生误差累积,导致最终结果偏离预期。
  • 成本与延迟:复杂的推理链路会显著增加 Token 消耗和响应延迟。
  • 评估体系缺失:目前针对智能体复杂行为的标准化评估体系尚不完善,难以量化衡量系统性能。

最佳实践

最佳实践指南

实践 1:构建“小模型+专家智能体”协作架构

说明: 随着Scaling Laws(扩展定律)在通用大模型上面临边际效应递减,2026年的核心竞争力将从单纯追求参数量转向“专用小模型+智能体协作”模式。企业应利用经过微调的高效小模型处理特定垂直领域任务,并通过多智能体框架串联工作流,而非依赖单一巨型模型解决所有问题。

实施步骤:

  1. 任务解耦: 将业务流程拆解为检索、推理、规划、工具调用等独立子任务。
  2. 模型选型: 针对每个子任务选择或微调 7B-30B 级别的专用小模型(如代码模型、数学模型、摘要模型)。
  3. 编排集成: 使用 LangChain 或 AutoGen 等框架构建 Multi-Agent 系统,定义各 Agent 间的通信协议与工作流。

注意事项: 避免过度工程化,并非所有任务都需要 Agent,简单的 API 调用可能更高效。


实践 2:实施“人机协同”的软件开发流程

说明: AI 编程工具在 2026 年将不仅仅是代码补全,而是具备系统级理解能力的“虚拟架构师”。开发者应从“代码编写者”转变为“代码审查者与系统架构师”。最佳实践要求建立严格的 AI 生成代码审查机制,利用 AI 提升生产力,同时确保代码的安全性与可维护性。

实施步骤:

  1. 工具升级: 集成具备上下文感知能力的 IDE 插件(如 Cursor 或 GitHub Copilot Workspace)。
  2. 流程重构: 设立“AI 生成 -> 开发者审查 -> 自动化测试 -> 安全扫描”的流水线。
  3. 知识库建设: 将内部设计文档、代码规范注入到 LLM 上下文中,确保生成的代码符合企业标准。

注意事项: 警惕“技术债务”的隐形积累,定期对 AI 生成的遗留代码进行重构和人工审计。


实践 3:建立混合算力与模型路由策略

说明: 面对全球 GPU 供应的不确定性及成本波动,企业不应绑定单一硬件架构或云厂商。最佳实践是构建“模型路由层”,根据任务复杂度动态分配计算资源:简单任务交给本地运行的小模型或量化模型,复杂任务调用云端高性能模型。

实施步骤:

  1. 成本评估: 建立不同模型(如 GPT-4/Claude Opus vs. Llama 3/Mistral)的“成本-性能”评估表。
  2. 路由部署: 部署模型路由网关,根据 Prompt 的复杂度标签自动分发请求。
  3. 硬件解耦: 确保推理基础设施兼容 NVIDIA GPU 及国产替代芯片(如华为昇腾系列),以应对供应链风险。

注意事项: 监控不同模型输出的准确率差异,为关键业务设置人工复核环节。


实践 4:投资数据飞轮与合成数据工程

说明: 在高质量公共数据接近枯竭的“数据墙”时代,企业的私有数据是核心护城河。最佳实践强调构建数据飞轮:利用模型输出清洗数据,再用清洗后的数据微调模型。同时,需掌握合成数据技术,通过“强模型”生成“弱模型”的训练数据,以突破特定领域的数据瓶颈。

实施步骤:

  1. 数据资产化: 建立严格的数据治理流程,清洗并结构化企业历史文档、日志和对话记录。
  2. 合成数据生成: 利用先进的 Teacher Model 生成特定场景(如边缘 Case、异常检测)的合成训练数据。
  3. 闭环迭代: 建立自动化流水线,将线上反馈数据回流至训练集,定期微调模型。

注意事项: 严格检测合成数据的多样性与偏差,防止模型崩溃。


实践 5:关注中国 AI 生态的独立性与合规性

说明: 地缘政治因素导致中美 AI 生态出现割裂。在中国市场运营的企业,最佳实践是采用“双轨制”技术栈:一方面适配国产算力芯片(如华为昇腾、海光)与国产大模型(如 DeepSeek、智谱),另一方面确保技术架构符合《生成式人工智能服务管理暂行办法》等合规要求。

实施步骤:

  1. 国产化适配: 测试并验证主流国产大模型在业务场景中的表现,建立国产模型评估基准。
  2. 私有化部署: 对于敏感数据,优先考虑基于国产芯片的私有化部署方案,确保数据不出域。
  3. 合规审查: 在 Prompt 层和输出层注入安全护栏,确保内容符合社会主义核心价值观及法律法规。

注意事项: 国产算力集群的互联带宽可能受限,需在分布式训练策略上做针对性优化。


实践 6:重新定义 ROI:从“降本”转向“增值”

说明: 2026 年,AI 的应用重点将从简单的“替代人工降低成本”


学习要点

  • 2026年AI发展的核心主题将从单纯的模型规模扩张转向推理能力的大幅提升,推理成本将成为新的瓶颈。
  • AI编程代理将在2026年达到关键临界点,从辅助工具进化为能独立完成复杂任务的初级工程师,重塑软件开发工作流。
  • 模型训练的“扩展定律”依然有效,但重心正从预训练数据量向推理时的计算量和高质量合成数据转移。
  • 中国AI产业正在快速缩小与美国的差距,通过构建自主可控的GPU供应链和应用层创新,形成独特的竞争路径。
  • GPU供需紧张将在2026年得到结构性缓解,专用推理芯片的普及将大幅降低AI部署成本并推动边缘计算发展。
  • AI代理将从单一任务执行者进化为具备长期记忆和自主规划能力的多智能体系统,在B端应用中实现规模化落地。
  • AGI(通用人工智能)的实现路径逐渐清晰,通过将大语言模型与强化学习及物理世界交互结合,有望在2026年看到具备初步通用推理能力的系统原型。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章