2026年AI展望:大模型、智能体与算力趋势


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所 的后训练负责人,也是《RLHF 之书》的作者。Sebastian Raschka 是《从头构建大语言模型》 和《从头构建推理模型》 的作者。感谢收听 ❤ 请查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 查看下方获取时间戳、文字记录,以及提供反馈、提交问题、联系 Lex 等方式。

文字记录:https://lexfridman.com/ai-sota-2026-transcript

联系 Lex: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或来电:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact

赞助商: 若要支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。请访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。请访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。请访问 https://upliftdesk.com/lex Fin:面向客户服务的 AI 代理。请访问 https://fin.ai/lex Shopify:在线销售平台。请访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。请访问 https://coderabbit.ai/lex LMNT:零糖电解质冲饮。请访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。请访问 https://perplexity.ai/

概要: (00:00) – 简介 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁会赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁目前领先? (36:11) – 最适合编程的 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformers:2019 年以来大语言模型的演变 (1:02:38) – AI 扩展定律:是已失效还是依然有效? (1:18:45) – AI 如何训练:预训练、中期训练和后训练 (1:51:51) – 后训练详解:令人兴奋的新研究方向


导语

随着人工智能技术的快速迭代,2026 年的行业格局正在发生深刻变化。本期内容邀请了艾伦人工智能研究所的 Nathan Lambert 与资深开发者 Sebastian Raschka,深入探讨大语言模型、智能体、算力瓶颈以及中国 AI 的发展现状。两位专家结合各自在后训练与底层架构构建方面的经验,分析了当前的技术局限与未来趋势。通过阅读本文,读者可以全面了解 AI 领域的最新动态,并对 AGI 的实现路径形成更清晰的认知。


评论

基于您提供的文章标题及作者背景(Nathan Lambert 和 Sebastian Raschka 均为一线资深研究人员与教育者),以下是从技术与行业角度对该文章(推测内容为对2026年AI发展趋势的预测)的深入评价。

中心观点

文章的核心观点是:AI的发展正在从“暴力美学”的预训练扩展阶段,转向以推理、智能体和多模态交互为主的“后训练”应用深化阶段,技术瓶颈(如算力墙、数据枯竭)将重塑全球地缘政治格局并定义AGI的落地路径。

支撑理由与深度评价

1. 从“规模定律”向“推理密度”的范式转移

  • [事实陈述] 文章指出单纯增加参数和数据量的 Scaling Laws 正在面临边际效应递减。
  • [作者观点] 未来的性能提升将更多依赖于后训练技术,如强化学习(RLHF/RLAIF)和推理时的计算。
  • [深度评价] 这是一个极具洞察力的判断。OpenAI o1 模型的发布证明了“推理时计算”可以显著提升模型能力。这标志着行业从“堆算力”向“堆智能”的转变。对于行业而言,这意味着评估模型的指标将从“下一个词预测的准确率”转向“复杂任务的解决率”。
  • [反例/边界条件] 如果基础模型能力不足,过度的后训练可能导致“知识遗忘”或能力崩塌。此外,推理时计算虽然提升了效果,但极大地增加了推理延迟和成本,这在实时性要求高的场景(如高频交易、即时对话)中是不可接受的。

2. AI编程助手将重塑软件工程,但不会完全取代工程师

  • [事实陈述] 文章预测到2026年,AI编码将成为主流,工程师的角色将转向审查和架构设计。
  • [你的推断] 考虑到 Sebastian Raschka 著有《从零构建大语言模型》,他非常了解模型的内部机制,因此他可能更倾向于认为 AI 将接管重复性编码,而人类负责“系统设计”。
  • [深度评价] 这一点对实际工作指导意义极大。目前的 Copilot 等工具已经证明了其在提升效率方面的价值。未来的竞争壁垒不再是“写代码的速度”,而是“定义问题”和“调试复杂系统”的能力。
  • [反例/边界条件] 在涉及高度安全性、遗留代码维护或极度复杂的底层系统编程中,AI 生成的代码可能包含难以检测的微妙错误,完全依赖 AI 可能导致灾难性后果。

3. 地缘政治与算力供应链(China & GPUs)的硬约束

  • [事实陈述] 文章讨论了中国在面临美国 GPU 禁运下的应对策略及 2026 年的格局。
  • [作者观点] 算力限制将迫使中国开发者开发更高效的算法或软硬协同优化,可能导致技术路线的分叉。
  • [深度评价] 这是从行业宏观层面的务实分析。算力稀缺会倒逼出极致的工程优化。例如,中国的模型团队可能在量化、蒸馏以及华为昇腾等国产芯片的适配上走在世界前列。
  • [反例/边界条件] 如果基础算力差距过大(例如超过一个数量级),单纯的算法优化可能无法弥补物理硬件的鸿沟,导致在超大规模模型训练上始终落后。

综合维度评分与分析

  • 1. 内容深度: 。作者并非纯粹的观察家,而是来自 Ai2 和一线教育的研究者。他们不仅谈论“是什么”,更基于技术原理(如 RLHF、模型架构)分析“为什么”。这种视角避免了媒体的炒作,提供了对底层逻辑的严谨论证。
  • 2. 实用价值: 极高。对于技术决策者,文章关于从预训练转向推理和 Agent 的预测,直接关联到资源分配(预算是买 GPU 训练还是买 GPU 推理?)。对于开发者,这意味着需要掌握 Prompt Engineering、Agent 编排以及模型微调技能。
  • 3. 创新性: 中等偏上。虽然“LLM 死亡”、“Agent 兴起”是常见论调,但文章结合 2026 年的具体时间节点和 Scaling Laws 的边际效应,提出了更具体的“后训练时代”概念,具有新意。
  • 4. 可读性: 。作者均为教育者,擅长将复杂概念通俗化。文章结构清晰,逻辑连贯,适合不同背景的读者。
  • 5. 行业影响: 。该文章可能成为 2025-2026 年技术团队制定战略的参考依据。特别是关于 GPU 资源分配和 Agent 落地的讨论,可能引发社区对“盲目追求大参数”的反思。
  • 6. 争议点:
    • AGI 的到来时间: 作者可能持相对乐观或保守的态度(视具体内容而定),这总是充满争议。
    • 数据枯竭论: 行业对于合成数据是否真的能替代人类数据存在巨大分歧。
  • 7. 实际应用建议:
    • 技术栈调整: 不要只盯着基座模型,要投资于评估框架和 Agent 编排工具(如 LangChain, LlamaIndex 的演进版)。
    • 人才储备: 招募懂得模型微调和数据工程的人才,而不仅仅是应用层开发者。

可验证的检查方式

为了验证文章中关于 2026 年预测的准确性


技术分析

基于您提供的文章标题和作者背景,结合Nathan Lambert(Ai2后训练负责人,专注于RLHF)和Sebastian Raschka(《从头构建大模型》作者,专注于模型架构与教育)的一贯立场及当前AI领域的最新动态(截至2024-2025年的发展趋势),以下是对《#490 – 2026年AI现状:LLMs、编程、缩放定律、中国、Agents、GPU、AGI》这一主题的深度分析。


2026年AI现状深度前瞻:从缩放定律到具身智能的演进

1. 核心观点深度解读

文章的主要观点

文章的核心论点是:AI的发展正在从“暴力美学”的预训练缩放时代,迈向“推理与后训练”的精细化时代,并最终在2026年形成“模型即服务”与“具身智能”并行的双轨格局。 简单来说,仅仅靠堆砌显卡和数据(Scaling Laws)来提升模型智商的“低垂果实”已被摘完,未来的增长点在于数据质量、推理时计算和系统级智能。

核心思想

作者试图传达**“范式转移”**的概念。

  1. 后训练的重要性超越预训练:随着基础模型能力的趋同,差异化的竞争将发生在RLHF(基于人类反馈的强化学习)、RAG(检索增强生成)和推理优化上。
  2. 应用层的爆发:AI不再仅仅是聊天机器人,而是能够编写代码、操作Agent、控制物理世界的智能体。
  3. 地缘政治与硬件的博弈:算力(GPU)不再是唯一的瓶颈,数据主权和算法效率(如中国的开源模型)将成为新的变量。

创新性与深度

该观点的创新性在于打破了“越大越好”的迷信。Lambert和Raschka从工程实践角度指出,合成数据推理计算将开启新的缩放定律。深度在于他们不仅关注模型本身,还深入探讨了供应链(GPU)、地缘政治(中国)和开发者生态(Coding)的相互作用。

为什么重要

这一判断决定了未来两年的技术投资方向。如果预训练的边际效益递减,那么企业应将资源从“训练基础模型”转向“微调与应用构建”。


2. 关键技术要点

1. 推理时计算

  • 原理:不再一次性生成答案,而是让模型在输出前进行多步思考、自我反思和验证(如OpenAI o1模型)。
  • 实现:通过搜索算法、树状思维和过程奖励模型来引导模型探索解空间。
  • 难点:延迟增加和成本高昂。
  • 创新:将测试时的计算资源转化为模型性能,打破了传统模型参数规模的限制。

2. 后训练与对齐

  • 原理:在基础预训练之后,利用SFT(有监督微调)和RLHF/DPO(直接偏好优化)来塑造模型的行为。
  • 技术点:Lambert强调RLHF不仅仅是安全工具,更是提升模型逻辑推理能力的关键手段。

3. 编程与Agents

  • 原理:AI将具备自我迭代和工具调用的能力。
  • 实现:模型生成代码 -> 代码执行环境 -> 反馈结果 -> 模型修正代码。
  • 创新:从“对话者”变为“行动者”,这是通往AGI的关键一步。

4. 数据工程

  • 原理:高质量数据优于大规模数据。
  • 技术点:合成数据的使用,即用强模型生成数据来训练弱模型,形成“课程学习”。

3. 实际应用价值

对实际工作的指导意义

  • 停止重复造轮子:对于大多数企业,自研千亿参数模型已无必要。核心能力在于如何利用开源基座(如Llama, DeepSeek)结合私有数据进行后训练。
  • 关注推理成本:在评估模型时,不仅要看准确率,还要看“达到该准确率所需的推理Token数”。

应用场景

  1. 智能客服升级:从关键词匹配转向具备多步推理能力的Agent,能处理复杂订单和售后流程。
  2. 编程辅助:AI从补全代码转向架构设计、自动Debug和单元测试生成。
  3. 科学研究:利用AI的推理能力辅助假设生成和数据分析。

需要注意的问题

  • 幻觉问题:在Agent应用中,错误的工具调用可能导致系统性风险。
  • 数据隐私:企业数据在通过API传输或用于微调时的合规性。

实施建议

建立**“模型-数据-反馈”闭环**。不要只关注模型部署,要建立收集用户反馈(A/B测试、点赞/点踩)的机制,用于持续优化后训练流程。


4. 行业影响分析

对行业的启示

  • 硬件层:推理型芯片(如博通、LPU类产品)的市场份额将上升,挑战NVIDIA在训练领域的绝对垄断。
  • 模型层:模型将出现两极分化:云端超大模型(提供顶尖推理能力)和边缘侧中小模型(提供低延迟隐私保护)。

可能带来的变革

  • 软件开发的重构:程序员的角色将转变为“系统设计者”和“AI审查员”。代码的编写成本将趋近于零,而系统架构和提示词工程的价值将飙升。
  • 开源与闭源的界限模糊:随着中国(如DeepSeek, Qwen)和西方开源模型的强势崛起,闭源模型必须通过极强的推理能力来维持护城河。

对行业格局的影响

  • 中国AI的崛起:文章标题提及“中国”,意味着在算力受限的情况下,中国团队通过算法优化(如MoE架构、混合精度训练)和极致的工程化能力,正在输出世界级模型,这将打破美国的技术霸权,迫使全球市场重新洗牌。

5. 延伸思考

引发的思考

  • AGI的定义是否需要修正? 如果AI在数学和编程上达到专家级,但在情感和物理交互上仍有缺陷,这算AGI吗?
  • 能源瓶颈:Scaling Laws的尽头是能源。如果2026年模型继续指数级增长,数据中心能耗将成为不可逾越的物理限制。

拓展方向

  • 具身智能:LLM如何与机器人结合,让大模型拥有“手和脚”。
  • 世界模型:从预测下一个Token转向预测物理世界的视频/状态变化。

需进一步研究的问题

  • 如何在不依赖人类标注的情况下,让AI实现自我进化(Auto-RLHF)?
  • 如何量化“推理能力”?目前的Benchmark(如MMLU)已无法区分o1级别的模型。

6. 实践建议

如何应用到自己的项目

  1. 评估基座模型:选择Llama 3.1/3.2、Qwen 2.5或DeepSeek作为起点,而非从零训练。
  2. 构建RAG管线:利用知识库增强模型,减少幻觉。
  3. 引入Agent框架:使用LangChain或LlamaIndex构建简单的工具调用流程,自动化重复性工作。

具体的行动建议

  • 学习提示词工程:掌握CoT(思维链)提示技巧,这是激发模型推理潜能的最低成本方式。
  • 关注数据质量:清洗你的私有数据,格式化为Instruction Dataset,这是建立护城河的关键。

需补充的知识

  • 强化学习基础:理解PPO和DPO算法,理解模型是如何对齐的。
  • 系统架构:了解KV Cache、Speculative Decoding等推理加速技术。

7. 案例分析

成功案例:DeepSeek (中国)

  • 背景:在受到美国高端GPU禁运的背景下。
  • 策略:通过极致的工程优化(MoE架构、FP8训练)和强大的开源策略,发布了性能媲美GPT-4o但推理成本极低的模型。
  • 启示:算法效率的提升可以部分弥补硬件的短板,开源模型正在迅速逼近闭源SOTA。

失败/反思案例:过度依赖微调

  • 背景:许多企业试图用SFT(有监督微调)让基础模型掌握极其复杂的内部逻辑。
  • 问题:导致模型“灾难性遗忘”,且无法突破基座模型的上限。
  • 教训:不要试图用SFT教模型逻辑推理(这是预训练和RLHF的事),SFT应专注于格式、风格和领域知识注入。对于复杂逻辑,应使用RAG或Agent。

8. 哲学与逻辑:论证地图

中心命题

到2026年,AI发展的核心驱动力将从“参数规模的预训练”转向“推理时计算与后训练优化”,从而在编程和Agent领域实现接近人类水平的智能。

支撑理由

  1. 缩放定律的边际效应递减:单纯增加数据量和参数量带来的性能提升越来越昂贵且不显著(依据:Llama 3与GPT-4后续版本的对比分析)。
  2. 推理时计算的涌现:OpenAI o1证明了让模型“思考”更久可以显著提升数学和编程能力(依据:测试时计算理论)。
  3. 工程能力的普及:开源社区(如Hugging Face生态)使得训练和微调高难度模型的技术门槛大幅降低(依据:Llama、Qwen等模型的快速迭代)。

反例与边界条件

  1. 反例(数据瓶颈):如果互联网上的高质量文本数据耗尽,且合成数据导致“模型崩溃”,预训练缩放可能仍需通过视频或多模态数据继续推进。
  2. 边界条件(物理世界限制):如果能源供应无法满足数据中心的需求,或者推理延迟无法满足实时交互需求,Agent的应用将受到严重限制。

命题性质分析

  • 事实:当前AI模型确实在向推理和Agent方向发展。
  • 价值判断:认为这种发展方向优于单纯的参数扩大(更高效、更实用)。
  • 可检验预测:2026年,开源模型的推理能力将在特定任务(如Codeforces竞赛)上超越2024年的闭源巨头SOTA。

立场与验证

  • 立场:支持**“推理优先”(Inference-First)和“应用驱动”**(Application-Driven)的发展路径。
  • 验证方式
    • 指标:观察2025-2026年发布的模型,其技术报告中是否强调“测试时计算”大于“训练参数量”。
    • 实验:对比同等参数量下,经过复杂RLHF训练的模型与未经过训练的模型在Agent任务上的成功率。
    • 观察窗口:2025年全年,重点关注DeepSeek、OpenAI和Anthropic的架构发布。

最佳实践

最佳实践指南

实践 1:构建多模态智能体架构

说明: 随着 LLM 从单纯的对话接口向具备任务执行能力的智能体演进,企业应从单一文本交互转向构建具备自主规划、工具调用和记忆能力的系统架构。智能体将不仅是信息处理者,更是工作流中的任务执行者,能够处理复杂的端到端业务流程。

实施步骤:

  1. 评估现有业务流程,识别适合由智能体接管的高重复性、规则明确的任务链。
  2. 构建具备 RAG(检索增强生成)能力的知识库,确保智能体拥有私有数据上下文。
  3. 集成 API 调用能力,使模型能够操作企业内部软件工具(如 CRM、ERP)。
  4. 设计“人机协作”的监督机制,在关键决策节点设置人工审核环节。

注意事项: 避免过早赋予智能体完全自主权,应在沙箱环境中充分测试其工具调用的可靠性与安全性。


实践 2:优化算力利用率与异构计算策略

说明: 在 GPU 资源紧缺和成本高昂的背景下,单纯依赖硬件堆砌已不可持续。最佳实践转向极致的推理优化和混合计算架构,包括使用小模型(SLM)处理特定任务,以及利用 speculative sampling 等技术提高吞吐量。

实施步骤:

  1. 建立模型分级机制:使用 70B+ 参数模型处理复杂逻辑,使用 1B-8B 参数模型处理简单提取与分类任务。
  2. 部署模型量化与剪枝技术,将模型部署至边缘设备或更廉价的消费级显卡上。
  3. 实施动态路由策略,根据查询难度自动分配给不同规模的模型,以降低 50% 以上的推理成本。
  4. 探索非 Nvidia 生态(如 AMD、国产 ASIC 芯片)的兼容性,避免单一供应商锁定。

注意事项: 小模型在处理复杂推理或幻觉问题上表现较弱,需建立严格的输出验证护栏。


实践 3:建立数据飞轮与合成数据管道

说明: 随着高质量公域数据接近枯竭,Scaling Laws(缩放定律)的驱动力从“算力+数据量”转向“合成数据与数据质量”。企业必须建立内部数据飞轮,利用 AI 生成数据来训练下一代模型,形成自我进化的闭环。

实施步骤:

  1. 建立严格的数据清洗与打标流水线,确保用于微调的数据质量高于公域数据。
  2. 利用现有最强模型生成高质量的合成数据,用于训练特定领域的专家模型。
  3. 实施“AI 审查 AI”机制,使用强模型对弱模型的输出进行评分与筛选。
  4. 定期将真实用户反馈(尤其是负面反馈)回流至训练集,持续迭代模型。

注意事项: 合成数据可能导致“模型崩溃”,即模型遗忘长尾分布,必须保留一定比例的真实人类数据作为基座。


实践 4:拥抱 AI 原生开发范式

说明: AI 编程助手(如 Copilot)的普及已降低了编程门槛,开发者的角色正从“代码编写者”转变为“系统编排者”。最佳实践是利用 LLM 生成代码、测试用例和文档,同时人类专注于架构设计和业务逻辑验证。

实施步骤:

  1. 强制推行 AI 辅助编码工具覆盖率达到 100%,并建立相应的代码审查标准。
  2. 重构开发流程,采用“自然语言优先”的描述方式定义需求,再由 AI 生成初始代码。
  3. 建立自动化的回归测试套件,防止 AI 引入的细微错误或安全漏洞。
  4. 培养开发人员的 Prompt Engineering 能力,使其能够精准指导 AI 生成符合企业规范的代码。

注意事项: 开发者必须具备代码审计能力,盲目接受 AI 生成的代码会带来严重的安全隐患和技术债务。


实践 5:关注地缘政治下的供应链多元化

说明: 鉴于全球科技供应链的分化趋势,AI 领域出现多极化生态(如美国主导的 CUDA 生态与中国主导的国产化生态)。跨国企业和中国企业需制定差异化的技术栈与合规策略,以应对出口管制和主权 AI 需求。

实施步骤:

  1. 对于跨国业务:确保技术栈具有全球通用性,避免使用受制裁严重影响的特定硬件或云服务。
  2. 对于中国本土业务:加速适配国产 GPU(如华为昇腾、海光)及国产大模型,确保符合数据本地化法规。
  3. 建立模块化的系统架构,使得底层模型和硬件可以灵活替换,而不影响上层应用逻辑。
  4. 密切关注各国 AI 安全法案与出口管制政策,建立合规预警机制。

注意事项: 开源模型(如 Llama, Qwen)的下载和使用在不同司法管辖区有不同法律效力,需咨询法务意见。


实践 6:布局物理具身智能接口

说明: 随着大


学习要点

  • 推理能力的扩展定律(Scaling Laws)将成为2026年的核心范式,AI的价值将从单纯的数据预训练转向通过强化学习提升复杂任务的解决能力。
  • AI编程代理将实现从辅助生成到全流程自主开发的跨越,能够独立完成从架构设计到测试部署的完整软件工程任务。
  • AI智能体将具备更强的自主性和长期记忆能力,能够协同工作并执行多步骤的复杂工作流,从而大幅提升企业运营效率。
  • 随着模型性能提升的边际成本降低,AI应用的重点将从追求超大参数量转向在特定垂直领域实现高性价比的落地与投资回报率。
  • 中国AI生态正在快速形成独立闭环,在算力集群建设和应用层创新方面展现出强大的韧性与竞争力。
  • 尽管专用硬件不断涌现,高性能GPU依然是2026年限制大模型训练与推理速度的绝对核心瓶颈资源。
  • 通用人工智能(AGI)的定义将从静态的知识测试转向动态的经济价值创造,即AI能否在真实工作中以低成本替代人类高技能劳动。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章