2026年AI展望:LLM、智能体、缩放定律与中国发展


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究人员、工程师和教育家。Nathan 是艾伦人工智能研究所 的后训练负责人,也是《The RLHF Book》的作者。Sebastian Raschka 是《从零构建大语言模型》 和《从零构建推理模型》 的作者。感谢您的收听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 下方包含时间戳、文字记录,以及提供反馈、提交问题、联系 Lex 等方式。 文字记录:https://lexfridman.com/ai-sota-2026-transcript 联系 LEX: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或来电:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact 赞助商:若需支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。访问 https://box.com/ai Quo:企业电话系统(通话、短信、联系人)。访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和人体工学办公。访问 https://upliftdesk.com/lex Fin:客服 AI 智能体。访问 https://fin.ai/lex Shopify:在线销售平台。访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。访问 https://coderabbit.ai/lex LMNT:零糖电解质冲剂。访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。访问 https://perplexity.ai/ 概要: (00:00) – 简介 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁将赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁目前领先? (36:11) – 编程最佳 AI 工具 (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformer:2019 年以来大语言模型的演进 (1:02:38) – AI 缩放定律:是已失效还是依然有效? (1:18:45) – AI 如何训练:预训练、中期训练和后训练 (1:51:51) – 后训练详解:激动人心的全新研究方向


导语

随着大模型技术从实验室走向大规模应用,2026 年的 AI 格局正面临算力瓶颈、智能体落地与地缘政治等多重挑战。本文基于 Nathan Lambert 和 Sebastian Raschka 的深度对话,剖析了 LLM 缩放定律的演进、编程工具的迭代以及中国在全球 AI 竞争中的角色。通过阅读此文,读者可以清晰把握当前技术发展的关键节点,并对 AGI 的实现路径建立更务实的认知。


摘要

这是对 Lex Fridman 播客第 490 期内容的简要总结。本期嘉宾是机器学习研究员 Nathan Lambert(Ai2 后训练负责人)和 Sebastian Raschka(《从头构建大语言模型》作者)。以下是对话的核心观点:

1. 中美 AI 竞赛:谁在领先?

  • 美国优势:目前在算法创新和基础模型能力上处于领先地位,拥有强大的 GPU 资源和人才储备。
  • 中国现状:虽然受到芯片禁令的限制,但中国模型(如 DeepSeek 等)的发展速度惊人,效率极高,正在快速缩小差距。未来的竞争将更多集中在工程化落地和实际应用层面。

2. 大模型之战:ChatGPT vs Claude vs Gemini vs Grok

  • 格局:目前处于“群雄割据”状态,没有绝对的单一霸主。
  • ChatGPT (OpenAI):依然被视为模型能力的标杆,但领先优势在缩小。
  • Claude (Anthropic):在长上下文处理、写作质量和安全性方面表现出色,深受用户喜爱。
  • Gemini (Google):拥有强大的多模态能力和数据优势,但在产品整合上仍有提升空间。
  • Grok (xAI):差异化在于实时数据和更自由的对话风格,发展速度极快。

3. AI 编程与开源 vs 闭源

  • 最佳编码 AI:对于资深开发者,Claude 3.5 Sonnet 和 GPT-4o 依然是首选,它们在代码生成和调试上表现出色。开源模型(如 Llama 和 Qwen)正迅速逼近闭源模型的能力,且更具隐私优势。
  • 开源趋势:开源模型正在变得非常强大,Meta 的 Llama 系列和其他开源项目为研究者和企业提供了除 OpenAI 和 Google 之外的高质量选择。

4. 缩放定律与模型训练

  • 缩放定律:Scaling Laws(扩展定律)并未“死亡”,但正在发生变化。仅仅靠增加算力和数据量(预训练)带来的红利正在递减。
  • 训练新范式:焦点已从单纯的“预训练”转向“后训练”和推理增强。
    • 预训练:让模型学习知识。
    • **后

评论

中心观点 文章核心观点在于:2026年AI行业将从“暴力美学”的模型规模扩张,转向以推理优化、智能体落地及地缘政治博弈为特征的“精耕细作”与“分化”阶段,单纯依赖算力堆叠的边际效用将急剧递减。

支撑理由与深度评价

1. 推理模型的崛起与Scaling Laws的修正(事实陈述 + 作者观点)

  • 分析: 文章指出2026年将是推理模型的爆发期。这对应了当前行业从“预训练”向“后训练”和“推理时计算”转移的趋势。OpenAI o1模型的出现证明了通过强化学习和思维链让模型在测试时进行“慢思考”,比单纯增加训练参数更高效。
  • 深度评价: 这是一个极具洞察力的判断。传统的Scaling Laws(缩放定律)主要关注训练计算量,而新的范式正在转向“推理计算”。这意味着行业将不再盲目追求万亿参数的基座模型,而是追求更小、但在推理阶段能通过搜索和验证机制达到更高性能的模型。这直接降低了推理成本,提高了垂直领域的落地可能性。
  • 反例/边界条件: 并非所有任务都需要复杂的推理。对于简单的文本生成、摘要或情感分析,昂贵的推理模型可能是一种资源浪费,传统的BERT类模型或小型LLM(SLM)依然具有极高的性价比。

2. “AI Agent”从概念走向工程化落地(作者观点 + 行业推断)

  • 分析: 文章强调Agent(智能体)将成为连接LLM与实际业务的关键。这不仅仅是聊天机器人,而是具备规划、记忆和工具使用能力的系统。
  • 深度评价: 从技术角度看,Agent是LLM的“操作系统”。2026年的重点将在于解决Agent的稳定性问题。目前的Agent往往在80%的场景下表现完美,但在剩下的20%中会出现循环逻辑或工具调用失败。文章可能隐含了这样一个观点:Agent的成熟度将决定企业级AI应用的成败。
  • 反例/边界条件: 在高风险场景(如医疗手术决策、金融高频交易),Agent的“幻觉”和不可解释性仍是巨大阻碍。在这些领域,Copilot(副驾驶)模式(人机协同)将比完全自主的Agent(自动驾驶)更受欢迎。

3. 地缘政治与中国AI的“硬核”突围(事实陈述)

  • 分析: 作为Ai2的研究员,作者客观提及了美国出口管制对中国GPU供应的限制,并预测这将迫使中国发展独特的软件生态。
  • 深度评价: 这是一个非常务实且被西方主流媒体经常忽视的视角。中国无法获得H100等顶级芯片,必然倒逼算法层面的创新。例如,华为昇腾生态与国产大模型的深度适配,以及在量化、剪枝等模型压缩技术上的激进投入。这可能导致中美AI技术栈的分叉:美国追求“堆算力”,中国追求“压榨算力”。
  • 反例/边界条件: 基础研究的停滞风险。如果没有最顶底的算力储备去探索未知的科学边界(例如探索物理世界的模拟),中国AI可能在长周期的原创性发现上落后于美国。

4. 编程范式的彻底重构(实用价值)

  • 分析: Sebastian Raschka作为教育者,必然关注AI如何改变编程。文章预测AI将从“辅助写代码”进化为“系统架构师”。
  • 深度评价: 这对开发者既是危机也是机遇。未来的软件工程不再是手写每一行代码,而是编写“生成代码的AI”并验证其输出。自然语言编程将成为现实,但同时也引入了新的技术债——由AI生成的不可维护代码。
  • 反例/边界条件: 对于底层系统编程(操作系统内核、驱动程序),AI目前的生成质量仍不稳定,且对性能极致优化的需求使得人工编码依然不可替代。

争议点与批判性思考

  1. AGI的时间表过于乐观? 文章标题提及AGI,暗示2026年可能接近奇点。然而,目前的LLM仍缺乏真正的世界模型和因果推理能力。如果2026年不能解决“数据枯竭”问题(即高质量人类文本被耗尽),Scaling Laws可能会撞墙,AGI的预测可能只是资本市场的泡沫。
  2. “Coding is Dead”的论调 虽然AI写代码能力极强,但软件工程的核心是解决复杂系统的耦合问题,而不仅仅是语法生成。AI可能降低了初级程序员的门槛,但提升了系统架构师的重要性。

实际应用建议

  1. 企业战略: 不要盲目追求微调千亿参数模型。应关注RAG(检索增强生成)Agent工作流的结合,利用小模型解决具体问题。
  2. 技术选型: 关注推理优化技术(如Speculative Decoding, KV Cache优化)。在算力受限的环境下,推理速度比模型大小更重要。
  3. 个人发展: 工程师应从“Coder”转型为“AI Orchestrator”。掌握Prompt Engineering和评估模型输出质量的能力,将比单纯背诵语法更有价值。

可验证的检查方式

  1. 指标观察: 关注2026年SOTA模型在推理阶段的Token消耗占比。如果推理成本大幅下降且性能超越GPT-4,则证明“推理时计算”范式成立。
  2. 行业观察: 观察中国头部大模型厂商(如智谱

技术分析

2026 年 AI 技术发展态势分析:模型演进、算力与地缘政治

1. 核心观点深度解读

文章主要观点

基于标题 "#490 – State of AI in 2026" 及作者背景,文章旨在对 2026 年的 AI 技术格局进行中期预测。核心观点包括:

  1. Scaling Laws(缩放定律)的演进:单纯依赖参数规模增长的路径将面临边际效应递减,技术重心转向“数据质量优化”与“推理时计算”的效率提升。
  2. Agents(智能体)成为应用核心:AI 的形态从单一交互工具演变为具备规划、记忆和工具调用能力的智能体,深刻影响软件工程与自动化工作流。
  3. 地缘政治与硬件约束:受限于 GPU 供应及能源瓶颈,中国 AI 生态预计将发展出差异化的“软硬一体”优化路径,形成独立的技术体系。

作者核心思想

技术发展的主导权正从**“预训练”“后训练”**转移。Sebastian Raschka(模型构建专家)侧重于模型架构的优化与推理能力的内化;Nathan Lambert(RLHF 专家)则强调对齐技术不仅是安全保障,更是提升模型逻辑推理和任务完成率的关键手段。

观点的创新性与深度

  • 创新性:将 AGI(通用人工智能)的讨论从时间点预测转向技术路径分析,特别是通过 System 2(慢思考/推理模式)实现的可能性。
  • 深度:探讨了“后训练时代”的技术栈,即如何利用合成数据和强化学习(RL)在现有硬件限制下挖掘模型性能极限。

观点的重要性

这标志着 AI 行业从“算力堆叠”阶段进入“算法优化与精细化管理”阶段。对于从业者和投资者而言,识别这一拐点对于未来的技术选型和资源配置至关重要。


2. 关键技术要点

涉及的关键技术或概念

  1. Test-Time Compute(推理时计算):类似 OpenAI o1 模式,模型在生成最终输出前进行多步自我博弈与规划。
  2. Post-Training(后训练):包括 SFT(监督微调)和 RLHF/RLAIF(基于人类/AI 反馈的强化学习),特别是针对推理能力的强化。
  3. Synthetic Data(合成数据):利用高性能模型生成数据来训练其他模型,以应对人类数据的枯竭。
  4. Agentic Frameworks(智能体框架):如 Computer Use(计算机控制)与多智能体协作机制。

技术原理和实现方式

  • 原理:不再追求单次预测的准确性,而是允许模型在输出过程中分配更多计算资源进行搜索、验证和修正。
  • 实现:结合 Monte Carlo Tree Search (MCTS) 等搜索算法与 LLM 的策略函数,在推理阶段展开思维链。

技术难点和解决方案

  • 难点:推理时计算带来的高延迟、高成本;合成数据可能导致的“模型崩溃”。
  • 方案:采用知识蒸馏技术,将大模型的推理能力迁移至小模型;实施严格的数据清洗与过滤算法。

技术创新点分析

主要创新在于算法与硬件的协同设计。为应对 GPU 短缺,模型架构(如 MoE, 混合专家模型)将更加精细化,旨在控制推理成本的同时提升模型容量。


3. 实际应用价值

对实际工作的指导意义

  • 软件开发:预计到 2026 年,AI 编程助手将从代码补全进化为能够独立完成模块级任务的助手。开发者角色将向“系统架构设计”和“AI 产出审核”转型。
  • 企业部署:企业不应盲目追求千亿参数规模的通用模型,而应关注针对特定任务进行后训练的中小规模模型(7B-70B),以获得更高的性价比。

适用场景

  • 复杂推理任务:法律合同审查、科学研究假设验证、多步骤数学问题求解。
  • 自主运营:AI 客服系统将从简单的问答升级为能够处理复杂用户请求和跨系统操作的智能体。

最佳实践

最佳实践指南

实践 1:构建高适应性的混合智能架构

说明: 随着模型规模扩展带来的边际效应递减以及推理成本的考量,单纯依赖单一超大模型已不再是最佳策略。未来的竞争力在于将不同规模的模型(用于复杂逻辑的大模型与用于高频、低成本任务的小模型)与传统软件(确定性逻辑)进行有机结合。

实施步骤:

  1. 评估业务流程,区分需要创造性推理的任务(分配给 LLM)和需要高精度、低延迟的任务(分配给传统代码或小模型)。
  2. 建立模型路由机制,根据任务复杂度动态调用不同规模的模型。
  3. 投资于小模型的微调能力,以确保在特定垂直领域的表现优于通用大模型。

注意事项: 避免在所有场景下强行使用大模型,这会导致成本激增且响应变慢。需持续监控混合架构的投入产出比(ROI)。


实践 2:部署以“人机协同”为核心的智能代理

说明: 虽然 AI Agent(智能体)在 2026 年将具备更强的自主性和规划能力,但在高风险和复杂决策场景下,完全自主的 Agent 仍存在幻觉和不可控风险。最佳实践是将 Agent 定位为“副驾驶”而非“自动驾驶”,强调人类监督与审核的闭环。

实施步骤:

  1. 设计 Agent 工作流时,在关键决策节点强制引入人工确认机制。
  2. 建立清晰的 Agent 权限边界,禁止其直接执行破坏性操作(如删除数据、大额资金转账)。
  3. 利用 LLM 的生成能力辅助人类编写代码或文档,但保留代码审查和最终发布权给人类专家。

注意事项: 警惕 Agent 的“长尾”错误,不要过度神话其自主能力。在部署初期,应限制 Agent 的操作范围(沙箱环境)。


实践 3:实施面向模型训练的数据资产管理战略

说明: 随着 Scaling Laws(扩展定律)从单纯追求参数量转向追求高质量训练数据,数据已成为新的算力。通用互联网数据已接近枯竭,拥有私有化、高质量、合成生成的数据集将是构建护城河的关键。

实施步骤:

  1. 建立严格的数据清洗和标注流水线,确保用于微调或预训练的数据具有高信噪比。
  2. 探索“合成数据”生成技术,利用现有强模型生成训练数据来训练特定领域的小模型。
  3. 建立数据版本控制与合规审查机制,确保数据来源符合版权及隐私法规(特别是针对跨国业务)。

注意事项: 低质量数据会导致模型“灾难性遗忘”或性能退化。合成数据需经过严格验证,以防止模型坍塌。


实践 4:建立多元化的算力冗余与供应链体系

说明: 在全球 GPU 供应紧张及地缘政治(如美国对华芯片禁令)影响下,算力供应链的脆弱性成为重大风险。企业不能仅依赖单一供应商或单一类型的硬件加速器。

实施步骤:

  1. 在硬件采购上,保持对 NVIDIA 以外替代品(如 AMD、国产 AI 芯片)的技术关注与测试。
  2. 优化推理框架,支持在不同硬件后端之间的平滑迁移,避免被特定厂商的生态(如 CUDA)深度锁定。
  3. 建立云原生与本地部署的混合算力池,以便在突发供应限制时灵活切换。

注意事项: 迁移成本可能很高,需在应用层设计时就考虑硬件无关性。评估国产或替代芯片时,需重点关注软件栈的成熟度。


实践 5:制定针对 AI 时代的防御性安全策略

说明: 随着 LLM 能够生成高质量的恶意代码和钓鱼邮件,以及 AI 系统本身成为攻击目标(如提示词注入),传统的安全边界已失效。安全实践必须从“防漏洞”转向“防 AI 攻击”和“用 AI 防御”。

实施步骤:

  1. 部署专门的 LLM 防火墙,用于检测和拦截针对内部 AI 服务的提示词注入攻击。
  2. 利用 AI 模型实时监控异常流量和代码行为,建立基于行为分析的动态防御体系。
  3. 对开发团队进行 AI 安全培训,规范 API 调用方式,防止敏感数据通过 Prompt 泄露。

注意事项: 传统的 WAF(Web应用防火墙)无法有效识别针对语义逻辑的攻击。安全策略需覆盖模型输入、输出及中间上下文。


实践 6:关注垂直领域的“小模型”落地与边缘推理

说明: 2026 年的 AI 趋势将部分从云端巨型模型向边缘端的高效小模型转移。在手机、PC 或物联网设备上运行的模型能提供更好的隐私保护和更低的延迟。

实施步骤:

  1. 识别对隐私敏感或对延迟要求极高的业务场景(如离线语音助手、本地文档分析)。
  2. 采用知识蒸馏技术,将大模型的能力迁移到适合端

学习要点

  • 2026年AI发展的核心趋势是从单纯的聊天机器人向具备推理能力和行动力的智能体演进,使其能够独立完成复杂的多步骤任务。
  • AI编程助手将彻底改变软件工程,预计在2026年将大幅提升开发效率并成为程序员的必备工具。
  • 预训练模型的规模定律正在向推理时的计算转移,未来AI的性能提升将更多依赖于在测试阶段增加计算资源而非仅依赖模型规模。
  • 中国正在构建独立于美国的AI生态系统,尽管面临先进芯片获取受限的挑战,但仍在模型能力和应用层面快速追赶。
  • AGI(通用人工智能)的进程可能比预期更快,专家预测在2026年至2027年间,我们可能会看到具备博士级智力水平的系统出现。
  • GPU短缺仍是限制AI发展的主要瓶颈,但软件优化和推理效率的提升正在逐步缓解硬件供应不足带来的压力。
  • 企业级AI应用将从实验阶段转向大规模落地,重点在于解决具体的业务问题而非仅仅展示模型的能力。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章