2026年AI展望:大模型、智能体、算力与Scaling Laws


基本信息


摘要/简介

Nathan Lambert 和 Sebastian Raschka 是机器学习研究员、工程师和教育家。Nathan 是艾伦人工智能研究所 的后训练负责人,也是《The RLHF Book》一书的作者。Sebastian Raschka 是《Build a Large Language Model (From Scratch)》和《Build a Reasoning Model (From Scratch)》的作者。感谢大家的收听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 查看下方的章节时间点、文字实录,以及提供反馈、提交问题、联系 Lex 等方式。 文字实录:https://lexfridman.com/ai-sota-2026-transcript 联系 Lex: 反馈 – 向 Lex 提供反馈:https://lexfridman.com/survey AMA – 提交问题、视频或通过电话连线:https://lexfridman.com/ama 招聘 – 加入我们的团队:https://lexfridman.com/hiring 其他 – 其他联系方式:https://lexfridman.com/contact 赞助商:为了支持本播客,请查看我们的赞助商并获取折扣: Box:智能内容管理平台。请访问 https://box.com/ai Quo:面向企业的电话系统(通话、短信、联系人)。请访问 https://quo.com/lex UPLIFT Desk:站立式办公桌和办公人体工学。请访问 https://upliftdesk.com/lex Fin:面向客户服务的 AI 代理。请访问 https://fin.ai/lex Shopify:在线销售商品。请访问 https://shopify.com/lex CodeRabbit:AI 驱动的代码审查。请访问 https://coderabbit.ai/lex LMNT:零糖电解质冲剂。请访问 https://drinkLMNT.com/lex Perplexity:AI 驱动的答案引擎。请访问 https://perplexity.ai/ 概要: (00:00) – 简介 (01:39) – 赞助商、评论与思考 (16:29) – 中国 vs 美国:谁会赢得 AI 竞赛? (25:11) – ChatGPT vs Claude vs Gemini vs Grok:谁是赢家? (36:11) – 最适合编程的 AI (43:02) – 开源 vs 闭源大语言模型 (54:41) – Transformers:2019 年以来 LLM 的演进 (1:02:38) – AI 扩展定律:已死还是依然成立? (1:18:45) – AI 如何训练:预训练、中期训练 和后训练 (1:51:51) – 后训练详解:令人兴奋的新研究方向


导语

随着 2026 年的临近,人工智能领域正处于从单纯的大模型向智能体与推理系统演进的关键节点。本期对话邀请到了机器学习领域的资深研究员与工程师,深入剖析了算力瓶颈、Scaling Laws 的未来以及中国 AI 的崛起等核心议题。通过阅读本文,读者可以清晰地把握当前技术发展的真实脉络,并对通用人工智能(AGI)的落地路径建立更为理性的认知。


摘要

这是基于 Lex Fridman 播客(#490)中 Nathan Lambert 和 Sebastian Raschka 对谈内容的总结,主要围绕 2026 年 AI 的发展状态 进行了前瞻性讨论。

以下是核心内容的简洁总结:

1. AI 地缘政治:中国 vs. 美国

  • 竞争现状:虽然美国目前在模型能力(尤其是推理模型)和硬件(GPU)方面领先,但中国正在快速追赶。
  • 中国的优势:中国拥有强大的应用层生态系统和极高的数据利用效率。
  • 限制因素:美国对高端芯片(如 H100)的出口限制确实延缓了中国的进度,但中国正在寻找应对方案,包括构建独立的 AI 堆栈,这可能会导致全球 AI 生态出现分化(即出现“中国版 AI”和“西方版 AI”)。

2. 大模型格局:谁在赢?

  • 头部梯队:目前 OpenAI (ChatGPT)、Anthropic (Claude) 和 Google (Gemini) 被视为第一梯队。Claude 因其更自然的交互感被很多研究者喜爱;Gemini 正在快速进步。
  • 开源 vs 闭源:讨论了开源模型(如 Llama)与闭源模型之间的差距。虽然闭源模型在性能上仍占优,但开源社区的创新速度极快,Meta 的 Llama 模型在推动行业普及方面起到了关键作用。

3. 编程与 AI Agent

  • 编程领域的革命:嘉宾认为编程是当前 AI 最具落地价值的场景。像 Cursor 这样的工具已经极大地改变了开发流程,AI 正在从“补全代码”转向“协助构建整个项目”。
  • AI Agent (智能体):未来的重点是从“聊天机器人”转向“Agent”。Agent 不仅能对话,还能规划步骤、调用工具并自主完成任务。这将是 2026 年的重要发展方向。

4. 扩展定律与架构演进

  • Scaling Laws (缩放定律) 是否依然有效?:嘉宾认为单纯的“预训练 + 算力堆砌”带来的收益正在递减(数据质量成为瓶颈)。
  • 训练阶段的变化:AI 训练不再只是简单的“预训练 + 微调”。
    • Pre-training:学习基础知识。
    • **Mid

评论

基于文章标题及作者背景,结合当前AI发展趋势(特别是2024年底至2025年初的语境),对该文进行深度评价。

中心观点

文章核心观点: 到2026年,AI行业将从“大力出奇迹”的通用大模型预训练时代,正式转向以推理模型、智能体和垂直落地为核心的后训练时代,同时地缘政治因素将重塑全球算力与算法的竞争格局。

深度评价与分析

1. 内容深度与论证严谨性

评价: 文章内容具有极高的行业敏锐度,论证逻辑建立在“算力边际效益递减”这一关键事实之上。

  • 支撑理由:
    • Scaling Laws的修正(事实陈述): 作者(特别是Nathan Lambert作为后训练专家)可能指出,单纯的数据堆砌已难以带来同等水平的智能提升。行业风向标(如OpenAI o1)已证明,通过“计算时优化”和强化学习来增强模型的推理能力,比单纯扩大参数量更有效。
    • 中国因素(作者观点): 文章可能将中国视为一个独立且极具韧性的变量。尽管受到高端GPU(如H100)禁运的影响,中国团队(如DeepSeek、阿里等)通过算法优化(如MoE架构、量化技术)实现了极高的性价比,迫使全球重新评估“算力霸权”的绝对性。
  • 反例/边界条件:
    • 边界条件: 如果谷歌Gemini或OpenAI下一代模型展示了通过万亿级Token继续涌现的新能力,Scaling Law可能尚未失效,推理模型可能只是过渡形态。
    • 反例: 开源模型(如Llama系列)如果无法在2026年缩小与闭源顶尖模型的差距,行业将重新陷入寡头垄断,而非文章可能设想的百花齐放。

2. 实用价值与创新性

评价: 文章对工程师和研究者的路径选择具有极强的指导意义,特别是在从“模型构建”向“模型应用”转型的关口。

  • 支撑理由:
    • Agents与Coding(作者观点): Sebastian Raschka(著有《从零构建大模型》)可能强调,未来的核心不再是“写一个Transformer”,而是“如何让LLM可靠地调用工具”。编程辅助将从“补全代码”进化为“自主解决Ticket”,这将彻底改变软件工程的工作流。
    • 后训练的重要性(你的推断): 文章会强调RLHF(人类反馈强化学习)和RLAIF(AI反馈)的权重将超过预训练。这意味着企业构建护城河的方式,将从拼算力转向拼高质量的人类反馈数据和对齐技术。
  • 反例/边界条件:
    • 反例: 如果Agent的幻觉率在复杂任务中无法控制在5%以下,企业将不敢将其用于核心业务链,导致技术只能停留在“演示阶段”。
    • 边界条件: 对于初创公司,如果大模型厂商(如Microsoft、AWS)将Agent能力封装得过于完善,中间层工具提供商将面临“被吞并”或“被架空”的风险。

3. 行业影响与争议点

评价: 文章触及了当前最敏感的地缘政治与技术伦理议题,具有广泛的行业影响力。

  • 支撑理由:
    • AGI的重新定义(作者观点): 文章可能挑战现有的AGI定义。如果模型能通过推理解决从未见过的数学问题,是否算作AGI?这种讨论将影响资本市场的估值逻辑。
    • GPU短缺与替代方案(事实陈述): 随着模型训练从预训练向后训练(推理)转移,对推理时显存带宽的要求将高于对算力密度的要求,这可能导致H20等芯片比H100更受欢迎,改变硬件销售格局。
  • 反例/边界条件:
    • 争议点: 关于“中国能否在算力受限下追赶”的观点存在巨大分歧。一方认为算法可以弥补算力,另一方认为基础物理差距(FLOPs)无法逾越。
    • 反例: 如果能源危机(电力短缺)在2026年前爆发,所有关于大模型扩展的预测都将失效,行业将被迫转向小模型(SLM)。

实际应用建议

基于文章的潜在逻辑,提出以下建议:

  1. 工程团队: 减少对基础架构的重复造轮子,将研发重心转移到数据飞车推理时验证上。
  2. 投资策略: 关注那些拥有独占垂直数据高质量RLHF标注能力的公司,而非仅仅拥有算力的公司。
  3. 技术选型: 在2026年前,优先评估支持长上下文结构化输出的模型,这是Agent应用的基础。

可验证的检查方式

为了验证文章观点的准确性,建议在以下窗口期观察关键指标:

  1. 指标观察(2025年Q3-Q4): 检查开源模型(如Llama 4或DeepSeek下一代)在MATH/GPQA等推理基准测试上,是否达到或超越GPT-4o的水平。如果开源模型在推理能力上仍落后一个数量级,则“Agents普及”的预测将推迟。
  2. 市场观察(每季度): 监控头部AI公司的资本开支中,推理成本训练成本的比例是否发生倒挂。如果推理成本占比超过50%,说明

技术分析

2026年AI技术发展前瞻:架构演进与算力约束下的技术路径

1. 核心观点深度解读

主要观点: 文章指出,AI技术发展的重心正在发生转移:从单纯依赖算力堆砌的预训练,转向更注重数据质量、推理时计算和系统优化的后训练阶段。

核心思想传达: 作者强调,未来的技术突破不再仅仅通过增加模型参数来实现。重点转向了合成数据的应用、推理能力(如思维链)的提升以及Agent系统的工程化落地。同时,地缘政治因素导致的硬件限制(如高端GPU供应)将促使中国AI产业在算法效率和应用层面寻求差异化发展。

观点的创新性与深度: 该分析超越了传统的“缩放定律”视角,引入了**“推理缩放”“测试时计算”**的概念。它结合了模型构建与对齐训练的视角,指出了AGI发展路径正从“规模扩张”向“质量与效率提升”转变。

重要性: 这一分析为行业从业者提供了关键的技术路线图。它表明,未来的竞争优势将取决于后训练优化、推理效率以及特定场景的工程化能力,而非仅仅是基础模型的规模。

2. 关键技术要点

涉及的关键技术或概念

  1. 后训练与对齐: 重点讨论了RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)在模型对齐中的应用。
  2. 推理模型: 类似OpenAI o1的思维链推理技术,通过增加推理阶段的计算量来提升输出质量。
  3. 合成数据: 利用强模型生成数据以训练弱模型,应对高质量文本数据枯竭的挑战。
  4. Agent系统: 具备多步骤规划、工具调用和任务执行能力的智能体架构。
  5. 算力优化: 针对受限GPU资源下的模型量化、高效微调及推理加速技术。

技术原理与实现方式

  • 推理增强: 区别于传统的一次性生成,新技术引入了多步“自我反思”机制。利用蒙特卡洛树搜索(MCTS)或类似算法,在推理时进行路径探索和优化。
  • 后训练流程: 标准流程为“预训练 -> 监督微调(SFT) -> 强化学习(RL)”。当前趋势是强化RL阶段,通过自我博弈等方式提升模型逻辑能力。

技术难点与解决方案

  • 难点: 数据枯竭与模型幻觉。
    • 解决方案: 引入合成数据,但需防范“模型崩溃”,需配合严格的数据清洗与真实数据混合策略。
  • 难点: 推理延迟增加。
    • 解决方案: 采用推测解码等工程手段优化推理速度。

3. 实际应用价值

对实际工作的指导意义

  • 编程领域: AI编程助手预计将从代码补全演进为模块级代码生成。开发者的工作重心将向代码审查与架构设计迁移。
  • 企业落地: 企业策略应从自研基础模型转向基于开源模型(如Llama, DeepSeek)的后训练及RAG(检索增强生成)应用开发。

应用场景

  • 科研辅助: 自动化处理文献综述与实验流程设计。
  • 复杂业务处理: 能够执行多步骤操作的客服Agent,处理如退款、工单调度等复杂业务逻辑。

实施建议

  • 关注**小模型(SLM)**的潜力,在端侧设备部署经过良好微调的模型,在特定场景下可能比调用云端大模型更具性价比和隐私优势。

4. 行业影响分析

对行业的启示

行业竞争点正在从“基础模型供给”向“应用层服务”转移。拥有高质量私有数据(非互联网公域数据)的企业将建立更稳固的竞争壁垒。

可能带来的变革

  • 软件开发模式: 软件开发的边际成本降低,核心竞争力转向产品定义与用户体验设计。
  • 硬件市场: 针对推理场景优化的ASIC和专用芯片市场份额有望提升,改变现有的硬件市场格局。

对中国的影响

文章特别提及中国AI产业,指出在面临高端算力(如H100/A100)进口限制的背景下,中国技术路径将更加侧重于算法效率优化、国产硬件适配以及应用层的快速迭代。


最佳实践

最佳实践指南

实践 1:构建模型无关的弹性技术架构

说明: 随着 2026 年 LLM 快速迭代和 Scaling Laws 的持续验证,模型能力每几个月就会发生跃升。企业不应过度依赖单一特定的闭源模型,而应建立能够灵活切换底层模型的架构。这要求企业在应用层与模型层之间建立标准化的接口层,以便在开源与闭源、或不同供应商(如 OpenAI 与中国本土大模型)之间无缝迁移,利用最新模型的能力红利。

实施步骤:

  1. 建立统一的模型网关层,屏蔽底层模型差异。
  2. 采用标准化提示词工程或微调接口,确保业务逻辑与模型解耦。
  3. 定期(如每季度)评估市场上新发布的模型性能与成本比。
  4. 设计混合云策略,同时准备接入国际顶尖模型与国内合规模型。

注意事项: 在切换模型时,必须严格评估输出格式的稳定性和安全对齐程度,避免因模型变动导致下游业务解析错误。


实践 2:部署以代理为核心的工作流自动化

说明: AI 的价值正从单一的“对话交互”转向“任务执行”。2026 年的 AI 应用将更多表现为 Agents(智能体),即能够自主规划、调用工具并执行复杂任务的系统。企业应将关注点从单纯的文本生成转向构建能够处理端到端业务流程的智能体,例如自动编写代码、测试并部署的 DevOps Agent,或自动处理客户投诉并退款的服务 Agent。

实施步骤:

  1. 识别业务中高重复性、多步骤的操作流程。
  2. 为 AI Agent 配置必要的工具权限,如 API 访问权、数据库查询权或代码执行环境。
  3. 设计“人机协同”机制,对于高风险操作设置人工审核节点。
  4. 从简单的 RAG(检索增强生成)助手逐步进化为具备规划和反思能力的自主 Agent。

注意事项: Agent 的自主性带来了不可控风险,必须实施严格的权限沙箱机制,防止 AI 在执行任务时产生破坏性操作(如误删数据)。


实践 3:实施“AI 优先”的软件工程策略

说明: 在 AI 编程能力(如 Copilot 及其继任者)大幅提升的背景下,2026 年的软件开发范式将发生根本性转变。编码不再是瓶颈,系统设计和需求理解成为核心。企业和开发者应放弃“先写代码再优化”的传统模式,转而采用自然语言描述需求、由 AI 生成初版代码、开发者进行 Code Review 和调试的新流程。这要求开发者从“代码编写者”转型为“代码审查者和架构师”。

实施步骤:

  1. 全员普及 AI 编程助手,并将其集成到 IDE 和 CI/CD 流程中。
  2. 建立新的代码审查标准,重点关注 AI 生成代码的安全性和逻辑漏洞。
  3. 重构技术文档,使其更结构化,便于 AI 理解上下文。
  4. 投资于测试覆盖率,因为 AI 生成的代码可能存在隐蔽的边界条件错误。

注意事项: 警惕 AI 引入的代码同质化问题和潜在的许可证侵权风险,需建立扫描 AI 生成代码来源的合规流程。


实践 4:建立混合算力与供应链韧性体系

说明: 在 GPU 短缺和地缘政治(特别是针对中国的芯片出口管制)的背景下,算力成本和可用性成为制约 AI 发展的关键。企业不能仅依赖昂贵的旗舰 GPU(如 H100),而应建立包含推理专用芯片、云上弹性算力以及国产算力在内的混合算力体系。同时,应优化推理效率,通过模型量化、蒸馏等技术降低对高端硬件的依赖。

实施步骤:

  1. 评估业务负载,将训练任务(需高算力)与推理任务(需高并发)分离。
  2. 探索使用小参数模型(SLM)处理特定垂直领域任务,以降低算力需求。
  3. 关注并测试中国国产 AI 芯片的兼容性与性能,制定备选方案。
  4. 实施积极的模型缓存和批处理策略,最大化 GPU 利用率。

注意事项: 在迁移至国产算力平台时,需仔细验证软件栈(CUDA 替代品)的成熟度,确保迁移成本在可控范围内。


实践 5:制定适应 AGI 时代的治理与合规框架

说明: 随着 AGI(通用人工智能)的时间线临近,AI 的风险从“功能失效”转向了“自主性失控”和“伦理偏见”。特别是在中国及全球监管趋严的环境下,企业必须建立超越当前数据安全法规的 AI 治理体系。这包括对训练数据的版权确权、模型输出的偏见检测,以及针对 AI 代理行为的责任归属认定。

实施步骤:

  1. 建立内部的 AI 伦理委员会,定期审查高风险 AI 应用。
  2. 在模型发布前实施严格的“红队测试

学习要点

  • 2026年AI发展的核心主题是推理能力的突破,模型将从单纯的概率预测转向具备复杂逻辑思考和规划能力的系统。
  • AI编程助手将彻底改变软件开发模式,从辅助工具进化为能够独立完成端到端任务的高级工程师,大幅降低技术门槛。
  • 通用人工智能(AGI)的时间表被大幅提前,顶尖实验室认为通过“推理扩展”和“系统2思维”的实现,AGI可能在2026-2027年到来。
  • AI智能体将超越单纯的对话交互,进化为能够自主控制计算机、执行复杂工作流并独立解决问题的自主系统。
  • 算力基础设施的瓶颈将从GPU短缺转向能源供应,电力和数据中心容量将成为限制模型进一步扩展的主要物理约束。
  • 中国AI生态正在形成独立于西方的完整技术栈,通过国产芯片和自主模型在特定垂直领域构建强大的竞争力。
  • 模型扩展的重点将从单纯增加参数规模转向通过合成数据和强化学习来提升模型在推理阶段的计算效率与质量。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章