Yann LeCun新公司AMI融资10亿美元开发世界模型
基本信息
- 来源: Latent Space (blog)
- 发布时间: 2026-03-11T06:46:30+00:00
- 链接: https://www.latent.space/p/ainews-yann-lecuns-ami-labs-launches
摘要/简介
World Models 是下一代 AI 所需的。
导语
Yann LeCun 刚刚宣布成立的 AMI Labs 获得了巨额融资,旨在通过 JEPA 架构构建下一代“世界模型”。这一动向标志着业界正加速从单纯的语言处理转向对物理世界的深层理解,试图突破当前生成式 AI 的逻辑与推理瓶颈。本文将梳理 AMI Labs 的技术路径与战略布局,帮助读者把握这一前沿趋势及其对通用人工智能发展的实际意义。
摘要
Yann LeCun 的 AMI Labs 启动:筹集 10 亿美元打造世界模型
核心摘要 图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 的新创公司 AMI Labs 正式宣布启动。该公司以 4.5 亿美元 的估值完成了 1 亿美元 的种子轮融资,旨在构建下一代人工智能的核心技术——世界模型。
关键信息
公司愿景:构建世界模型 AMI Labs 的成立是为了解决当前生成式 AI(如大语言模型)的局限性。LeCun 长期主张,目前的 AI 缺乏对物理世界的真实理解和常识推理能力。AMI Labs 将专注于研发基于 JEPA(联合嵌入预测架构) 的世界模型,使 AI 能够构建内部世界模型,预测行为的后果,从而具备真正的逻辑推理和规划能力。
融资规模
- 金额:1 亿美元(种子轮)。
- 估值:4.5 亿美元。
- 背景:对于一家种子轮公司而言,这是一笔巨大的资金,显示了投资者对 LeCun 愿景及“世界模型”技术路线的强烈信心。
技术路线:JEPA AMI Labs 的技术核心将围绕 LeCun 提出的 JEPA 架构展开。与自回归大模型(预测下一个 token)不同,JEPA 专注于在抽象空间中进行预测,这被认为更接近人类和动物对物理世界的直觉理解方式。
总结 Yann LeCun 成立 AMI Labs 并获得巨额融资,标志着 AI 领域正在从单纯的“概率生成”向具备物理常识和逻辑推理的“世界模型”方向迈进。这被视为通往人类水平人工智能(AGI)的关键一步。
评论
核心评价摘要
本文揭示了当前AI领域的技术路线分歧:以Yann LeCun为代表的团队试图通过构建“世界模型”来赋予AI因果推理能力,以此挑战当前基于概率预测的大语言模型(LLM)的主流范式。
深度评价分析
1. 内容深度:技术观点与论证逻辑
- 评价: 文章触及了AI架构演进的核心议题。
- 事实陈述: Yann LeCun提出的JEPA(Joint Embedding Predictive Architecture)架构在目标上与传统生成式自回归模型(如GPT)存在差异。JEPA侧重于在潜在空间预测特征,而非预测下一个Token。
- 深度分析: 文章指出了当前LLM在物理世界因果理解方面的局限性。LeCun主张的“世界模型”旨在让AI具备对物理环境的常识性理解,这属于底层架构范式的探讨,而非单纯的算法参数调优。
- 严谨性考量: 文章观点存在一定的预设前提。边界条件:OpenAI的o1等模型显示,基于强化学习的现有概率模型也能展现出一定的逻辑推理能力。这意味着,虽然“世界模型”提供了新的路径,但现有架构是否已触及天花板尚无定论。
2. 实用价值:对行业决策的参考意义
- 评价: 对技术战略规划具有参考价值,对短期开发指导有限。
- 行业观点: 对于创业公司和投资机构,这提示了技术周期的潜在变化:除了扩大Transformer模型规模,基于物理模拟的新架构(如视频生成环境模型)也是研发方向之一。
- 实际应用建议: 对于企业技术决策者,这意味着目前的RAG架构在处理涉及物理交互的复杂任务(如机器人控制、长期规划)时可能面临挑战。建议:关注非Transformer架构的进展,在自动驾驶、工业数字孪生等涉及物理交互的业务中,可小规模试点基于JEPA或Diffusion Model的技术栈。
3. 创新性:新观点与技术路径
- 评价: 提出了差异化的技术路径,但方法论尚待验证。
- 分析: AMI Labs的成立反映了AI研究从单纯依赖算力规模向优化架构设计的转向。JEPA的特点在于允许模型在抽象空间进行预测,这在处理高维输入(如视频)时,有助于过滤不可预测的细节,从而更专注于学习物理规律。
- 边界条件:除LeCun外,DeepMind的Genie等模型也在探索世界模型,创新并非单一孤岛。此外,若Transformer架构通过MoE(混合专家)等技术继续演进,可能在JEPA成熟前解决部分推理短板,这将影响新架构的市场接受度。
4. 可读性:表达清晰度与逻辑结构
- 评价: 标题直观,信息传递明确。
- 分析: “$1B seed @ $4.5B”的估值信息直接反映了资本市场对非大模型愿景的关注。摘要定性明确,逻辑结构清晰,但在技术路径的可行性上表述较为绝对。
5. 行业影响:资源分配与技术走向
- 事实陈述: 10亿美元种子轮是AI领域近期规模较大的融资事件之一。
- 影响分析:
- 人才流动: 可能促使部分研究人员从主流LLM公司流向专注于新架构的实验室。
- 硬件需求: 若JEPA等架构不依赖于千亿级参数,可能会改变当前对单一大规模算力集群的绝对依赖,促进边缘计算芯片的发展。
- 数据重心: 行业对文本数据的关注度可能趋缓,转而增加对高质量视频和传感器数据(4D数据)的采集与处理。
6. 争议点与不同视角
- 争议点: “世界模型”是否是实现通用人工智能(AGI)的必要路径?
- 不同观点: 以Geoff Hinton和OpenAI为代表的观点认为,只要模型规模足够,语言本身即包含世界逻辑。而LeCun认为,仅凭语言难以完全理解物理世界的约束(如重力、空间关系)。
- 分析: 这场博弈本质上是关于如何让机器更好地模拟现实世界。AMI Labs面临的主要挑战在于如何证明该架构在短期内的商业落地能力。若无法在近期产出具有竞争力的应用产品,该技术路线可能暂时局限于学术研究范畴。
7. 实际应用建议
- 技术研发: 建议研发团队关注基于能量模型和联合嵌入预测架构的最新论文,特别是在视频理解和物理模拟方面的应用。
- 数据准备: 企业在构建数据资产时,除了文本,应开始重视多模态数据(特别是视频和传感器数据)的积累与清洗。
- 投资考量: 投资者应区分“短期算力堆叠”与“长期架构创新”的风险与回报,避免将所有资源集中于单一技术路线。
技术分析
基于您提供的标题和摘要,尽管原文内容较短,但结合Yann LeCun(杨立昆)过往的公开论述、JEPA架构的发布背景以及近期关于“世界模型”的讨论,我们可以构建出一份深度分析报告。这不仅仅是对一篇短新闻的分析,更是对AI未来发展范式——“世界模型”路径的深度剖析。
以下是详细分析:
深度分析:Yann LeCun 的 AMI 实验室与 JEPA 背后的世界模型愿景
1. 核心观点深度解读
文章的主要观点 文章的核心在于宣布 AI 领域的重大资本动向与战略方向:Yann LeCun 领导的新实体(或关联研究机构 AMI Labs)获得了巨额融资(种子轮 10 亿美元,估值 45 亿美元),旨在构建下一代 AI 核心架构——世界模型,且该模型将围绕 JEPA(联合嵌入预测架构) 技术路线展开。
作者想要传达的核心思想 这不仅仅是一次融资,更是对当前 AI 主流路径(即基于生成式的大语言模型,如 GPT-4)的一次**“反叛”与修正**。核心思想是:自回归 LLM(大语言模型)无法实现真正的通用人工智能(AGI),因为它们只是在概率上预测下一个 token,缺乏对物理世界的“常识”理解。下一代 AI 必须能够构建内在的世界模型,理解物理规律、因果关系和实体持久性。
观点的创新性和深度
- 范式转移:从“概率拟合”转向“因果推理”。目前的 LLM 像是“做梦”,而 LeCun 追求的是像人类一样“在脑海中模拟未来”。
- 架构创新:放弃生成像素或文本作为中间目标,转而在抽象的潜在空间进行预测,大大提高了计算效率和对物理世界的鲁棒性。
为什么这个观点重要 如果 LeCun 是对的,这将打破当前生成式 AI 的算力瓶颈和幻觉问题。它意味着 AI 将从“聊天机器人”进化为能够真正理解环境、规划行动的智能体,这是实现具身智能和自主机器人的必经之路。
2. 关键技术要点
涉及的关键技术或概念
- World Models (世界模型):智能体内部对世界运作方式的模拟。
- JEPA (Joint Embedding Predictive Architecture):这是核心技术突破点。
- VJEPA (Video JEPA):JEPA 在视频数据上的具体应用,Meta 已于近期发布了相关模型和论文。
技术原理和实现方式
- 非生成式预测:传统的模型(如 GPT 或视频生成模型)预测的是“下一个像素”或“下一个词”,这要求极高的细节精度。JEPA 不预测像素,而是预测特征。
- 嵌入空间:将输入图像或视频编码成高维特征向量。JEPA 学习在两个不同的时间点(t 和 t+1)之间,这些特征向量是如何变化的。
- 掩码:类似于 MAE(掩码自编码器),通过掩盖输入的一部分,迫使模型去推理被遮挡部分的内容或未来的状态,而不是简单的像素插值。
技术难点和解决方案
- 难点:如何定义一个能代表物理实体状态的抽象特征空间?如何避免模型“作弊”(即利用局部纹理相关性而非物理逻辑来预测)?
- 解决方案:使用 VICReg (Variance-Invariance-Covariance Regularization) 等正则化技术,确保特征提取器能够捕捉到语义信息,同时保持对无关变化(如背景噪声)的不变性。
技术创新点分析 最大的创新在于**“语义预测”代替“像素预测”**。例如,一个车开进隧道被遮挡,传统视频生成模型可能会因为看不见车而生成模糊的影子或错误的车;而 JEPA 能够在特征空间里“知道”车还在那里并继续运动,尽管它不生成车被遮挡时的具体像素。
3. 实际应用价值
对实际工作的指导意义 对于 AI 研发者和企业而言,这意味着需要开始关注非生成式 AI 的价值。并非所有 AI 任务都需要生成内容(文本、图像),很多任务只需要“理解”状态(如自动驾驶决策、工业质检、机器人抓取)。
可以应用到哪些场景
- 自动驾驶:预测其他车辆和行人的轨迹,而不需要生成高保真的未来视频画面,极大降低延迟。
- 机器人技术:让机器人在操作物体前,能预判操作结果(例如:推一下杯子,它会倒吗?)。
- 数字内容创作:虽然 JEPA 不直接生成视频,但它可以作为视频生成的“大脑”或“导演”,负责规划动作的一致性,再由其他模型负责渲染。
需要注意的问题
- 数据需求:虽然不需要像 LLM 那么多的文本 token,但学习物理世界模型仍需要海量的多模态(视频、传感器)数据。
- 评估难度:如何衡量一个世界模型的好坏?比衡量聊天机器人的质量要难得多。
4. 行业影响分析
对行业的启示 这标志着 AI 行业从单纯的**“Scaling Law(缩放定律)”崇拜(堆算力和参数)转向“架构创新”**。资本开始意识到,仅仅把 GPT-4 做大可能无法到达 AGI,新的架构(如 JEPA)可能是一条更高效的捷径。
可能带来的变革
- 算力结构的转变:未来可能不再需要数万张 H100 去做文本生成的 SFT(监督微调),而是需要针对推理和模拟优化的算力基础设施。
- 端侧 AI 的爆发:JEPA 这种在抽象空间推理的方式,计算量远小于生成式模型,非常适合部署在手机、汽车和机器人终端。
对行业格局的影响 OpenAI 目前在生成式领域领先,而 LeCun 的 AMI Labs 试图在“世界模型”领域建立护城河。这可能导致 AI 巨头分化为两派:生成派 vs 模拟派。
5. 延伸思考
引发的其他思考 如果 AI 有了世界模型,它是否就具备了“想象力”?JEPA 的预测过程本质上是一种想象。这引发了关于 AI 意识和认知本质的哲学讨论。
可以拓展的方向
- 具身智能:将 JEPA 与机器人本体结合,实现真正的“感知-决策-行动”闭环。
- 科学发现:利用世界模型去模拟物理化学反应、蛋白质折叠,甚至模拟宇宙演化。
需要进一步研究的问题
- JEPA 如何处理长期依赖?
- 如何将符号逻辑(知识图谱)与 JEPA 的向量表示结合起来?
6. 实践建议
如何应用到自己的项目
- 关注 Meta 的开源:Meta 已经开源了 VJEPA 的模型权重和代码。开发者可以尝试下载并在特定的视频数据集上进行微调,用于动作识别或异常检测。
- 混合架构:在现有系统中,不要盲目抛弃 LLM。可以考虑用 LLM 处理语义和指令,用 JEPA 类模型处理视觉状态预测和物理逻辑。
具体的行动建议
- 学习 PyTorch 和 Meta 的相关库。
- 收集特定领域的视频数据(如工厂流水线监控),尝试训练小型的 JEPA 模型进行预测性维护。
需要补充的知识
- 深入理解 Self-Supervised Learning (SSL),特别是对比学习。
- 熟悉 Representation Learning (表征学习) 的基本原理。
7. 案例分析
结合实际案例说明
- Meta VJEPA (2024):这是最直接的案例。Meta 展示了 VJEPA 在未经过任何标注的情况下,仅仅通过观看视频,就学会了物体持久性(物体被遮挡后依然存在)和基本的物理常识。
- 失败案例反思:早期的视频生成模型(如某些扩散模型)在生成长视频时,人物会突然变形或物体凭空消失。这证明了“像素级生成”难以捕捉物理一致性,反衬出 JEPA “特征级预测”的必要性。
8. 哲学与逻辑:论证地图
中心命题 “基于自回归 token 预测的 LLM 范式无法达到人类水平的 AGI,必须通过构建能够模拟物理现实的非生成式世界模型(如 JEPA)来实现。”
支撑理由与依据
- 理由 1:LLM 缺乏物理常识和因果逻辑。
- 依据:LLM 经常产生逻辑幻觉,无法理解简单的物理交互(如“把杯子扔向墙壁会发生什么”),因为它们只学到了统计相关性,而非世界运作的底层规则。
- 理由 2:自回归生成效率低下且难以规划。
- 依据:为了规划一个动作,AI 需要模拟多种未来路径。生成式模型需要渲染出每个像素的细节,计算量巨大且在细节上容易出错,导致规划链条断裂。
- 理由 3:人类和动物通过世界模型进行推理。
- 直觉:当我们过马路时,我们脑海中并没有生成高保真的视频,而是有一个抽象的模型预测“车会撞过来”。JEPA 模拟了这种认知过程。
反例或边界条件
- 反例 1:语言本身就是一种压缩的世界模型。
- 反驳:LLM 支持者认为,通过阅读海量文本,模型已经隐式地学习了物理规律。目前的 GPT-4 在物理推理测试中表现尚可,证明纯语言路径可能有效。
- 边界条件:世界模型可能难以处理抽象概念(如法律、哲学),这些概念没有物理实体,无法通过视频/传感器数据学习,仍需依赖语言模型。
命题性质分类
- 事实:目前的 LLM 存在幻觉和物理推理缺陷。
- 价值判断:认为“模拟物理世界”比“处理语言符号”更接近智能的本质。
- 可检验预测:如果 LeCun 是对的,未来 5 年内,基于 JEPA 架构的机器人在复杂物理环境中的表现将大幅超越基于 LLM 的机器人。
我的立场与验证方式
- 立场:支持 LeCun 的路径。虽然 LLM 在交互界面(Chatbot)上极其成功,但要实现具身智能和自主决策,非生成式的世界模型是必经之路。两者最终可能会融合(LLM 作为 Interface,JEPA 作为 Engine)。
- 验证方式(可证伪):
- 指标:在 CLEVRER 等物理因果推理基准测试上,JEPA 类模型是否能以更少的参数和数据显著超越 LLM?
- 实验:将 JEPA 应用于机器人抓取任务,观察其在未见过的物体上的泛化能力是否强于传统的强化学习或 LLM-VLM 方案。
- 观察窗口:3-5 年。如果 AMI Labs 无法拿出比 Sora 更具物理一致性的视频理解/生成模型,或者无法显著提升机器人的自主性,则该路径可能受挫。
最佳实践
最佳实践指南
实践 1:构建基于 JEPA 架构的世界模型
说明:
Yann LeCun 的联合嵌入预测架构 (JEPA) 通过学习抽象特征表示而非像素级预测,显著提高了模型对物理世界因果关系的理解能力。构建世界模型时,应摒弃传统的生成式方法(如像素重建),转而采用在潜在空间中进行预测的架构,以解决当前大语言模型(LLM)缺乏物理世界常识和逻辑推理能力的问题。
实施步骤:
- 架构设计: 搭建编码器-解码器结构,确保输入数据被映射到高维潜在空间。
- 特征预测: 训练模型在潜在空间中预测未来的嵌入状态,而不是预测原始像素数据。
- 引入噪声: 在训练过程中向潜在变量注入噪声,强制模型学习鲁棒的特征表示,从而忽略不相关的细节。
注意事项:
需平衡模型的预测精度与计算成本,避免潜在空间维度过高导致训练不稳定。
实践 2:利用自监督学习从非结构化数据中学习
说明:
世界模型的核心在于理解世界如何运作。通过自监督学习,模型可以从海量的未标记视频和传感器数据中提取物理常识。这种方法不依赖昂贵的人工标注,而是通过观察环境的自然变化来学习因果关系。
实施步骤:
- 数据收集: 建立大规模、多样化的视频或传感器数据集,涵盖不同的物理场景和交互。
- 掩码机制: 实施类似于掩码自编码器(MAE)的技术,遮蔽输入的部分内容,训练模型进行推理和补全。
- 对比学习: 使用对比损失函数,拉近相似样本在特征空间的距离,推远不相关样本。
注意事项:
数据集必须具有足够的多样性,以防止模型过拟合到特定的背景或场景中,确保泛化能力。
实践 3:规划与推理模块的独立设计
说明:
单纯依靠端到端的深度学习难以实现复杂的长期规划。最佳实践是将感知系统(基于 JEPA)与规划系统(基于推理逻辑)分离。世界模型负责预测状态变化,而独立的规划器负责根据这些预测制定行动策略,类似于经典控制理论中的模型预测控制(MPC)。
实施步骤:
- 模块解耦: 将系统拆分为感知模块、世界模型模块和策略模块。
- 轨迹优化: 规划器基于世界模型对未来的模拟,计算最优动作序列以最大化累积奖励。
- 接口标准化: 定义清晰的 API 接口,使世界模型能够为不同的规划算法提供状态预测。
注意事项:
确保各模块之间的通信延迟最小化,特别是在实时交互系统中(如自动驾驶或机器人控制)。
实践 4:整合目标驱动型智能
说明:
AMI Labs 的愿景是实现具备自主规划能力的 AI。这意味着系统必须能够处理不可预测的环境变化并自主调整目标。实施时应构建能够处理多模态输入(视觉、声音、文本)并输出具体行动指令的系统,而非仅仅是生成文本或图像。
实施步骤:
- 目标函数定义: 设计能够反映复杂任务完成度的奖励函数或目标条件。
- 分层控制: 实施分层强化学习,高层负责设定子目标,低层负责执行具体动作。
- 环境交互: 建立模拟环境,让 AI 在虚拟世界中进行试错学习,验证其应对突发状况的能力。
注意事项:
在模拟环境中学到的策略必须经过域随机化处理,以便顺利迁移到现实世界(Sim-to-Real transfer)。
实践 5:建立高算力基础设施与混合专家模型
说明:
训练世界模型需要巨大的算力资源。鉴于 AMI Labs 获得了 10 亿美元种子轮融资,实施时应利用这些资源构建高性能计算集群。同时,为了提高推理效率,应采用混合专家模型架构,仅在需要时激活相关的神经网络部分。
实施步骤:
- 集群搭建: 配置大规模 GPU 集群,并优化网络带宽以支持分布式训练。
- MoE 架构: 将模型拆分为多个专家子网络,并训练一个门控网络来根据输入动态选择最相关的专家。
- 显存优化: 实施高效的数据加载和显存管理技术(如 ZeRO 优化器),以支持超大模型训练。
注意事项:
需密切关注能源消耗和散热问题,确保基础设施的可持续运行。
实践 6:确保 AI 的可控性与安全性
说明:
随着 AI 系统自主性的增加,确保其行为符合人类价值观变得至关重要。在开发世界模型时,必须内置安全护栏,防止模型在预测未来状态时产生灾难性的错误结论或采取危险行动。
实施步骤:
- 红队测试: 建立专门的团队对抗性地攻击模型,寻找潜在的漏洞和unsafe行为。
- 可解释性研究: 开发工具来可视化世界模型在潜在空间中的推理过程,使其决策逻辑对人类透明。
- 硬性约束: 在
学习要点
- Yann LeCun 创立的 AMI Labs 完成 10 亿美元种子轮融资,投后估值达 45 亿美元,旨在构建基于 JEPA 架构的世界模型。
- 该项目核心目标是开发具备世界模型能力的 AI,以解决当前生成式 AI 在物理世界理解和推理方面的局限性。
- JEPA(联合嵌入预测架构)作为技术基础,通过在潜在空间进行预测而非预测像素,显著提升了训练效率和样本利用率。
- 此轮融资规模在 AI 初创公司种子轮中极为罕见,显示了资本市场对 LeCun 提出的“世界模型”技术路线的高度认可。
- AMI Labs 的成立标志着以自回归大语言模型(LLM)为主流的 AI 研究正在向基于世界模型的新范式转变。
- LeCun 长期倡导的“世界模型”路径旨在赋予 AI 系统类似人类的常识和因果推理能力,以实现真正的通用人工智能(AGI)。
- 该实验室的巨额资金支持将加速非生成式 AI 在复杂现实世界任务中的应用与落地。
引用
- 文章/节目: https://www.latent.space/p/ainews-yann-lecuns-ami-labs-launches
- RSS 源: https://www.latent.space/feed
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。