[AINews] Yann LeCun’s AMI Labs launches with a $1B seed @ $4.5B to build world models around JEPA
基本信息
- 来源: Latent Space (blog)
- 发布时间: 2026-03-11T06:46:30+00:00
- 链接: https://www.latent.space/p/ainews-yann-lecuns-ami-labs-launches
摘要/简介
世界模型是下一代 AI 所需的。
导语
Yann LeCun 新成立的 AMI Labs 宣布获得 10 亿美元种子融资,估值达 45 亿美元,旨在围绕 JEPA 架构构建世界模型。这一动向表明,业界正加速从单纯的概率生成向具备物理常识的通用人工智能演进。本文将梳理 AMI Labs 的技术路径与资金用途,并探讨其对未来 AI 发展格局的实质影响。
摘要
简体中文总结:
[AI新闻] Yann LeCun 的 AMI Labs 以 10 亿美元种子资金(估值 45 亿美元)启动,致力于围绕 JEPA 构建世界模型
核心摘要: 人工智能先驱、图灵奖得主 Yann LeCun 宣布成立新的 AI 实验室——AMI Labs。该公司在种子轮融资中筹集了 10 亿美元,投后估值高达 45 亿美元。这一巨额融资显示了资本市场对 LeCun 提出的 AI 技术路线——特别是“世界模型”和 JEPA 架构的强烈信心。
关键详情:
使命与目标: AMI Labs 的核心任务是构建世界模型。LeCun 长期主张目前的生成式 AI(如大语言模型)存在局限性,无法真正理解物理世界。AMI Labs 旨在通过开发能够模拟和预测现实世界物理规律的 AI 系统,实现下一代人工智能的突破。
技术核心(JEPA): 该项目将围绕 JEPA(联合嵌入预测架构) 技术展开。与主流的生成式模型(如 GPT)不同,JEPA 专注于在抽象的潜在空间中进行预测,而不是生成像素级的细节。这种方法被认为在训练效率和能源消耗上更具优势,且能更好地处理因果推理和物理常识。
资本与规模: 10 亿美元的种子轮融资在 AI 领域极为罕见(通常种子轮仅为数百万美元),45 亿美元的估值也使其成为 AI 界的“独角兽”新星。这表明投资者认为 LeCun 的非 Transformer 路线可能颠覆现有的 AI 范式。
结论: AMI Labs 的成立标志着 AI 发展进入了一个新阶段,即从单纯的语言生成转向对物理世界的深层理解与模拟。LeCun 正试图通过巨额资金支持,证明“世界模型”是实现通用人工智能(AGI)的必经之路。
评论
中心观点 该文章报道了Yann LeCun基于JEPA架构创立AMI实验室并获得巨额融资的事件,其核心观点在于:通过构建“世界模型”来实现具备物理常识和推理能力的通用人工智能(AGI),是继大语言模型(LLM)之后的必经之路,这标志着AI行业正从概率拟合向因果理解范式转移。
支撑理由与边界条件
技术范式的必要修正(事实陈述 / 作者观点)
- 理由:目前的自回归大语言模型(如GPT-4)本质上是基于“下一个词预测”的概率模型,缺乏对物理世界因果关系的底层理解,容易产生幻觉且无法规划。LeCun提出的JEPA(联合嵌入预测架构)不预测像素或Token,而是预测抽象特征空间,这大大提高了学习效率和鲁棒性。
- 反例/边界条件:Scaling Law(缩放定律)的惯性。OpenAI等巨头的研究表明,单纯扩大LLM参数规模仍能涌现出强大的推理能力(如o1模型),这可能证明“通过概率模拟逻辑”是一条比LeCun的架构更工程化、更易商业化的捷径,从而在JEPA成熟前就通过暴力计算解决推理问题。
资本对非生成式AI的重注(事实陈述)
- 理由:在种子轮就获得10亿美元融资(估值45亿美元),且是用于构建非文本生成的“世界模型”,这说明资本市场对“LLM之后是什么”达成了共识:单纯的对话助手已触及天花板,下个爆发点是具身智能或物理世界模拟。
- 反例/边界条件:商业化的不确定性。与Sora或ChatGPT不同,世界模型很难直接向C端用户收费。如果AMI的技术不能快速转化为自动驾驶、机器人或游戏开发的具体生产力,这种高昂的研发成本将面临巨大的财务压力。
从“生成”转向“理解”的路径创新(技术推断)
- 理由:文章强调AMI围绕JEPA建立,这意味着AI将从“擅长说话和画画”转向“擅长理解和预测环境”。这是实现真正的Level 5自动驾驶或家用机器人的关键技术,因为机器人需要知道“推倒杯子会发生什么”,而不是需要语言描述这个过程。
- 反例/边界条件:数据瓶颈。训练世界模型需要海量的视频传感器数据(3D/4D数据),其清洗、标注和获取难度远高于文本数据。如果数据质量问题无法解决,JEPA的架构优势可能无法在工程上兑现。
文章评价
1. 内容深度:观点前瞻,但技术细节披露有限 文章触及了AI界最核心的争论:概率模型 vs. 因果模型。它准确捕捉到了LeCun对当前LLM路线的批判,即“自回归LLM永远无法真正理解世界”。然而,作为一篇融资新闻,它未能深入披露AMI Labs具体将如何解决JEPA训练中的算力瓶颈或数据架构问题,更多是停留在愿景层面。
2. 实用价值:为研发方向提供重要背书 对于AI从业者和投资者而言,这篇文章具有极高的风向标意义。它表明“后Transformer时代”的架构之争已经进入白热化阶段。对于企业技术决策者,这意味着不应将所有赌注都押在微调LLM上,关注视频生成、空间智能和具身智能(Embodied AI)是未来的储备方向。
3. 创新性:重申“世界模型”的核心地位 文章的创新性在于将“World Models”从一个学术概念推向了拥有独立商业实体的阶段。它提出了一个新的观点:AI的下一波浪潮不是“更会说话”,而是“更有常识”。
4. 可读性:清晰有力,逻辑紧凑 标题和摘要非常直接,利用LeCun的个人影响力和巨额融资数字迅速抓住了读者注意力。结构上,它成功地将技术愿景(JEPA)与商业里程碑(融资)结合在一起。
5. 行业影响:可能引发“架构战争”的军备竞赛 该事件标志着AI创业进入“硬核科技”阶段。不再仅仅是包装OpenAI的API,而是从底层模型架构上进行创新。这将促使更多资本流向非Transformer架构(如SSM、Mamba或JEPA变体)的初创公司,加速行业摆脱对单一技术路线的依赖。
6. 争议点或不同观点
- 路线之争:LeCun认为生成式模型(如Diffusion, LLM)是死胡同,但Sora和GPT-4o的视觉能力表明,通过海量数据训练的生成式模型也能隐式地学到世界物理规律。
- 资金效率:1亿美元种子轮极其罕见。批评者可能认为,这是AI泡沫的顶点标志,因为JEPA目前尚未有类似ChatGPT那样的“Moment of Truth”(真理时刻)产品。
7. 实际应用建议
- 对于开发者:开始关注非Transformer架构,学习PyTorch之外的针对图神经网络或能量模型的框架。
- 对于投资者:关注能够提供高质量3D/4D训练数据的数据资产公司,而非仅仅是模型公司。
可验证的检查方式
- 技术指标(观察窗口:6-12个月):
- 检查AMI是否发布了基于JEPA的开源模型(类似于Meta的过去风格)。
- 关键指标:在CRAFTER或SIMA等具身智能基准测试中,其样本效率是否显著高于同等规模的Transformer模型(例如:是否能用
技术分析
基于您提供的文章标题和摘要,以及对Yann LeCun(杨立昆)过往研究轨迹、近期动态及AI行业背景的了解,以下是对该事件的深度分析报告。
深度分析报告:Yann LeCun 的 AMI Labs 与世界模型的未来
1. 核心观点深度解读
文章的主要观点
文章的核心在于宣布 Yann LeCun 领导的新实验室 AMI Labs(或相关风险投资实体)以惊人的 45亿美元估值 获得 10亿美元种子资金。这笔巨额资金将专门用于构建 World Models(世界模型),其技术核心将围绕 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构) 架构展开。
作者想要传达的核心思想
这一事件传达了一个强烈的信号:当前的生成式AI(如大语言模型LLM)并非AGI的终极形态,基于自回归预测的“下一个Token预测”范式存在天花板。 行业需要转向能够理解物理世界因果关系、具备常识推理能力的“世界模型”。LeCun通过此次巨额融资表明,资本市场和顶尖科学家已准备好为这一范式转移支付高昂的溢价。
观点的创新性和深度
- 范式转移:从“概率拟合”(拟合文本分布)转向“因果建模”(理解世界如何运行)。
- 架构创新:坚持非生成式的路径。JEPA不直接生成像素或Token,而是在抽象的潜在空间进行预测,这避免了生成式模型常见的幻觉和计算浪费。
- 深度:这不仅是算法的改进,是对AI“认知”架构的重构。它试图解决AI目前缺乏的“规划”和“物理常识”问题。
为什么这个观点重要
如果LeCun的路径走通,AI将从“擅长说话和画图”进化为“具备真实世界逻辑和执行能力的智能体”。这将解决当前LLM最致命的缺陷(幻觉、逻辑不一致、无法处理多模态物理交互),是实现通用人工智能(AGI)的关键一步。
2. 关键技术要点
涉及的关键技术或概念
- World Models(世界模型):一个能够模拟世界状态、预测行为后果的内部模型。
- JEPA (Joint Embedding Predictive Architecture):LeCun提出的核心架构,包括I-JEPA(图像)和V-JEPA(视频)。
- Embedding Space(嵌入空间/潜在空间):模型不预测原始像素,而是预测特征空间的表示。
- Energy-Based Models (EBM):LeCun长期推崇的基于能量的模型框架,常用于推理和规划。
技术原理和实现方式
- 原理:传统自回归模型(如GPT)试图预测每一个细节(如每一个像素或Token),这在高维连续数据(如视频)上极其困难且低效。JEPA的核心思想是在抽象表示上进行预测。它通过编码器将输入映射到潜在空间,然后在该空间预测未来的表示。
- 实现:
- 输入:视频或图像序列。
- 编码:通过神经网络提取高维特征。
- 预测:预测块根据上下文特征预测未来时刻的特征表示,而不是生成原始图像。
- 优化:通过对比预测特征与实际特征来优化模型,使其学习到语义和物理规律。
技术难点和解决方案
- 难点:如何在潜在空间中定义有意义的预测目标?如何避免模型坍塌(即预测出恒定的平均值)?
- 解决方案:使用非对比学习损失函数,确保模型学到的是语义特征而非低级像素细节。引入“掩码”机制,强制模型理解上下文以填补缺失信息的抽象表示。
技术创新点分析
- 计算效率:预测抽象向量比预测像素快得多,且不需要生成式模型那样庞大的算力来渲染细节。
- 鲁棒性:因为不关注纹理等无关细节,模型对背景杂波和视角变化具有更强的鲁棒性。
- 可规划性:世界模型允许智能体在“脑海”中模拟行动后果,从而进行复杂的序列规划。
3. 实际应用价值
对实际工作的指导意义
- 从“生成”转向“决策”:企业应关注AI在决策支持、物理仿真、机器人控制领域的潜力,而不仅仅是内容生成。
- 数据策略调整:不再仅仅需要海量的文本数据,更需要高质量的、包含物理交互的视频数据(如Ego4D等数据集)。
可以应用到哪些场景
- 自动驾驶:更准确地预测行人和其他车辆的运动轨迹,而非仅仅识别当前物体。
- 具身智能:让机器人在复杂的家庭或工业环境中理解物理规律(如重力、摩擦力),完成操作任务。
- 数字孪生:创建高保真的物理世界模拟器,用于科学实验或工业设计。
- 多媒体理解:长视频理解、事件推理。
需要注意的问题
- 数据质量:世界模型极其依赖数据中的物理因果关系,低质量的互联网文本数据对此帮助甚微。
- 评估标准:如何评估一个世界模型的好坏?目前尚无像ImageNet或MMLU那样的统一标准。
实施建议
对于AI从业者,现在开始关注非生成式模型的研究进展,并积累多模态(特别是视频时序)数据处理的经验。
4. 行业影响分析
对行业的启示
- 资本寒冬下的“热钱”:在AI融资趋缓的背景下,AMI Labs的巨额融资说明,顶级科学家的愿景+硬核技术突破依然能获得最高溢价。
- 技术路线的分流:AI领域正式形成“Scaling Law(OpenAI/Anthropic)”与“World Model (LeCun/LeCunism)”两大阵营的竞争。
可能带来的变革
如果AMI Labs成功,我们将看到AI从“聊天机器人”时代跨越到“自主智能体”时代。AI将能够真正地感知环境并与物理世界互动,而不仅仅是在屏幕上生成文本。
对行业格局的影响
这可能会打破目前大模型公司垄断算力和数据的局面。如果世界模型不需要万亿参数级别的模型就能实现优异的物理理解,那么算力门槛可能会降低,算法创新的重要性将再次压倒算力堆叠。
5. 延伸思考
引发的其他思考
- 认知科学的验证:JEPA架构与人类大脑处理视觉信息的机制(预测编码理论)高度相似。这是否意味着我们离模拟人脑更近了一步?
- 开源 vs 闭源:LeCun一直是开源的坚定支持者(Meta的Llama)。AMI Labs会继续坚持开源策略来对抗OpenAI的闭源模式吗?
未来发展趋势
未来1-2年,我们将看到V-JEPA或其变体在视频生成和物理仿真任务上的爆发。这不仅是生成视频,而是“理解并模拟视频”。
6. 实践建议
如何应用到自己的项目
- 关注底层逻辑:在构建RAG或Agent应用时,不要仅依赖LLM的文本生成,尝试引入物理约束或结构化数据来弥补LLM在世界模型上的缺失。
- 视频数据挖掘:如果你的业务涉及监控、工业视频或用户行为分析,现在开始利用现有的多模态大模型(如VideoLLaMA等)进行时序动作预测的探索。
具体的行动建议
- 学习并复现 I-JEPA 的论文代码。
- 收集特定领域的视频数据(First-person view最佳),为未来的世界模型微调做准备。
7. 案例分析
结合实际案例说明
- 成功案例(参考):Wayve(英国自动驾驶公司)也在探索类似的World Model用于自动驾驶,利用视频预测来辅助驾驶决策。
- LeCun的V-JEPA:Meta发布的V-JEPA模型已经展示了通过“观看”视频学习物理常识(如物体落下、人坐下)的能力,而无需文本标注。
经验教训总结
过去几年,人们过度迷信“Scale is all you need”。LeCun的这次融资提醒我们,架构创新在算力瓶颈期可能比单纯扩大模型规模更具性价比和潜力。
8. 哲学与逻辑:论证地图
中心命题
为了实现真正的通用人工智能(AGI),AI研究必须从基于概率的“下一个Token预测”(LLM范式)转向基于因果推理的“世界模型”构建(JEPA范式)。
支撑理由
- 缺乏物理常识:LLM通过文本统计学习,无法真正理解物理世界的连续性和因果关系(依据:LLM在基本的物理推理任务上经常失败)。
- 规划能力的缺失:真正的智能体需要能够模拟行动的未来后果,而生成式模型只能生成像素,无法在潜在空间进行高效的序列规划(依据:LeCun的“认知架构”论文)。
- 数据效率低下:自回归生成模型需要消耗海量数据来拟合细节,而人类和动物可以通过观察少量样本迅速抽象出世界规律(依据:人类学习的样本效率远高于Transformer)。
反例或边界条件
- 涌现能力:反驳观点认为,随着LLM规模的扩大,世界模型的能力可能会自发涌现,无需专门设计新架构(如GPT-4表现出的推理能力)。
- 工程实现的难度:JEPA目前主要在视频和图像上表现优异,尚无证据表明该架构能像LLM那样完美处理语言、逻辑推理和符号抽象。
事实与价值判断
- 事实:AMI Labs获得了巨额融资;JEPA在视频理解任务上展示了SOTA的结果。
- 价值判断:LeCun认为“理解世界”比“生成文本”更接近智能的本质。
- 可检验预测:未来3年内,基于JEPA架构的模型在具身智能任务(如机器人操作)上的表现将显著超越同等参数规模的LLM。
立场与验证
- 立场:支持混合架构(Hybrid AI)是未来的趋势。LLM处理语言和符号,World Model处理感知和物理。
- 验证方式:观察AMI Labs是否能在不需要文本预训练的情况下,仅通过视频观察让AI掌握复杂的物理操作任务(如“把杯子里的水倒进另一个杯子而不洒出”)。如果成功,这将有力地支持LeCun的命题。
最佳实践
最佳实践指南
实践 1:基于 JEPA 架构构建世界模型
说明: Yann LeCun 提出的联合嵌入预测架构 (JEPA) 不再像生成式模型 (如 GPT) 那样预测下一个 Token,而是预测模型在抽象空间中的特征表示。这种范式更适合构建对物理世界有深层理解的“世界模型”,能显著提高推理效率和鲁棒性。
实施步骤:
- 重新评估现有的预测模型架构,从“像素级预测”转向“潜在空间预测”。
- 设计编码器,将输入数据(图像、视频或传感器数据)映射为高维特征向量。
- 训练模型预测未来的特征表示状态,而非重建未来的原始输入数据。
- 引入嵌入块来优化特征提取的鲁棒性,确保模型对不可见扰动具有不变性。
注意事项: 避免单纯依赖生成式损失函数,应重点关注特征空间的一致性和语义保留。
实践 2:优先考虑目标驱动型 AI (Objective-Driven AI)
说明: 传统的 AI 往往基于概率预测下一个动作,而 LeCun 提出的架构强调基于“目标”进行规划。最佳实践是让系统具备在不确定环境中规划序列行动的能力,以实现既定目标,而不仅仅是模仿人类行为。
实施步骤:
- 定义清晰的奖励函数或目标状态,作为模型规划行为的终极导向。
- 实现“世界模型”模块,用于模拟不同行动序列可能带来的后果。
- 将感知模块与执行模块解耦,确保系统能够在认知层面进行模拟推演。
- 开发能够处理多模态输入(如视频、音频)的规划器,以适应复杂的现实场景。
注意事项: 目标函数的设计必须严谨,防止模型通过捷径或欺骗性手段来达成目标。
实践 3:采用自监督学习从非结构化数据中学习
说明: 标注数据是稀缺且昂贵的。AMI Labs 的愿景表明,未来的 AI 应该像人类和动物一样,主要通过观察世界(自监督学习)来获取常识,而不是依赖大量人工标注的数据集。
实施步骤:
- 建立大规模非结构化数据(如原始视频流)的清洗和预处理流水线。
- 实施基于掩码的自监督学习策略,强迫模型理解上下文以填补缺失信息。
- 利用对比学习来区分相似但不同的概念或实体,增强模型的辨别能力。
- 持续迭代数据集,确保模型接触到多样化的环境和边缘情况。
注意事项: 确保数据集的多样性和无偏性,防止模型继承并放大数据集中的社会偏见。
实践 4:关注模型的能源效率与推理速度
说明: LeCun 多次强调,目前的自回归大模型(LLM)在推理时计算量过大且能耗高。构建世界模型的一个核心目标是实现更高效的推理,使其能在本地设备上运行,而不仅仅依赖云端算力。
实施步骤:
- 在模型设计阶段引入计算复杂度约束,优先选择参数效率更高的架构。
- 优化推理引擎,探索模型量化、剪枝和知识蒸馏技术。
- 开发专门的硬件加速接口或针对特定推理芯片(如 NPUs)进行优化。
- 建立能耗基准测试,将每瓦特性能作为模型评估的关键指标之一。
注意事项: 不要为了追求极致的能效而牺牲模型对复杂场景的理解能力和安全性。
实践 5:建立物理现实与模拟环境的闭环反馈
说明: 构建世界模型的最终目的是让 AI 能够在现实世界中安全地交互。最佳实践包括在模拟环境中训练模型,并将其部署到现实世界进行验证,形成数据反馈闭环。
实施步骤:
- 构建高保真的物理模拟器,用于生成各种极端和罕见场景的训练数据。
- 部署边缘计算节点,使 AI 能够在本地实时响应环境变化。
- 建立“Sim-to-Real”(模拟到现实)的迁移机制,解决域适应问题。
- 收集真实世界的交互数据(RLHF 或基于轨迹的学习),用于微调世界模型的预测精度。
注意事项: 现实世界充满不可预测的噪声,必须设计故障安全机制,防止模型在模拟与现实的差异中产生灾难性错误。
实践 6:确保 AI 系统的可控性与安全性
说明: 随着模型参数规模和资金投入(如 10 亿美元种子轮)的增加,AI 系统的影响力巨大。必须确保基于 JEPA 的世界模型是可解释、可控制且符合人类价值观的。
实施步骤:
- 在训练过程中引入宪法 AI (Constitutional AI) 原则,对模型的输出进行红队测试。
- 开发可解释性工具,监控模型在潜在空间中的决策路径,确保其符合逻辑。
- 设置硬编码的安全限制,防止模型在规划危险行动序列时被执行。
- 建立伦理审查委员会,定期审查模型的
学习要点
- Yann LeCun 联合创立的 AMI Labs 在种子轮即获得 10 亿美元融资,投后估值达 45 亿美元,旨在通过 JEPA 架构构建世界模型。
- 该项目致力于实现 Yann LeCun 提出的“世界模型”愿景,旨在赋予 AI 系统类似人类的常识和对物理世界的深层理解。
- AMI Labs 将采用联合嵌入预测架构(JEPA),这是 Yann LeCun 力主的一种区别于生成式大语言模型(LLM)的技术路径。
- 此笔巨额融资显示出资本市场对非 Transformer 架构及非自回归生成式 AI 技术路线的强烈信心与支持。
- AMI Labs 的成立标志着 AI 领域的研究重点正从单纯的文本生成向追求具备物理世界认知和推理能力的通用人工智能(AGI)转移。
引用
- 文章/节目: https://www.latent.space/p/ainews-yann-lecuns-ami-labs-launches
- RSS 源: https://www.latent.space/feed
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。