小米开源机器人VLA模型Xiaomi-Robotics-0：47亿参数刷新三大基准SOTA

基本信息

作者: indieAI
链接: https://juejin.cn/post/7606324035640918016

导语

随着具身智能从实验室走向产业落地，如何构建高效的软硬件生态成为关键。2026年2月，小米开源了首代机器人VLA大模型Xiaomi-Robotics-0，凭借47亿参数与消费级显卡实时推理能力，刷新了多项基准测试。本文将深入解析该模型的技术特性与开源策略，探讨其如何打破算力壁垒，加速物理AI的产业化进程。

描述

2026年2月12日，小米开源了首代机器人VLA大模型Xiaomi-Robotics-0，以47亿参数、80毫秒延迟、消费级显卡实时执行的性能，刷新三大基准测试的全项SOTA。这不仅是技术突破，更是具身智能

摘要

由于提供的文本中断，以下仅基于现有信息进行简要总结：

小米开源具身智能VLA模型Xiaomi-Robotics-0

核心概况： 2026年2月12日，小米正式开源其首代机器人视觉-语言-动作（VLA）大模型——Xiaomi-Robotics-0。该模型的发布标志着具身智能领域的重要技术突破，旨在加速物理AI的产业化进程。

技术亮点：

模型规模： 拥有47亿参数。
性能表现： 延迟仅为80ms，支持在消费级显卡上实现实时执行。
行业地位： 刷新了三大基准测试的全项SOTA（当前最佳效果），展现了卓越的泛化与操控能力。

产业意义： 这一举措不仅是技术层面的胜利，更是构建具身智能开源生态的关键一步。通过降低高性能机器人模型的部署门槛，小米正推动物理AI从实验室走向大规模产业应用。

以下是对该文章内容的深度评价，基于具身智能行业现状与技术发展趋势进行分析：

中心观点

该文章描绘了小米通过开源高性能VLA模型试图定义“物理AI”时代安卓级操作系统的野心，但其核心论点存在将“实验室基准测试”过度等同于“工业级场景泛化能力”的逻辑跳跃，且忽略了硬件本体与数据闭环的瓶颈。

支撑理由与边界条件

1. 技术路径的验证：从“感知”到“决策”的范式转移

[事实陈述] 文章强调的47亿参数与80ms延迟，确实触及了具身智能实时性的核心痛点。传统的具身方案多采用“大模型+运动控制器”的分层架构，而VLA将视觉理解与运动控制整合，实现了端到端的训练与推理。
[作者观点] 小米选择消费级显卡（如4090）可运行，是极具战略意义的“降维打击”。这打破了具身智能必须依赖昂贵A100/H100集群的算力壁垒，极大降低了开发者和极客的准入门槛。
[反例/边界条件] 模型在显卡上的推理速度并不等同于机器人的物理执行周期。Sim-to-Real（从仿真到现实）的鸿沟依然存在：在虚拟环境中刷新SOTA，往往在面对现实世界的摩擦力、光照变化和接触力时表现断崖式下跌。

2. 开源生态的战略卡位：试图成为机器人界的“Android”

[你的推断] 小米此时开源，意在抢占数据生态的先发优势。通过提供基座模型，吸引开发者在小米的硬件标准或数据格式上进行微调，从而构建类似“App Store”的机器人技能生态。
[作者观点] 文章提到的“推动物理AI产业化”，核心在于通过开源解决“长尾数据”匮乏的问题。闭源系统无法收集海量且多样化的长尾场景数据（如抓取异形物体），开源能利用社区力量构建数据飞轮。
[反例/边界条件] 硬件接口的碎片化是开源生态的最大敌人。如果小米不开源机器人的本体设计图和运动控制接口，仅开源VLA算法，开发者很难将模型迁移到其他机械臂或移动底盘上，导致“生态”沦为“小米自家的围墙花园”。

3. 产业化的现实挑战：算法领先与本体滞后的剪刀差

[事实陈述] 文章宣称“刷新三大基准测试全项SOTA”，这通常指基于静态数据集或特定仿真环境的测试。
[批判性思考] 行业内存在严重的“刷榜”现象。许多在基准测试中表现优异的模型，在面对真实工厂或家庭场景的非结构化任务时，成功率极低。
[反例/边界条件] 商业落地的核心矛盾在于成本与可靠性。 即使算法免费，如果执行任务需要昂贵的传感器或精密的关节模组来配合，依然无法大规模量产。此外，80ms的延迟对于高速作业（如抓取抛掷物）仍可能过长。

多维度评价

内容深度（3.5/5）： 文章准确捕捉到了VLA模型参数量与延迟的关键指标，但对“如何解决具身智能数据稀缺”和“如何保证物理交互安全性”等深层次工程难题讨论不足。偏向于技术宣发，缺乏对模型架构（如是否采用Diffusion Policy或Transformer变体）的深入剖析。
实用价值（4.5/5）： 对于行业从业者而言，最大的价值在于确认了“消费级算力运行大模型”的可行性。这为初创公司和研发团队指明了一条不依赖昂贵算力租赁的研发路径。
创新性（4.0/5）： 将“端侧AI”的成功经验迁移到“具身智能”端侧推理是本文的核心亮点，强调低延迟和轻量化是对当前盲目追求千亿参数模型风气的有力修正。
可读性（4.5/5）： 结构清晰，数据详实，成功将枯燥的技术指标（47亿参数、80ms）与宏大的产业愿景（物理AI）挂钩，具有很强的传播力。
行业影响： 短期内会刺激资本市场对“具身智能”板块的关注，长期看可能会引发一轮针对轻量化VLA模型的“军备竞赛”，迫使其他厂商（如智元、宇树）加速开源或降低自家SDK的使用门槛。

可验证的检查方式

为了验证文章中“SOTA”及“产业化” claims 的真实性，建议通过以下方式进行观察：

真实场景泛化测试：
- 指标： 在未见过的真实家庭环境（非实验室布景）中，执行“倒水”、“叠衣”等精细操作的成功率。
- 验证方式： 关注社区开发者是否复现了官方Demo，以及在非标准物体上的抓取成功率是否超过85%。
跨平台迁移能力：
- 指标： 模型在非小米制造的机械臂上的部署难度和所需时间。
- 验证方式： 观察GitHub Issues中，关于适配不同ROS版本或不同硬件驱动的问题数量。如果适配难度极大，说明其“开源生态” claim 存疑。
长尾数据闭环机制：
- 指标： 是否有自动化的数据回流机制。
- 验证方式： 检查开源代码中

学习要点

小米通过开源VLA模型及其数据集，构建了从云端训练到端侧部署的完整具身智能技术闭环，显著降低了行业研发门槛。
该模型创新性地采用了多模态输入与离散动作空间的混合架构，有效解决了大语言模型与机器人控制策略的融合难题。
通过引入“思维链”技术，机器人能够将复杂任务拆解为可执行的子步骤，大幅提升了在非结构化环境中的任务完成率。
借助NPU加速与模型量化技术，实现了大模型在机器人端侧的高效运行，为产业化应用提供了关键的硬件基础。
小米构建了包含机械臂、灵巧手及仿真环境的全套开源生态，加速了具身智能从实验室研发向真实场景落地的进程。
该方案验证了利用合成数据进行预训练、再结合真实世界数据进行微调的路径，是解决机器人数据稀缺问题的有效手段。

常见问题

1: 什么是小米的VLA模型，它与传统的语言模型（LLM）或多模态模型有何区别？

A: VLA（Vision-Language-Action）模型是具身智能领域的核心技术架构。与传统的语言模型（LLM）主要处理文本信息，或视觉语言模型（LVM）仅进行“看图说话”不同，VLA模型最核心的区别在于它具备了“行动”的能力。

小米的VLA模型不仅能够理解人类的自然语言指令和视觉环境信息，还能直接预测并输出机器人的物理动作参数（如机械臂的关节角度、末端执行器的坐标等）。它将感知、认知与决策执行整合在一个端到端的神经网络中，使得机器人能够像人类一样，通过观察和思考来物理地操作世界，而不仅仅是进行数字交互。

2: 小米VLA模型在推动物理AI产业化方面主要解决了哪些技术痛点？

A: 物理AI的产业化长期面临“Sim-to-Real”（从仿真到现实）鸿沟和数据匮乏两大痛点。小米VLA模型通过以下方式推动解决：

跨越虚实鸿沟：通过大规模的真实世界数据训练，模型对物理规律（如摩擦力、重力、材质特性）有了更深刻的理解，减少了机器人从虚拟仿真环境迁移到现实场景时的“水土不服”。
降低数据依赖：利用VLA架构的泛化能力，机器人可以通过少样本学习掌握新任务，不再需要针对每一个具体动作进行成千上万次的重复编程或训练，大大降低了部署成本。
语义与动作的统一：它打通了高层语义理解（“把苹果递给我”）与底层运动控制之间的壁垒，使得机器人能够处理复杂、非结构化的长尾任务，这是迈向通用机器人的关键。

3: 小米构建的开源生态具体包含哪些内容，对开发者有什么实际价值？

A: 小米的开源生态不仅仅是一个代码库，它通常包含以下几个层面的开放，对开发者极具价值：

模型权重与架构：开源预训练的VLA模型权重，允许开发者在此基础上进行微调，无需从零开始训练，节省巨额算力成本。
数据集：提供包含视频、语言指令和动作轨迹的大规模数据集。数据是具身智能的瓶颈，高质量的开源数据集能极大地促进学术研究和工业应用的发展。
开发框架与工具链：提供标准化的接口和仿真环境，让开发者能够快速验证算法，并将算法无缝部署到实体机器人上。

这种生态降低了具身智能的研发门槛，让更多的初创公司、研究机构和开发者能够参与到物理AI的创新中来，加速技术迭代。

4: 该VLA模型主要支持哪些类型的机器人应用场景？

A: 基于VLA模型的通用特性，其应用场景非常广泛，主要集中在需要复杂感知与操作结合的领域：

家庭服务机器人：如小米CyberOne（CyberOne 2.0等）或机械臂操作，能够完成整理房间、物品归位、倒水等精细家务。
工业制造与装配：在非结构化的工厂环境中，处理抓取、分拣、质量检测等需要视觉判断的任务，适应柔性制造的需求。
特种操作与探索：在危险或人类难以到达的环境中，通过远程指令或自主决策进行操作。
移动操作：结合移动底盘和机械臂，实现大空间范围内的物体搜索与操作。

5: 开源VLA模型如何解决机器人训练中“数据稀缺”的问题？

A: 数据稀缺是限制具身智能发展的核心瓶颈。小米通过开源生态试图通过以下机制解决这一问题：

利用互联网规模数据：VLA模型通常在大规模的图文对数据上进行预训练，赋予了机器人强大的常识性理解，减少了对专用机器人动作数据的依赖。
数据共享机制：通过开源数据集，社区可以贡献不同场景下的操作数据，形成“数据飞轮”。数据越多，模型越好；模型越好，吸引更多用户，进而产生更多数据。
合成数据技术：开源生态往往包含生成合成数据的工具，通过仿真器生成大量的虚拟训练数据，再利用迁移学习技术应用到现实中。

6: 对于企业或开发者来说，接入小米的开源VLA生态面临哪些挑战？

A: 尽管开源生态提供了便利，但在实际落地中仍面临挑战：

硬件适配：小米的模型可能针对其自家的Cyber系列机器人（如特定的自由度、传感器配置）进行了优化。开发者在将其迁移到不同规格的硬件（如不同品牌的机械臂、不同的摄像头精度）时，需要进行大量的域适应工作。
算力部署：VLA模型通常参数量较大，推理成本较高。如何在算力有限的边缘端（机器人本体）实时运行模型，是一个工程难题，可能涉及模型剪枝、量化或蒸馏等技术。
安全性与稳定性：在物理世界中，模型的错误预测可能导致设备损坏或人员受伤。开源

引用

掘金原文: https://juejin.cn/post/7606324035640918016

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 开源生态
标签：小米 / 具身智能 / VLA模型 / 机器人 / Xiaomi-Robotics-0 / Physical AI / SOTA / 开源
场景： AI/ML项目

小米开源Xiaomi-Robotics-0：47亿参数VLA模型刷新具身智能基准
NVIDIA Cosmos策略：面向高级机器人控制的新方法
NVIDIA Cosmos策略：面向高级机器人控制的新方案
NVIDIA Cosmos策略发布：提升机器人控制精度
Moonshot Kimi K2.5：半价超越Sonnet 4.5，支持原生图文视频与百并发智能体 本文由 AI Stack 自动生成，提供深度内容分析。

AI Stack

小米开源机器人VLA模型Xiaomi-Robotics-0：47亿参数刷新三大基准SOTA