小米开源Xiaomi-Robotics-0：47亿参数VLA模型刷新具身智能基准

基本信息

作者: indieAI
链接: https://juejin.cn/post/7606324035640918016

导语

2026年2月12日，小米正式开源首代机器人VLA大模型Xiaomi-Robotics-0，以47亿参数规模与消费级显卡实时推理能力，刷新了具身智能基准测试的全项记录。这一举措不仅打破了物理AI算力落地的壁垒，更标志着行业正从算法验证迈向低成本产业化的关键阶段。本文将深入解析该模型的技术架构与开源生态价值，探讨其如何加速具身智能在真实场景中的规模化应用。

描述

2026年2月12日，小米开源首代机器人VLA大模型Xiaomi-Robotics-0，以47亿参数、80ms延迟、消费级显卡实时执行的性能，刷新三大基准测试全项SOTA。这不仅是技术突破，更是具身智

摘要

以下是对该内容的中文总结。请注意，您提供的文本在结尾处截断（“这不仅是技术突破，更是具身智”），以下总结基于前文明确提到的技术参数及行业背景信息进行归纳：

总结：小米开源Xiaomi-Robotics-0 VLA模型，推动具身智能产业化

1. 核心事件与技术突破 2026年2月12日，小米正式开源了其首代机器人视觉-语言-动作大模型Xiaomi-Robotics-0。该模型以47亿参数的轻量化设计，实现了仅80毫秒的低延迟推理，并支持在消费级显卡上实时运行。在性能表现上，该模型刷新了三大基准测试的全项SOTA（State Of The Art，最佳战绩），标志着具身智能在响应速度和运行成本控制上取得了关键进展。

2. 产业意义与生态推动 该举措不仅展示了小米在物理AI领域的技术实力，更通过开源策略加速了具身智能的生态建设。通过降低高性能机器人模型的算力门槛（如无需昂贵服务器即可运行），Xiaomi-Robotics-0 有望促进技术从实验室走向实际应用，为物理AI的产业化落地提供了强有力的基础模型支持。

深度评价：具身智能开源生态与小米VLA模型

中心观点： 文章以小米开源Xiaomi-Robotics-0模型为例，重点阐述了“轻量化VLA模型+开源生态”是缓解具身智能数据稀缺与算力成本压力、推动技术从实验环境走向实际应用的有效路径。

支撑理由与深度分析：

1. 技术路径的务实性：以“端侧实时性”优化架构

分析： 文章强调47亿参数（4B）和80ms延迟，针对的是具身智能落地中的实际难题——“Sim-to-Real”（仿真到现实）的转化。目前业界部分方案依赖云端大模型，虽然泛化能力较强，但网络延迟较高，难以应对需要即时响应的物理交互任务。小米选择4B级模型并使其能在消费级显卡上运行，是在探索“边缘端具身智能”路线。这体现了在工程上寻求机器人自主性与算力成本之间的平衡。
事实陈述： 80ms的延迟对于闭环运动控制较为重要，表明该模型可能采用了针对视觉-动作对的专用优化技术。

2. 开源生态的战略考量：以模型促数据

分析： 文章认为开源是推动产业化的手段。具身智能面临“长尾数据”不足的挑战，单一机构难以覆盖所有物理场景。通过开源，小米可以用“模型权重”换取“社区数据”。开发者基于Xiaomi-Robotics-0在特定垂直场景（如工厂操作、家务整理）产生的微调数据，若能反馈至社区，将有助于丰富模型的应用场景。这类似于构建具身智能领域的通用底座，试图吸引更多开发者参与。

3. 基准测试的参考价值与局限性

分析： 文章提到“刷新三大基准测试全项SOTA”。这反映了模型在特定测试集上的表现。然而，目前的具身智能基准（如Calvin、RT-1 benchmarks）通常环境较为结构化，与复杂的真实居家环境存在差异。虽然SOTA证明了模型的泛化推理能力，但并不直接等同于商业化产品的成熟度。

反例/边界条件：

硬件解耦的局限（反例）： 文章侧重于软件模型，但VLA仅是控制系统的一部分。如果执行器（机械臂）的精度、重复定位误差无法匹配模型的输出精度，或者力控反馈缺失，VLA的指令在物理世界可能无法准确执行。例如，模型预测“抓取”力度，但执行机构若无法实现精细力控，物体依然可能滑落。
安全与伦理的边界（边界条件）： 开源意味着模型分发范围扩大。如果VLA模型被恶意注入诱导数据，可能导致机器人在物理空间做出非预期动作。物理AI的安全性涉及实体安全，这是文章未深入探讨的风险点。

维度评价：

内容深度（4/5）： 文章没有停留在参数罗列，而是关注了“消费级显卡实时运行”这一产业化门槛。论证了算力成本对普及率的影响，具备行业洞察力。但在模型具体架构（如是否采用MoE、如何处理多模态token对齐）上略显简略。
实用价值（4.5/5）： 对于初创公司和研究者具有较高参考价值。它提供了一个低成本的基线模型，降低了具身智能的探索门槛。
创新性（3.5/5）： 观点属于“工程验证型创新”而非“理论颠覆”。VLA本身并非新概念，但将其压缩至4B并保持性能是显著的工程进步。
可读性（4/5）： 逻辑清晰，将技术指标与商业价值（产业化）结合紧密，适合技术决策者阅读。
行业影响： 可能引发“端侧轻量化大模型”的研发关注，促使其他厂商跟进开源或推出类似尺寸模型。

可验证的检查方式：

指标验证（技术侧）： 检查该模型在开放词汇目标检测任务上的零样本泛化准确率，以及在真实机械臂上的任务成功率（Success Rate），特别关注未见过的物体表现。
实验验证（工程侧）： 尝试在一张消费级显卡（如RTX 4090）上复现其80ms延迟的声明，并测试在多任务并发时的显存占用情况。
观察窗口（社区侧）： 观察GitHub开源后一段时间内的Fork数量和Star增长，以及是否有第三方团队发布基于该模型的微调Demo。
长期观察（商业侧）： 关注小米是否在后续的量产机型中实装了该模型的特定版本，以验证“模型-硬件”协同优化的实际进展。

实际应用建议： 对于开发者，建议关注模型在特定场景下的微调潜力，并注意评估硬件执行机构的匹配度。

学习要点

小米开源的VLA模型（1B参数）通过将视觉感知与语言理解深度融合，显著降低了具身智能在复杂物理场景中的落地门槛。
该模型针对机器人高频操作场景进行了数据优化，有效解决了传统大模型在物理交互中“理解但无法执行”的难题。
小米通过构建包含真实世界视频与合成数据的大规模数据集，大幅提升了模型对物理世界的因果推理能力。
开源策略旨在打破技术壁垒，通过社区协作加速物理AI从实验室验证走向工业级应用的产业化进程。
该架构验证了轻量化模型在边缘侧设备上运行的可行性，为未来人形机器人低成本、低延迟的部署提供了重要参考。
这一举措推动了具身智能从单一模态向多模态（视觉、语言、动作）协同进化的技术范式转变。

常见问题

1: 什么是小米机器人VLA模型，它与传统的语言模型（LLM）或多模态模型有何区别？

A: 小米推出的VLA（Vision-Language-Action）模型是一种专为具身智能设计的“视觉-语言-动作”大模型。与传统的LLM（主要处理文本）或LVM（主要处理图像和视频）不同，VLA模型的核心在于它具备了“理解物理世界并采取行动”的能力。它不仅能够通过视觉和语言指令感知环境，还能直接预测机器人的动作轨迹或控制指令。传统模型通常止步于生成文本或描述图片，而VLA模型打通了从感知到执行的闭环，使机器人能够完成复杂的物理操作任务，是实现通用机器人的关键技术。

2: 小米VLA模型在推动物理AI产业化方面有哪些核心技术优势？

A: 根据相关技术分析，小米VLA模型在产业化方面主要有以下优势：

端到端学习能力：模型能够直接将视觉信息和语言指令映射为机械臂的动作，减少了传统机器人 pipeline 中中间模块的误差累积。
高效的数据利用：通过利用大规模的互联网视频数据和机器人合成数据进行预训练，解决了机器人专用数据稀缺的问题。
泛化能力强：模型在面对未见过的物体或稍微变化的场景时，依然能够通过逻辑推理完成任务，而不是死记硬背动作轨迹。
轻量化与部署：针对机器人本体算力有限的情况，模型在架构上进行了优化，力求在保持性能的同时降低推理延迟，适配边缘端计算。

3: 小米是如何构建VLA模型所需的数据集的？数据从何而来？

A: 机器人数据的匮乏是具身智能发展的最大瓶颈之一。小米主要采取了“合成数据+真实数据”双管齐下的策略：

大规模视频数据：利用互联网上海量的开源视频数据（如Ego4D或类似数据集），让模型学习人类与物理世界交互的常识和物理规律（如重力、摩擦力、物体持久性）。
仿真与合成数据：通过高保真的物理仿真环境生成大量的交互数据，低成本地覆盖各种极端场景。
真机数据采集：利用小米的人形机器人（如CyberOne）或机械臂工作站，在真实世界中采集高质量的演示数据，用于微调模型，确保动作执行的精确度。

4: 开源VLA模型对整个机器人行业和开发者社区有什么具体影响？

A: 小米选择开源VLA模型（或相关权重/代码），对行业具有显著的推动作用：

降低研发门槛：研究者和初创公司不需要从零开始训练基础大模型，可以基于开源模型进行微调（Fine-tuning）或二次开发，加速产品落地。
建立统一标准：开源生态有助于形成统一的评估标准和接口规范，避免碎片化开发，促进不同硬件和软件之间的兼容。
加速技术迭代：更多的开发者参与贡献代码、数据和反馈，能够帮助发现模型的缺陷并快速修复，形成“社区共建”的正向循环。
促进应用场景探索：开源模型能激发开发者在工业制造、家庭服务、商业导购等不同场景的创造力，挖掘出更多潜在的商业模式。

5: 目前小米VLA模型在实际应用中面临哪些挑战？

A: 尽管VLA模型前景广阔，但在产业化落地过程中仍面临挑战：

Sim-to-Real（从仿真到现实）的鸿沟：虽然仿真数据丰富，但物理世界极其复杂且不可预测（如光照变化、遮挡、物体材质差异），模型在虚拟环境表现完美，但在真机上可能失败。
实时性与算力平衡：具身智能要求极低的反应延迟（毫秒级），而大模型推理通常计算量巨大，如何在有限的机器人本体算力下实现高速控制是一个工程难题。
长尾场景的安全性：在家庭或公共环境中，机器人可能会遇到无数种长尾情况，如何保证模型在遇到未知干扰时不会做出危险动作（如剧烈挥舞、跌倒）是安全验证的重点。

6: 小米VLA模型与其“人形机器人CyberOne”等硬件产品是如何结合的？

A: VLA模型是机器人的“大脑”，而CyberOne是“身体”。结合方式主要体现在：

感知层：CyberOne的视觉传感器捕捉环境图像，输入给VLA模型。
决策层：VLA模型结合用户的语音指令（如“把那瓶水递给我”）和视觉输入，理解“水”在哪里，规划出抓取、移动、递送的一系列动作轨迹。
执行层：模型输出的控制指令驱动CyberOne的关节电机，完成精准的物理操作。这种结合使得机器人不再是执行固定程序的机器，而是能听懂人话、看懂环境的智能助手。

7: 物理AI（Physical AI）产业化未来的发展方向是什么？

A: �

引用

掘金原文: https://juejin.cn/post/7606324035640918016

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 开源生态
标签：具身智能 / VLA模型 / 小米 / Xiaomi-Robotics-0 / 机器人 / 物理AI / SOTA / 模型开源
场景： AI/ML项目

Z.ai GLM-5开源：性能超越Opus 4.5
🚀Kimi K2.5震撼开源！视觉SOTA级智能模型，性能炸裂！
NVIDIA Cosmos策略：面向高级机器人控制的新方案
NVIDIA Cosmos策略发布：提升机器人控制精度
Moonshot Kimi K2.5：半价超越Sonnet 4.5，支持原生图文视频与百并发智能体 本文由 AI Stack 自动生成，提供深度内容分析。

AI Stack

小米开源Xiaomi-Robotics-0：47亿参数VLA模型刷新具身智能基准