引言
2026年6月1日,在美国丹佛举行的CVPR 2026计算机视觉与模式识别大会上,NVIDIA发布了一套堪称革命性的开源物理AI技术栈。这套技术栈涵盖了人形机器人、自动驾驶和智能体开发的三大核心领域:人形机器人基础模型GR00T N1.6、自动驾驶视觉语言动作模型Alpamayo,以及安全沙箱开发环境OpenShell。加上此前发布的Cosmos3-Super 64B物理世界模型,NVIDIA正在构建一个从感知到决策、从训练到部署的物理AI完整生态,且这一生态的核心组件正在全面走向开源。
GR00T N1.6:人形机器人基础模型的代际跃升
GR00T N1.6是NVIDIA在人形机器人领域的最新旗舰模型。作为GR00T系列的第六代产品,N1.6在感知精度、运动控制和任务推理能力上实现了显著提升。该模型能够理解复杂的自然语言指令并将其分解为机器人可执行的序列化动作,同时具备环境感知和自我纠错能力。例如,当机器人被要求「从桌子上拿起蓝色杯子放到厨房水槽里」时,GR00T N1.6能够自主完成物体识别、抓取规划、路径导航和精确放置的全流程。NVIDIA将GR00T N1.6以开源方式发布,意味着全球的机器人研究机构和企业都可以基于这一基础模型进行二次开发和定制优化,大幅降低了人形机器人研发的门槛和成本。
Alpamayo:让自动驾驶车辆真正「理解」驾驶场景
与GR00T N1.6同时发布的还有Alpamayo——一个面向自动驾驶的视觉语言动作(VLA)模型。传统自动驾驶系统的感知、决策和控制通常是分离的模块,而Alpamayo通过端到端的VLA架构,将视觉感知、语义理解和动作规划整合在一个统一的模型中。这意味着车辆不仅仅是「看到」路况,而是真正「理解」了驾驶场景的含义——例如,它能够理解「前方施工区域的工人打出了停车手势」这一复杂场景中隐含的指令,并做出相应的驾驶决策。Alpamayo的开源发布同样意义重大:它将加速学术界和产业界在自动驾驶领域的研发进程,推动L4级以上自动驾驶技术的普及。
OpenShell:安全沙箱降低物理AI开发风险
随两大模型一起发布的还有OpenShell——一个为物理AI开发者设计的安全沙箱开发环境。物理AI与传统AI的一个关键区别在于:物理AI的错误可能造成真实的物理损害——机器人可能撞坏物体、自动驾驶汽车可能引发事故。OpenShell提供了一个高保真的物理仿真环境,开发者可以在其中安全地训练和测试AI模型,而无需担心对真实设备或环境造成损害。该沙箱环境支持多种传感器仿真、物理引擎和场景生成,可以模拟从工厂车间到城市街道的各种真实环境。OpenShell的发布解决了物理AI开发中一个长期存在的痛点——缺乏安全、低成本、高保真的开发和测试环境,让更多开发者和研究者能够参与到物理AI的创新中来。
Skills Builder与开发者生态
除了三大模型外,NVIDIA还发布了Skills Builder框架,这是一个为机器人技能开发设计的工具集。开发者可以在OpenShell环境中利用Skills Builder快速构建和测试机器人技能模块,例如物体抓取、移动导航、人机交互等。这些技能模块可以像搭积木一样组合使用,大幅降低了机器人应用开发的复杂度。Skills Builder与GR00T N1.6深度集成,开发者可以在基础模型之上快速构建特定场景的机器人应用,无需从零开始训练模型。这种「基础模型+技能模块」的架构,正在成为机器人开发的新范式。
物理AI开源生态的格局重塑
NVIDIA在CVPR 2026上的这一系列发布,标志着物理AI领域正在经历一场从封闭到开放的深刻转变。过去,人形机器人和自动驾驶的核心模型多为企业内部秘密研发,开源模型在性能和功能上与闭源方案存在显著差距。而GR00T N1.6和Alpamayo的开源发布,意味着开源物理AI模型的性能已经达到或接近业界顶尖水平。这一变化将深刻影响整个机器人产业的竞争格局:小型创业公司和学术研究机构将获得与科技巨头同台竞技的基础能力,行业创新将加速,应用场景将进一步拓展。从长远来看,物理AI的开源生态可能像大语言模型领域的Llama一样,催生出一个繁荣的第三方应用和创新生态。
来源:ChatForest、NVIDIA官网、CVPR 2026
