机械设备从英伟达的布局看机器人的大模型和训练具身智能的三要素包含算法、数据和执行器,三者相辅相成。
人形机器人这种具身智能的三要素工作方式通常是:机器人接收到任务后,大模型驱动执行器及其各种传感器动作规划出运动路径和计算出相应数据,数据再反馈至大模型验证到最精确的数据。英伟达在 2024 年 GTC 大会上发布了人形机器人项目 GR00T,旨在开发人形机器人的通用基础模型,英伟达GR00T 项目中包含训练学习的 AI 平台、模拟学习的实验室平台、高算力的系统芯片等。该模型将多模式指令和过去的交互作为输入并输出机器人动作。由该平台提供支持的机器人,可以通过观察人类行为来理解自然语言和模仿动作,使机器人能够快速的学习协调性、灵活性和其他技能,适应和现实世界互动。
机器人模型从大语言模型到分层端到端模型,大大加快了人形机器人的训练速度。人形机器人大模型从最初的大语言模型到现在的分层端到端模型,产生了巨大的变化。目前的分层端到端模型相比传统的大语言模型存在诸多的优点:精确度高、高效性、灵活性和可以通过仿真模拟收集收据等。但也存在较大的问题:数据缺乏、成本高、错误率高、响应速度慢等。
近日,GR00T 项目有最新进展,突破了原有人形机器人收集训练数据高昂成本的痛点,即可以通过在仿真中扩展学习实现大幅度降低人形机器人训练数据的成本。具体实现方式主要分为几步:给定人形机器人使用 Apple Vision Pro 得到的人类轨迹,即得到初识小量的物理世界的数据;英伟达研究人员通过 RoboCasa 在仿真中改变人形机器人实验场景的视觉变化和场景布局,从而得到比原来更为庞大的数据;研究人员再通过 MimicGen 改变人形机器人执行同一个人物时不同的动作,同时过滤掉失败的路径,把数据扩展到初始数据 1000 倍或以上倍数的数据。
拓展法则运用至机器人中面临着数据多样性、实时性和安全性考虑,对于这些限制,英伟达 GR00T 给出了自己的答案。英伟达研究人员通过 GPU加速仿真模拟讲昂贵的数据扩展至海量数据样本的方式,突破了我们始终受限于每个机器人每天 24 小时的时间,英伟达新 GR00T 合成数据管道打破了这一限制。OpenAI 在 2020 年首次系统的阐述了拓展法则:在一定条件内,模型性能会随着模型规模和训练数据量的增加而呈指数级别增长。
风险提示:制造业扩产不及预期风险,行业竞争格局恶化风险,机器人应用模型开发不及预期风险。
内容目录
算法、数据和执行器是具身智能的三要素,英伟达平台可用于仿真训练 .......... 3
英伟达 GR00T 项目旨在构建人形机器人的通用大模型 .......... 4
大语言模型到分层端到端模型,人形机器人的“大脑”智能度提高迅速 .......... 6
人形机器人训练三大痛点:数据缺乏、成本高、成功率低 .......... 8
GR00T 项目有重大突破,可大幅降低人形机器人训练成本 .......... 11
风险提示 .......... 13
图表目录
图表 1:具身智能三要素 .......... 3
图表 2:英伟达 GR00T 项目.......... 4
图表 3:NVIDIA Isaac Lab .......... 5
图表 4:Isaac ROS on Jetson Thor .......... 5
图表 5:LLM 在机器人上的应用 .......... 6
图表 6:tesla 一代机器人收集数据靠人类教学 .......... 7
图表 7:Mobile ALOHA 视频教学 .......... 7
图表 8:当前大模型数据严重不足 .......... 8
图表 9:Figure 01 简单执行任务不会卡壳 .......... 9
图表 10:tesla 机器人精准扶正电池 .......... 9
图表 11:银河通用机器人打开柜门 .......... 9
图表 12:银河通用创始人王鹤提出的三层级大模型架构 .......... 10
图表 13:研究人员利用 Apple Vision Pro 采集数据 .......... 11
图表 14:初步收集数据后的训练路径 .......... 11
图表 15:在仿真中改变场景的视觉外观和布局让机器人训练 .......... 11
图表 16:Midgen MIM 工作路径 .......... 12
图表 17:英伟达人形机器人领域应用扩展实现路径 .......... 12

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。