机器人行业专题报告：机器人的大脑，具身智能(附24页报告下载) - 行业研究

报告摘要

2024 年人形机器人最具突破性的进展主要体现在具身智能领域：3 月，Covariant 发布端到端具身大模型 RFM-1，具身智能创业团队 Sergey Levine 和 Chelsea Finn 创立 Pi（Physical Intelligence），Figure AI 发布接入 OpenAI GPT-4V 的 Figure 01 demo。4 月，李飞飞创立 World Labs，致力于解决 AI 在三维空间感知和理解方面的难题。5 月，特斯拉发布视频，展示 Optimus 精准分拣特斯拉电动车 4680 电池的场景，使用完全端到端神经网络，只利用 2D 摄像头视频和机载自传感器，直接生成关节控制序列，完全靠视觉辅助和人类示范进行训练。国内人形机器人产业硬件供应链优势明显，在具身智能、数据采集、人才领域的短板需要补齐。

分层端到端是目前具身智能的主要路径。大模型分为非具身大模型（基础大模型）、具身智能大模型（机器人大模型），区别是能否生成运动姿态。非具身大模型如 GPT、Sora 等，输入和输出的模态都是语言、图片和视频。具身智能大模型输入视觉、语言信号，输出三维物理世界的操作，其中，端到端的具身大模型对数据和算力要求高，如 Tesla FSD、谷歌 RT 模型；Figure AI 等大多数公司都采取了分层端到端的具身大模型，一般分为三层：基础大模型（LLM 或 VLM）、决策大模型、操作大模型，其中决策大模型以 ChatGPT for Robotics、谷歌 PaLM-E 为代表，技术方向从 LLM 向强化学习（RL）演进，基于 RL 的范式可以使模型能够在不同环境和任务中学习和适应，实现更高级的决策能力。操作大模型根据决策大模型的输出执行具体动作，需要与机器人硬件深度集成，且必须通过数据采集来实现，技术方向从“MPC+WBC”向“RL+仿真”演进，MPC 更适合具有精确模型和短期优化目标的场景，RL 更适用于不确定性高、需要长期学习和自适应的环境。在操作大模型领域，大多数厂商都刚起步。

数据采集的主要方式：远程操作、仿真合成数据。互联网上各类文本、图像和视频数据集庞大，机器人的场景和交互有价值的数据量小，限制了 AI 模型在人形机器人上的泛化能力。特斯拉 Tesla Bot 开发团队使用人类的真实运动方式来训练机器人，英伟达推出 MimicGen 和 Robocasa 模型，通过真人的遥操作数据捕获，再通过生成合成运动数据和模拟环境，加速机器人技术的研发和应用。国内人形机器人创新中心加速建设人形机器人训练场。

具身智能估值逻辑：硬件、数据、模型、人才。硬件是一切的基础，如果没有自己的硬件，就无法根据算法和数据进行硬件的快速优化和修改。涉及数据的采集、组织管理以及与模型的闭环开发，需要有强大组织能力的团队，核心团队需要具备组织大规模工程师的经验；越来越多的算法陆续开源，开源算法可以提供基础的功能和技术，但要实现高质量、高性能的人形机器人，需要专业的算法团队进行深入研究和开发。

风险提示：1）竞争环境恶化；2）新技术的应用速度低于预期。

目录 

1. 具身大模型：能够理解三维物理世界的模型 .......... 4

1.1. 非具身大模型 vs 具身大模型：是否可以生产运动姿态 .......... 4

1.2. 具身大模型：端到端&分层端到端 .......... 4

1.3. 主流方案：分层端到端，典型代表 Figure AI.......... 5

2. 具身大模型的主流方案：分层端到端 .......... 7

2.1. 基础大模型：LLM&VLM .......... 7

2.2. 决策大模型：从 LLM 向 RL 演进.......... 8

2.3. 操作大模型:从“MPC+WBC”向“RL+仿真”演进 .......... 10

3. 数据采集：具身智能最大的壁垒之一 .......... 12

3.1. 机器人场景数据主流采集方法：远程操作、仿真合成数据 .......... 13

3.2. 远程操作+仿真合成数据，混合数据才是未来？ .......... 14

3.3. 人形机器人训练场打造如火如荼 .......... 18

4. 具身智能估值基础：硬件、数据、模型、人才 .......... 20

5. 风险提示 .......... 22
因篇幅限制，仅展示部分，更多重要内容、核心观点，请下载报告。
机器人行业专题报告：机器人的大脑，具身智能

报告摘要

相关报告

热门标签

热门报告

热门洞察