野生研究社出品
为行业研究者打造专属资料库

从谷歌看机器人大模型进展

今天,为大家分享的报告是《从谷歌看机器人大模型进展》,报告共26页,更多重要内容、核心观点,请参考报告原文。

报告核心内容解读

本报告主要探讨了人形机器人、大模型在机器人领域的应用以及机器人产业未来的发展趋势。报告指出,大模型是实现人形机器人通用性和泛化能力的关键要素,具有庞大的先验知识库与强大的通识理解能力,可以满足人形机器人通用性的场景要求和技能要求。此外,报告还介绍了谷歌在机器人大模型上的研究进展,并指出机器人产业仍处于较为早期阶段,未来产业机会主要有算力、数据和细分场景的模型搭建。

1. 大模型在人形机器人中的应用

* 人形机器人的特点在于通用性和泛化能力,远期可以替代人类完成多项任务。

* 大模型具有庞大的先验知识库与强大的通识理解能力,可以满足人形机器人通用性的场景要求和技能要求。

* 大模型可以帮助机器人拆分与分解一件事件如何完成,先解码出计划的步骤,再解码需要完成任务需要输出的动作。

2. 谷歌在机器人大模型上的研究进展

* 从Saycan到RT-X,谷歌持续高速迭代模型,逐步向底层运动控制方面发展。

* RT-1使用传统神经网络的方法来执行SayCan的任务。

* RT-2将VLM大模型与RT-1的机器人执行数据集一起微调训练。

* 创建OpenX数据集训练出模型RT-X。

3. 机器人产业的发展趋势和机会

* 目前大部分机器人大模型仍然以单机械臂抓取为主,且模型的框架仍然在持续变化。

* 大模型现在对底层的控制仍然偏弱。

* 未来产业机会主要有三个方面:算力、数据、细分场景的模型搭建。

* 算力:机器人需要快速与环境交互,同时大模型本身要计算和存储空间。二者叠加之下机器人所需的参数和算力比自动驾驶以及大语言模型都要更大,因此对于算力的需求将在后续逐步有所体现。

* 数据:机器人需要通过多种传感器感知环境状态,然后执行实际动作来完成任务,一方面需要3D环境数据,另一方面需要的是主动数据,此类数据量极度稀缺。

* 细分场景的模型:未来大模型在机器人的应用,或许是通过底层的通识大模型+细分场景模型微调获得,其中底层架构的通识大模型有望参考类似手机安卓的模式由头部的AI企业开源,而细分场景的模型(同时也包括所需的数据)才是未来大部分企业可以竞争的市场。在这个赛道中,数据仍然是模型的基础。

报告节选

因篇幅限制,仅展示部分,更多重要内容、核心观点,请参考报告原文或底部相关报告。

版权声明:报告来自互联网,仅供投资者学习和参考,在发布信息时,我们将尽最大努力标明出处,但因互联网的去中心、海量信息的特殊结构,可能有时会存在未指明作者的失误,我们诚挚的希望您能指出我们的工作失误,如果您(单位或个人)认为本站的内容有侵权嫌疑,烦请通知我们(kefu@baogaobox.com),我们将在第一时间处理核实,同时如果您的报告不愿在本站展示,请联系我们删除或更改,谢谢。本站仅提供用户检索、查询报告服务,以便快速找到报告的来源、作者等信息,不提供下载服务。如需下载,请前往社群。
文章名称:《从谷歌看机器人大模型进展》
文章链接:https://www.baogaobox.com/insights/231221000000128.html
分享到