交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是 OpenAI 的 GPT-4o。特点如下:
1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。
2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在 GPT-4o 能在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,而过去 GPT-3.5 平均延时为 2.8 秒、GPT-4 为 5.4 秒。
3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。
4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。
交互型多模态大模型成本将降至几何?大模型降本趋势显著。8 月,OpenAI 发布更强且更具性价比的 GPT-4o 新版本,相比 5 月版本价格下降超 40%至$4/100万 tokens。按照这个趋势,我们预计以 GPT-4o 为代表的交互型多模态大模型的成本将继续快速下降,每百万 tokens 的推理成本或将在两年内降至美分量级。
交互型多模态大模型进展如何? OpenAI 与谷歌双巨头抢滩,分别发布 GPT-4o和 AI 智能体项目 Project Astra,Meta 也于 2024 年 5 月发布具有原生多模态特性的 Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新 5o”,智谱面向 C 端开放“视频通话”功能。
为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从 PC 互联网时代,到移动互联网时代,再到现在的 AI 时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。
交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。
交互型多模态大模型商业模式展望:1)聊天助手 APP。2)作为基础模型接入各类应用。3)与终端 OS 深度融合成为 AI 时代的“超级入口”。
相关标的梳理:1)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;3)具身智能应用:海康威视、大华股份;4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。
风险提示:AI 技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。
索引内容目录
一、 什么是交互型多模态大模型? .......... 4
1.1 交互型多模态大模型应具备什么特点? .......... 4
1.2 交互型多模态大模型成本将降至几何? .......... 8
二、 交互型多模态大模型进展如何? .......... 10
2.1 海外:OpenAI 与谷歌双巨头抢滩 .......... 10
2.2 国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能 .......... 11
三、 为什么交互型多模态大模型有望带来应用的爆发? .......... 14
3.1 视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式 .......... 14
3.2 应用发展的核心就是人机交互模式的升级 .......... 15
四、 交互型多模态大模型会带来怎样的应用? .......... 19
4.1 交互型多模态大模型在“数字智能”中的应用 .......... 19
4.1.1 教育 .......... 19
4.1.2 编程 .......... 22
4.1.3 医疗健康 .......... 23
4.1.4 办公 .......... 25
4.1.5 游戏 .......... 26
4.1.6 情感陪伴 .......... 28
4.2 交互型多模态大模型在“具身智能”领域应用 .......... 29
4.2.1 人形机器人 .......... 29
4.2.2 智能座舱 .......... 30
4.2.3 智能家居 .......... 32
五、 交互型多模态大模型未来形态 .......... 35
5.1 交互先行,端侧 AI 发展有望加速 .......... 35
5.2 交互型多模态大模型商业模式 .......... 36
六、 相关标的梳理 .......... 38
七、 风险提示 .......... 38
图表目录
图 1:GPT-4o 能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议 .......... 4
图 2:用户写字表白,GPT-4o 能快速识别字迹并高兴地感谢用户,输出时语气带着笑意 .......... 4
图 3:过去 ChatGPT 实现语音互动的三个步骤 .......... 5
图 4:谷歌 Gemini 具有原生多模态特性.......... 5
图 5:Gemini 多模态能力使用案例 .......... 5
图 6:Chameleon 的模型结构与训练方法 .......... 6
图 7:GPT-4o 响应速度提升 .......... 7
图 8:GPT-4o 与人交流时会开一些合理的玩笑,如它会说“我今天要请客了” .......... 7
图 9:Project Astra 记住了曾经“看”到过的眼镜和苹果 .......... 8
图 10:OpenAI 大模型的降本历程 .......... 9
图 11:GPT-4o mini 在基准测试中表现较好 .......... 9
图 12:GPT-4o mini 具有高性价比 .......... 9
图 13:GPT-4o 新版本价格相比 3 个月前下降超 40% .......... 10
图 14: GPT-4o 在多语言识别方面与 Whisper-v3 对比 .......... 10

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。