大模型头部格局基本确定,AI Agent 将加速 AGI 进程
我们认为,海外闭源大模型已经形成 OpenAI 为首,Google、Anthropic 等紧随的格局。在头部闭源模型之下,Meta 引领开源模型生态,开源闭源模型差距逐步缩小。为了适配端侧需求,小参数模型也在快速发展。国内看,模型百花齐放,但技术辨识度不高,23 年头部互联网厂商和科技企业进展较快,24 年以来初创公司开始发力长文本、MoE 等领域。展望后续,Scaling Law+Transformer 仍将长期有效,合成数据或逐渐成为关键数据来源。此外,AI Agent 能够极大提高现有模型的表现,是实现 AGI 的重要推力。大模型技术是 AI 浪潮的软件“基础设施”,建议持续关注相关进展。
多模态+长文本+MoE 已成共识,大模型与小模型路线并驾齐驱
头部 GPT、Gemini、Claude 模型先后支持了多模态推理;Claude 较早实现了 200K 长文本,Gemini 将长文本推到 2M tokens;GPT-4、Mistral 展现了 MoE 架构的优势,Gemini 也在短期内更改为 MoE 架构。共识已经形成,国内大模型厂商均在跟进,Kimi 引领长文本趋势,MiniMax、阶跃星辰较早实践 MoE 模型。Mistral、微软、Meta、Google 的小模型性能不断突破,为端侧 AI 打下良好基础,成为与大模型并驾齐驱的另一条重要发展路线。
Scaling Law 未达边界,算力换智能仍然成立
OpenAI 在 Scaling Law 论文中,从理论上预测了边界递减的存在。但实际上,OpenAI、Google 和 Anthropic 仍在践行大参数等于高智能的路线。清华唐杰教授在 24 年 2 月北京人工智能产业创新发展大会上指出,ScalingLaw 尽头远未到来,算力换智能继续成立。在参数持续变大的情况下,训练数据的需求量进一步提升,据 Epoch 预测,2030 年到 2050 年,将耗尽低质量语言数据的库存,未来训练数据的缺乏将可能减缓机器学习模型的规模扩展。因此,合成数据或成为关键。
AI Agent 是 AGI 的关键范式,具身智能是大模型重要落地场景
AI Agent 能够自主、全流程、多步骤的执行任务,大幅延展了大模型的能力范围,被认为是实现 AGI 的关键范式。斯坦福大学吴恩达教授在 24 年 3 月的红杉美国 AI 峰会上指出,如果用户围绕 GPT-3.5 使用一个 Agent 工作流程,其实际表现甚至好于 GPT-4。并且 AI Agent 的能力能够充分受益于大模型的演进。此外,大模型与机器人具身智能的结合(如 OpenAI 与 Figure),也有望随着模型能力的迭代快速发展。我们认为,24 年 AI Agent 和具身智能将成为新一代大模型的重要落地场景。
GPT-5 有望推动全球算力和应用的下一阶段发展我们预期 GPT-5:1)MoE 架构将延续,专家参数和数量或变大;2)GPT-5及之后模型的训练数据集质量更高、规模更大;3)在思维链 CoT 的基础上,再加一层 AI 监督;4)支持更多外部工具调用的端到端模型;5)多种大小不同的参数,不排除推出端侧小模型;6)从普通操作系统到 LLM 操作系统;7)端侧 AI Agent 将更加实用和智能。我们认为,GPT-5 的发布有望推动全球算力和应用的下一阶段发展,建议关注:海外标的,AI 应用:微软、Adobe
等。国内标的,1)AI 服务器:浪潮信息等;2)AI 应用:金山办公、福昕软件、泛微网络等;3)端侧:中科创达、网宿科技。
风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
正文目录
大模型复盘:全球格局与模型特点基本明晰 .......... 3
全球格局:海外技术收敛,国内百花齐放 .......... 3
特点#1:大模型与小模型同步发展 .......... 7
特点#2:原生多模态逐步成为头部大模型的标配能力 .......... 11
特点#3:上下文作为 LLM 的内存,是实现模型通用化的关键 .......... 16
特点#4:MoE 是模型从千亿到万亿参数的关键架构 .......... 20
大模型展望:Scaling Law + AI Agent + 具身智能 .......... 23
展望#1:Scaling Law 理论上有边界,但是目前仍未到达 .......... 23
展望#2:模型幻觉短期难消除但可抑制,CoT 是典型方法.......... 24
展望#3:开源模型将在未来技术生态中占据一席之地 .......... 25
展望#4:数据将成为模型规模继续扩大的瓶颈,合成数据或是关键.......... 27
展望#5:新的模型架构出现,但是 Transformer 仍是主流 .......... 29
展望#6:AI Agent 智能体是 AGI 的加速器 .......... 31
展望#7:具身智能与 LLM 结合落地加速 .......... 33
GPT-5 的几个预期 .......... 36
预期#1:MoE 架构将延续,专家参数和数量或变大 .......... 36
预期#2:GPT-5 及之后模型的训练数据集质量更高、规模更大 .......... 37
预期#3:在思维链 CoT 的基础上,再加一层 AI 监督 .......... 37
预期#4:支持更多外部工具调用的端到端模型 .......... 38
预期#5:多种大小不同的参数,不排除推出端侧小模型 .......... 39
预期#6:从普通操作系统到 LLM 操作系统 .......... 39
预期#7:端侧 AI Agent 将更加实用和智能 .......... 40
理想 vs 现实:从 AI+到+AI .......... 42
大模型产业链相关公司及主要逻辑 .......... 46
相关产业链公司梳理 .......... 46
相关产业链公司逻辑 .......... 46
国产大模型初创公司投融资情况 .......... 54
风险提示.......... 56

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。