信息技术-通信：“合成数据+强化学习”：大模型进化的新范式(附18页报告下载) - 行业研究

报告摘要

当地时间 9 月 12 日，OpenAI 发布新模型系列 o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview 每百万 token 输入 15 美元，每百万输出 token60 美元，o1-mini 相对便宜，每百万 token 输入 3 美元，每百万 token 输出 12 美元。目前 ChatGPT Plus和 Team 用户可以在模型选取器中手动选择，o1-preview 每周限制 30 条消息，o1-mini 每周限制 50 条消息。

o1 亮点一：或为 OpenAI 新模型“Orin”生成合成数据。据 The Information，o1 或为 OpenAI 新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI 创始团队出走创办的 Anthropic——OpenAI 的有力竞争对手，2024 年 6 月发布了大模型 Claude 3.5 Sonnet，该模型使用了合成数据，在多个测试中的表现优于 GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。

o1 亮点二：“合成数据+强化学习”，o1 或确认大模型进化新范式。市场认为，Scaling Law（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据 OpenAI 工程师 Jason Wei，o1 使用了强化学习（RL）做思维链（Chain of Thought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即 Scaling Law 可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL），指模型 A 生成推理结果后，由模型 B 给推理结果打分，帮助模型 A 不断调整参数、迭代、进化，分成 RLAIF（基于 AI 反馈的强化学习）和 RLHF（基于人类反馈的强化学习）多种，后者曾因被用于 ChatGPT 而名声大噪。我们认为，o1 系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于 AI 反馈的强化学习）逐渐成为 Meta LLama3、英伟达 Nemotron-4 340B、微软Orca-2 等热门大模型的选择，相较于 RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIF 或许也是 o1 在代码、数学等问题上表现更好的原因。

投资建议：根据 OpenAI，o1 模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明 o1“推理时，在响应用户前，思考更多”有助于让 o1 表现更好，这正是推理 Scaling Law。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理 Scaling Law 仍将利好算力板块。建议关注：1）光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2）液冷服务商：英维克；3）PCB 服务商：沪电股份等；4）AIDC：润泽科技等。

风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。

内容目录

1 Open AI 新模型开出高额订阅费，多领域实现新飞跃 .......... 3

1.1 OpenAI 发布新模型 o1 系列，逻辑推理能力卓越 .......... 3

1.2 o1 或为 Open AI 新模型猎户座（Orion）生成合成数据 .......... 4

2 合成数据面面观：定义、优点、不足与解决方案 .......... 6

2.1 合成数据的定义 .......... 6

2.2 合成数据的优点 .......... 6

2.2.1 相较于人工生成的数据，性价比或更高 .......... 6

2.2.2 更完整、全面 .......... 6

2.2.3 隐私性更好 .......... 6

2.3 合成数据的不足与解决方案 .......... 7

2.3.1 不足 .......... 7

2.3.2 解决方案一：诱导幻觉 .......... 7

2.3.3 解决方案二：加入数据评估机制 .......... 8

2.3.4 解决方案三：在训练过程中积累数据 .......... 9

3“合成数据+强化学习”，o1 或确认大模型进化新范式 ..........11

3.1 Meta Llama 3：使用合成数据和 RLAIF 训练 ..........11

3.2 英伟达 Nemotron-4 340B：合成数据神器和 RLAIF，表现卓越 ..........13

3.3 微软 Orca-3：智能体框架 Agent Instruct，生成式教学 ..........14

4 投资建议：OpenAI 揭示的推理 Scaling Law 利好算力板块 ..........16

图表目录

图表 1： OpenAI o1 在不同领域的得分情况 .......... 3

图表 2： OpenAI o1 相较 gpt4o 的多维度性能提升 .......... 3

图表 3： OpenAI o1-preview 的 API 定价 .......... 4

图表 4： OpenAI o1-mini 的 API 定价 .......... 4

图表 5： Claude 3.5 Sonnet 在多项测试中的表现优于 GPT4o .......... 5

图表 6： “诱导-对比解码”策略 .......... 8

图表 7： ICD 策略应用前后不同模型的 TruthfulQA 变化 .......... 8

图表 8： Nemotron-4 340B 模型应用路径 .......... 9

图表 9： 数据在模型拟合迭代替换 .......... 9

图表 10： 数据在模型拟合迭代积累 .......... 9

图表 11： 数据在模型拟合迭代替换的损失变化 ..........10

图表 12： 数据在模型拟合迭代积累的损失变化 ..........10

图表 13： 自我奖励语言模型训练原理 ..........12

图表 14： Llama 3.1 405B 与其他模型的人工测评结果 ..........12

图表 15： Llama 3.1 405B 与 Nemotron-4 340B、GPT-4 等模型各任务表现对比 ..........13

图表 16： Nemotron-4 340B 与 Llama-3-70b 等模型在各任务表现对比 ..........14

图表 17： Nemotron-4 340B Instruct 与其他知名模型在硬基准测试中的表现对比 ..........14

图表 18： Orca-3 和其他模型在各任务中表现对比 ..........15

图表 19： 阅读理解任务中 Orca-3 和其他模型的表现对比 ..........15

图表 20： 数学任务中 Orca-3 和其他模型的表现对比 ..........15

图表 21： o1 模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好 ..........16

图表 22： 英伟达科学家 Jim Fan 图示 o1 推理 Scaling Law ..........17
因篇幅限制，仅展示部分，更多重要内容、核心观点，请下载报告。
信息技术-通信：“合成数据+强化学习”：大模型进化的新范式

报告摘要

相关报告

热门标签

热门报告

热门洞察