 

当前位置：远瞻慧库  热点洞察  正文

智算中心变革揭秘：AI大模型训练瓶颈与网络互联新趋势

发布时间：2024-05-07 13:48 分类：热点洞察来源：互联网整理预计阅读时长 3 分钟举报

本次为大家解读的报告是《计算机行业新型智算中心改造专题报告：网络成大模型训练瓶颈，节点内外多方案并存》，更多重要内容、核心观点，请参考报告原文，文末有完整版获取方式。

报告核心内容解读

本报告针对计算机行业新型智算中心改造进行专题分析，特别关注网络在大模型训练中的瓶颈问题，并探讨了节点内外多种解决方案的共存现状。报告分析了AI大模型训练和推理对智能算力需求的快速增长，以及智算中心向超级池化发展的趋势，同时提出了针对网络互联的多种方案，并对未来的投资方向进行了展望。

一、AI大模型训练和推理推动智能算力需求增长

模型迭代和数量增长：模型能力的提升依赖于更大的训练数据量和模型参数量，导致算力需求持续增长。模型种类多样化和各厂商自主模型的研发也推动了算力需求的增长。
未来AI应用爆发：随着AI应用用户数量的激增，推理侧算力需求也快速增长，各厂商基于AI大模型开发的各类AI应用将进一步推动算力需求的增长。

二、智算中心向超级池化发展

新型数据中心：智算中心以GPU、AI加速卡等智能算力为核心，随着大模型进入万亿规模，算力、显存、互联需求再次升级，智算中心将走向超级池化阶段。
新挑战：超级池化对设备形态、互联方案、存储、平台、散热等维度提出了新的要求，智算中心需要应对这些挑战。

三、网络互联：节点内外多方案并存

节点内方案：私有方案以英伟达NVLink为代表，支持GPU间无缝高速通信；开放技术方案则以OAM和UBB为主，提供通用的AI扣卡模组形态和基板拓扑结构设计规范。
节点间方案：主要方案包括Infiniband和RoCEv2。Infiniband在网络性能、集群规模、运维等方面具备显著优势；RoCEv2则是一个纯分布式的网络解决方案。

四、投资展望

新型智算中心趋势：AI大模型的参数量和训练数据量的快速增长对数据中心的计算、存储、网络等提出了新的要求，新型智算中心是产业发展的必然趋势。
网络互联新要求：AI大模型需要部署在高速互联的多个AI芯片上，卡间或节点间不仅有训练数据通信，还有模型梯度的频繁传递，这对智算中心的网络互联提出了新的要求。

报告节选

因篇幅限制，仅展示部分，更多重要内容、核心观点，请参考报告原文或底部相关报告。

版权声明：报告来自互联网，仅供投资者学习和参考，在发布信息时，我们将尽最大努力标明出处，但因互联网的去中心、海量信息的特殊结构，可能有时会存在未指明作者的失误，我们诚挚的希望您能指出我们的工作失误，如果您（单位或个人）认为本站的内容有侵权嫌疑，烦请通知我们（kefu@baogaobox.com），我们将在第一时间处理核实，同时如果您的报告不愿在本站展示，请联系我们删除或更改，谢谢。本站仅提供用户检索、查询报告服务，以便快速找到报告的来源、作者等信息，不提供下载服务。如需下载，请前往社群。
文章名称：《智算中心变革揭秘：AI大模型训练瓶颈与网络互联新趋势》
文章链接：https://www.baogaobox.com/insights/240507000001090.html

分享到

智算中心 AI大模型

相关报告

回顶部