2025年UPN512技术架构白皮书V1.0（英文版）-阿里云_前沿科技

2025年UPN512技术架构白皮书V1.0（英文版）-阿里云

创始人

2025-10-12 00:01:33

0次

白皮书由阿里云网络基础设施团队撰写，聚焦超高性能网络（UPN512）技术架构，旨在应对AI基础设施网络发展趋势下xPU扩展网络的挑战，为构建大规模、高性能、高可靠、低成本且可扩展的xPU扩展系统提供方案。

首先，阐述AI基础设施网络趋势与xPU扩展网络挑战。AI领域大模型训练与推理对计算和内存需求激增，AI集群通过高性能网络扩展，MoE架构、训推一体化、xPU规模扩大等趋势对网络提出新要求。当前xPU扩展系统多采用铜互连，虽成本低、稳定，但传输距离有限，高密度机架设计存在复杂度、可靠性和扩展性问题；光互连是更大规模扩展网络的必然选择，却面临成本与可靠性挑战，且高带宽通信下计算开销大。

接着，介绍阿里云UPN512架构概况。UPN512继承高性能网络（HPN）扩展网络设计原则，以“大规模、高性能、高可靠、低成本、可扩展”为目标，采用高基数以太网、LPO/NPO光互连、单层交换设计。与HPN相比，UPN512在GPU带宽、互连协议和互连规模上有显著差异，可与HPN组成高性能系统。

然后，详细说明UPN512系统设计及关键组件。系统架构方面，对比AI机架紧密耦合铜互连的优缺点，重点介绍UPN512单层光解耦系统，其采用全光互连突破距离限制，支持1K规模域，解耦设计降低复杂度、提升可靠性与灵活性。光互连方面，分析可插拔光模块、高密度带宽光互连方案，对比LPO与NPO的适用场景、成本及稳定性，指出二者为互补选择。通信语义上，UPN512基于ETH+协议定义三种低延迟通信语义，分别适用于不同数据传输需求。网络内计算方面，通过在网络设备内执行计算加速集体通信，优化对称与非对称集体通信流程，提升数据传输效率，降低计算资源消耗。

最后，白皮书为AI基础设施中xPU扩展系统的发展提供了清晰的技术架构方向与实践参考，对推动高性能网络技术在AI领域的应用具有重要意义。

免责声明：我们尊重知识产权、数据隐私，只做内容的收集、整理及分享，报告内容来源于网络,报告版权归原撰写发布机构所有，通过公开合法渠道获得，如涉及侵权，请及时联系我们删除，如对报告内容存疑，请与撰写、发布机构联系

上一篇：中国移动发布灵犀智能体全面赋能生态及系列计划

下一篇：重磅发布！

2025年UPN512技术架构白皮书V1.0（英文版）-阿里云

相关内容

热门资讯