(观察者网 讯)5月14日消息,阿里云AI高(gao)性能网络架构(gou)HPN7.0成果(guo)论文被SIGCOMM2024收录,成为SIGCOMM历史上首篇关于AI智算集群网络架构(gou)的论文。
SIGCOMM是全球最权威的计(ji)算机通信网络顶会,此前谷歌Jupiter网络入选SIGCOMM后发展成为经典架构(gou),有专家(jia)指出,阿里云HPN7.0有望成为下一代AI高(gao)性能网络架构(gou)的新范式(shi)。据悉,今年阿里云共有6篇论文被SIGCOMM收录。
大(da)模型对(dui)AI基础设施提出了更高(gao)要求(qiu),阿里云新一代HPN7.0架构(gou),为AI时代超大(da)规模、超高(gao)稳定性的网络需求(qiu)而研(yan)发。HPN7.0创新性地设计(ji)了“双上联+多轨+双平面”的网络架构(gou),并自研(yan)Solar-RDMA和ACCL通信库(ku),可实现网络的高(gao)性能和高(gao)稳定互联。
HPN7.0架构(gou):为AI设计(ji)的高(gao)性能网络集群
从2023年9月开始,HPN7.0在阿里云展开大(da)规模部(bu)署,大(da)模型训练性能较上一代架构(gou)在典型场景下提升14.9%,且大(da)幅(fu)提高(gao)了智算网络整体稳定性。前不久阿里云发布通义千问2.5版本大(da)模型,中文性能全面赶超GPT-4Turbo,就是基于HPN7.0高(gao)性能网络集群训练而成。
阿里云基础设施网络负责人蔡德忠(zhong)介绍称:“阿里云从2017年开始探索端(duan)网融合的可预期网络,HPN7.0更进一步,把端(duan)网融合的体系结构(gou)从网络协议栈拓展到网络架构(gou)和通信库(ku),实现了面向(xiang)AI智算时代的全新网络集群架构(gou)创新。”
据悉,始于1977年的SIGCOMM是计(ji)算机网络领域最顶级的国(guo)际学术(shu)会议,每年录取率(lu)在10%~20%之间,入选成果(guo)极有可能成为主流技术(shu)范式(shi)标准(zhun)。此前,谷歌传统数(shu)据中心网络Jupiter论文SIGCOMM收录,成为经典架构(gou);此次阿里云HPN7.0架构(gou)斩获SIGCOMM首篇AI高(gao)性能网络论文,则是中国(guo)公司首次为全球AI网络基础设施的设计(ji)及实践提供了全新高(gao)性能标准(zhun)。
阿里云在高(gao)性能网络领域已深耕多年,提出了端(duan)网融合的可预期网络技术(shu)体系,并在业界率(lu)先完成RDMA低延时网络、智算集群网络架构(gou)HPN7.0等先进技术(shu)的大(da)规模实践。阿里巴巴还曾获评AMiner全球十大(da)网络研(yan)究机构(gou),是榜单(dan)中唯一的中国(guo)科技企业。