AI大模型浪潮下的GPU互连革命：UALink与ALS引领技术新纪元-休戚相关网

当前位置：首页 > 知识 > AI大模型浪潮下的GPU互连革命：UALink与ALS引领技术新纪元正文

AI大模型浪潮下的GPU互连革命：UALink与ALS引领技术新纪元

时间：2024-12-29 21:38:46 来源：休戚相关网作者：焦点阅读：676次

在LLM热潮中，大模的我们不仅要关注GPU本身，型浪还要关注互连技术。潮下随着AI参数量成倍地增加，互连甚至“上不封顶”地扩展，革命如果想要服务器扛住这样的领技“巨浪”，就要编织更多的术新网，形成非常强大的纪元算力网络；如果想要释放GPU集群的全部潜力，每个节点间的大模的通信都要顺畅无阻，犹如铺设一条条“高速公路”。型浪

从UEC到UALink，潮下取代现有技术

AI大模型浪潮下的GPU互连革命：UALink与ALS引领技术新纪元

GPU领域，互连比较典型的革命两个互连技术是InfiniBand和NVLink/NLSwitch技术，前者用于服务器间连接，领技可以形成大型AI算力网络，术新后者可以将GPU和GPU互连，至多让576个GPU实现每秒1.8TB的通信。

毋庸置疑，两种私有协议的性能都很强劲，但它们都非常封闭，在一定程度上制约了技术的持续演进与效能优化潜力。目前，行业更为通用的做法是通过成立联盟，制定公开的协议标准。众人拾柴火焰高，参与的玩家越多，互连技术进化得就越快，协议标准也就越趋于统一。

去年7月，AMD、Arista、博通、思科、EVIDEN等公司联合成立超以太网联盟（Ultra Ethernet Consortium，简称UEC），随后增强型以太网开始取代InfiniBand技术，迅速成为GPU新的加速节点。一些公司也因此获得了丰厚的利润，例如Arista公司的AI集群互连销售额显著增长。

就在10月28日，AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟（Ultra Accelerator Link Consortium，简称UALink联盟），主推AI服务器Scale UP互连协议——UALink。这一协议一经推出便广受关注。UALink是新一代AI/ML集群性能的高速加速器互连技术，拥有低延迟和高带宽的特点，具备高性能内存语义访问的原生支持，可以完美适配GPU等AI加速器的编程模型，在一个超节点内实现一点规模的AI计算节点互连。除此之外，UALink的优势还包括显存共享，支持Switch组网模式，以及超高带宽和超低时延能力等。

区别于专注在Scale Out（横向/水平扩展）的UEC，UALink协议已经成为最具潜力的AI服务器Scale UP（纵向/垂直扩展）互连开放标准，正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。

10月28日官网公布的UALink联盟9家创始成员单位

UALink如何在中国市场落地

作为一个互连系统开发标准，UALink在落地过程中需要覆盖多个产业环节，因此成员涵盖了芯片制造商、交换机提供商、服务器提供商等整个产业链的关键角色。然而，由于AI大模型产业在国内具备本土特色，因此UALink如何在中国市顺利场落地，面临着巨大的挑战。

为了打造一个原生支持AI场景的Scale UP开放生态系统，阿里云在今年9月倡议并牵头成立了ALS（ALink System，加速器互连系统）开放生态系统，依托于ODCC（开放数据中心委员会），解决Scale UP互连系统的行业发展规范问题。目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入，成员单位已就相关协议标准制定和实行路径选择展开交流。

目前，ALS已形成从协议到芯片、从硬件设备到软件平台的系统体系，主要包括ALS-D数据面和ALS-M管控面两个组成部分：ALS-D数据面互连采用UALink协议，具备UALink的一切优势，还增加定义了在网计算等特性；ALS-M可为不同芯片方案提供标准化接入方案，同时为云计算等集群管理场景，提供单租、多租等灵活和弹性的配置能力。

ALink System架构示意图

正因为全面兼容国际标准UALink生态，ALS可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力，一级互连64～80个节点，二级互连可达千级节点，提供PB级共享显存和TB级互连带宽。

在今年9月底的云栖大会上，阿里云展示了其面向下一代超大规模AI集群的磐久AI Infra 2.0服务器，开放性地定义了AI计算节点和Scale UP/Scale Out互连系统，可以在统一硬件架构下支持业界主流AI方案，引领AI领域的“一云多芯”。

2024云栖大会阿里云磐久AI Infra 2.0服务器展示区

磐久AI Infra 2.0服务器的有六大亮点：一是计算节点业界密度最高，单机柜支持最大80个AI计算节点；二是计算节点集成阿里自研CIPU 3.0芯片，既能帮助实现Scale Out网络扩展，又能兼顾云网络弹性、安全的要求；三是供电效率高，在业界率先采用400V PSU，单体供电效率可达98%，整体供电效率提高2%；四是节能，机柜级液冷方案可根据实际负载动态调整CDU冷却能力来降低能耗，单柜冷却系统节能30%；五是方便运维，全新的CableCartridge后维护设计，支持全盲插，零理线易运维、零误操作，维护效率提升50%；六是可靠性高，支持弹性节点、智能路由、高可靠供电、分布式CDU等技术，可实时监控、探测各种硬件故障并自愈，硬件故障域也缩减到节点级。

除了积极拥抱UALink和牵头成立ALink System产业生态，阿里云也在积极推动UALink技术生态影响力的建设，在刚刚过去的2024开放计算全球峰会人工智能特别关注议程（Special Focus Tracks）上，阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为'UALink: Pioneering the AI Accelerator Revolution'的演讲，重点阐述了AI服务器Scale UP互连技术领域的发展趋势，UALink标准的路线图，UALink联盟和ALink System产业生态未来的合作潜力，以及阿里云磐久AI Infra 2.0服务器的落地实践思路。

阿里云服务器研发资深总监文芳志和UALink联盟主席Kurtis Bowman联合演讲

对AI来说，Scale UP非常重要

都是增强现有系统能力，处理更大规模能力，为什么要分成Scale-up（向上/垂直扩展）和Scale-out（横向/水平扩展）两张网？

两张网络的目标不同，Scale Out是在计算集群内部，利用外置网卡技术，通过横向扩展机柜的数目，实现到数万甚至数十万张卡的互连；Scale UP是超节点内部，采用GPU直出技术，通过十倍于Scale Out的吞吐能力，达成数十、数百的GPU高效协同。

这两张网，将业务逻辑紧密耦合在一起。可以说，两张网对于AI，尤其是AIGC或LLM都相当重要。AI基础设施的计算效能要求很高，为了最大化达成端到端MFU，需要Scale UP和Scale Out都进行最大程度的优化。由于需要解决的互连问题各不相同，尤其是10倍左右的流程差异，Scale UP需要采用不同于Scale Out的协议设计来将性能发挥到极致。

在这种极致协议的实现落地过程中，需要众多厂商和生态共同参与，一个开放的生态能够最大程度地复用已有技术和解决方案，将整个系统的性能、成本、稳定性做到最佳。但不难预见，无论是UALink，还是ALS，将发挥出协同开放的优势。

值得关注的是，UALink的重要技术基底是Infinity Fabric 协议，Infinity Fabric是一种成熟的高速互连技术，它由AMD开发，在自家的CPU、GPU产品中都有所使用，目前已经迭代到第四代，从最初的CPU间互连已经可以实现GPU间互连。在Infinity Fabric技术的加持下，UALink推进的速度也会很快。

(责任编辑：百科)

[1]

[2]

[3]

上一篇：阿尔特塔：希望热苏斯延续这样的状态，球队的表现非常出色
下一篇：pel今晚颁了这么多奖（）还是不满意还带节奏看来心里觉得奖项还是分的少没有分到心坎上还要到hp再来求颁上一奖这么有事业心的粉丝不多了