无论是智能决策、预测性维护还是AI质检,企业都需要为大规模数据处理、生成式AI应用和模型构建进行性能优化,提供极致的网络性能、高规格的安全性和强大的功能,同时降低功耗和成本。
在数字化浪潮下,AI与制造场景不断深度融合,网络技术作为支撑企业数字化进程的“底座”,重要性和使能性也日渐凸显。无论是智能决策、预测性维护还是AI质检,企业都需要为大规模数据处理、生成式AI应用和模型构建进行性能优化,提供极致的网络性能、高规格的安全性和强大的功能,同时降低功耗和成本。
为了更好的保障计算和AI工作负载的网络性能,NVIDIA打造了专门面向AI场景的Spectrum-X以太网网络平台,可在提供高效、可扩展的带宽同时,实现低延迟和短尾延迟。Spectrum-X的功能包括基于NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,可以大幅度增强AI网络的可视性和性能隔离,成为多租户生成式AI云和大型企业应用复杂网络环境的“利器”。
为AI而生,激活面向未来的连接方式
NVIDIA Spectrum-X网络平台起步于Spectrum-4,是全球首款专为AI网络打造的51Tb/s以太网交换机。在配套加速服务器节点中网络性能适配器的ConnectX-7智能网卡、可编程数据中心基础架构BlueField-3 DPU以及相关软件后,构成了Spectrum-X 网络的基础。
在Spectrum-4交换机性能与创新方面,NVIDIA Spectrum-4 ASIC包含千亿个晶体管以及经过简化的收发器设计,具有领先的能效和总体拥有成本。凭借支持128个400GbE端口的51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RDMA(RoCE)网络架构,并显著提升了数据中心的应用速度。
ConnectX-7智能网卡则具有四个方面的优势:加速软件定义的网络、提供从边缘到核心的安全性、存储性能上的提升,以及精准计时为数据中心应用程序和时间敏感型基础设施提供更精准的时间同步。
NVIDIA BlueField-3 DPU和DOCA软件框架能够大幅加速大规模云原生应用。此外,BlueField-3 DPU还可以实现零信任安全,把应用程序域和基础设施域进行隔离,保障客户端的应用和基础设施端的数据安全。
作为专为AI打造的以太网网络平台,Spectrum-X可将生成式AI网络性能较传统以太网网络平台提升1.6倍。通过先进的RoCE扩展功能可以跨交换机连接,并与BlueField-3 DPU和NVIDIA LinkX光纤相互协同,Spectrum-X打造了一个专为AI云优化的端到端400GbE网络。
Spectrum-X采用完全标准的以太网,与现有以太网的堆栈实现互通。该平台通过动态路由技术和拥塞控制技术实现了带宽的最大化和噪声隔离,为AI业务提供了最强性能的AI以太网网络,在同时运行数千个不同规模的AI作业时,能确保每个业务达到预期的性能。
生态拓展,为用户带来全方位价值跃迁
NVIDIA提供面向万亿参数级 AI 模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。其中 NVIDIA 集合通信库 (NCCL) 可将 GPU 的并行计算任务扩展到 Quantum-X800网络,利用其基于SHARPv4的强大网络计算能力和对FP8的支持,为大模型训练和生成式 AI 提供超强的性能。NVIDIA的全栈软件方案带来了先进的可编程性,使数据中心网络变得更加灵活、可靠和灵敏,既提高了整体运营效率,又满足了现代应用和服务的需求。
站在合作伙伴的角度,率先采用NVIDIA Spectrum-X的AI云服务提供商有CoreWeave、GMO Internet Group、Lambda、Scaleway、STPX Global和Yotta等,他们的AI基础设施因此而获得了强大的网络性能。另外,继戴尔科技、慧与、联想和超微等将Spectrum-X平台整合到他们的产品中后,又有多家NVIDIA合作伙伴发布了基于Spectrum的产品。
Colossus作为Spectrum-X网络应用的典型客户,是全球闻名的AI超级计算机,目前正被用于训练xAI的Grok系列大语言模型,以及作为X Premium用户功能之一的聊天机器人(Chatbot),其GPU架构规模进一步扩大至20万颗NVIDIA Hopper GPU。
在训练Grok这种超大型模型时,Colossus实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X先进的拥塞控制功能,系统数据吞吐量一直保持在95%。
值得一提的是,xAI和NVIDIA仅用了122天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了19天,传统方式下建造这种规模的系统通常需要数月乃至数年的时间。