1. e-works数字化企业网
  2. 新闻
  3. 记者观察

NVIDIA Spectrum-X:应对复杂巨型网络的“利器”

 
2024年10月26日 作者:e-works王聪  
关键字:NVIDIA  Spectrum-X  
无论是智能决策、预测性维护还是AI质检,企业都需要为大规模数据处理、生成式AI应用和模型构建进行性能优化,提供极致的网络性能、高规格的安全性和强大的功能,同时降低功耗和成本。
       在数字化浪潮下,AI与制造场景不断深度融合,网络技术作为支撑企业数字化进程的“底座”,重要性和使能性也日渐凸显。无论是智能决策、预测性维护还是AI质检,企业都需要为大规模数据处理、生成式AI应用和模型构建进行性能优化,提供极致的网络性能、高规格的安全性和强大的功能,同时降低功耗和成本。

       为了更好的保障计算和AI工作负载的网络性能,NVIDIA打造了专门面向AI场景的Spectrum-X以太网网络平台,可在提供高效、可扩展的带宽同时,实现低延迟和短尾延迟。Spectrum-X的功能包括基于NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,可以大幅度增强AI网络的可视性和性能隔离,成为多租户生成式AI云和大型企业应用复杂网络环境的“利器”。

为AI而生,激活面向未来的连接方式

       NVIDIA Spectrum-X网络平台起步于Spectrum-4,是全球首款专为AI网络打造的51Tb/s以太网交换机。在配套加速服务器节点中网络性能适配器的ConnectX-7智能网卡、可编程数据中心基础架构BlueField-3 DPU以及相关软件后,构成了Spectrum-X 网络的基础。

       在Spectrum-4交换机性能与创新方面,NVIDIA Spectrum-4 ASIC包含千亿个晶体管以及经过简化的收发器设计,具有领先的能效和总体拥有成本。凭借支持128个400GbE端口的51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RDMA(RoCE)网络架构,并显著提升了数据中心的应用速度。

       ConnectX-7智能网卡则具有四个方面的优势:加速软件定义的网络、提供从边缘到核心的安全性、存储性能上的提升,以及精准计时为数据中心应用程序和时间敏感型基础设施提供更精准的时间同步。

       NVIDIA BlueField-3 DPU和DOCA软件框架能够大幅加速大规模云原生应用。此外,BlueField-3 DPU还可以实现零信任安全,把应用程序域和基础设施域进行隔离,保障客户端的应用和基础设施端的数据安全。

       作为专为AI打造的以太网网络平台,Spectrum-X可将生成式AI网络性能较传统以太网网络平台提升1.6倍。通过先进的RoCE扩展功能可以跨交换机连接,并与BlueField-3 DPU和NVIDIA LinkX光纤相互协同,Spectrum-X打造了一个专为AI云优化的端到端400GbE网络。

       Spectrum-X采用完全标准的以太网,与现有以太网的堆栈实现互通。该平台通过动态路由技术和拥塞控制技术实现了带宽的最大化和噪声隔离,为AI业务提供了最强性能的AI以太网网络,在同时运行数千个不同规模的AI作业时,能确保每个业务达到预期的性能。

生态拓展,为用户带来全方位价值跃迁

       NVIDIA提供面向万亿参数级 AI 模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。其中 NVIDIA 集合通信库 (NCCL) 可将 GPU 的并行计算任务扩展到 Quantum-X800网络,利用其基于SHARPv4的强大网络计算能力和对FP8的支持,为大模型训练和生成式 AI 提供超强的性能。NVIDIA的全栈软件方案带来了先进的可编程性,使数据中心网络变得更加灵活、可靠和灵敏,既提高了整体运营效率,又满足了现代应用和服务的需求。

       站在合作伙伴的角度,率先采用NVIDIA Spectrum-X的AI云服务提供商有CoreWeave、GMO Internet Group、Lambda、Scaleway、STPX Global和Yotta等,他们的AI基础设施因此而获得了强大的网络性能。另外,继戴尔科技、慧与、联想和超微等将Spectrum-X平台整合到他们的产品中后,又有多家NVIDIA合作伙伴发布了基于Spectrum的产品。

       Colossus作为Spectrum-X网络应用的典型客户,是全球闻名的AI超级计算机,目前正被用于训练xAI的Grok系列大语言模型,以及作为X Premium用户功能之一的聊天机器人(Chatbot),其GPU架构规模进一步扩大至20万颗NVIDIA Hopper GPU。

       在训练Grok这种超大型模型时,Colossus实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X先进的拥塞控制功能,系统数据吞吐量一直保持在95%。

       值得一提的是,xAI和NVIDIA仅用了122天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了19天,传统方式下建造这种规模的系统通常需要数月乃至数年的时间。
 
责任编辑:王聪
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看