NVIDIA 超大规模副总裁 Ian Buck 表示: “Oracle 与 NVIDIA 将 OCI 分布式云与我们的全栈 AI 基础设施整合,为 AI 提供大规模计算能力。借助 NVIDIA 全栈 AI 基础设施,OCI Zettascale10 提供推进前沿 AI 研究所需的计算架构,帮助各类组织从实验阶段迈向工业化 AI。”
Oracle Acceleron RoCE 网络在 OCI Zettascale10 上为 AI 提供扩展性、可靠性和高效性
Oracle Acceleron RoCE 网络架构是客户在云端构建、训练和推理 AI 工作负载的重要创新,同时能够充分发挥 OCI Zettascale10 的性能与能力。该架构利用现代 GPU 网卡(NIC)内置的交换能力,使网卡可同时连接到多个交换机,每个交换机位于独立隔离的网络平面上。这种方法通过在某一平面出现问题时将流量切换到其他平面,大幅提升了网络的整体扩展性和可靠性,避免了昂贵的停滞和重启。Oracle Acceleron RoCE 网络的关键特性,有助于客户应对重要 AI 工作负载,包括:
● 广泛、浅层且高弹性的网络结构:通过将 GPU NIC 用作微型交换机并连接到多个物理与逻辑隔离的平面,帮助客户以更低总成本更快部署更大规模的 AI 集群。这一设计提升了扩展性,同时减少网络层级、成本和功耗。
● 更高可靠性:通过消除跨平面的数据共享,帮助客户维持 AI 作业的稳定性。当某个平面不稳定或拥塞时,流量会自动切换,确保训练作业持续运行,避免昂贵的检查点重启。
● 性能一致性:相比传统的三层设计,减少一个网络层级,为客户提供更统一的 GPU-GPU 延迟,提高大规模 AI 训练和推理的可预测性。
● 高能效光学方案:支持 Linear Pluggable Optics (LPO) 和 Linear Receiver Optics (LRO),在不牺牲 400G/800G 吞吐的情况下降低网络和冷却成本,让客户可将更多电力用于计算。