Microsoft的下一代AI加速器为Azure提供了更快、更具成本效益地运行AI模型的优势。
今天,我们自豪地介绍Maia 200,这是一款革命性的推理加速器,旨在显著提升AI代币生成的经济性。Maia 200 是 AI 推理领域的强力机器:基于台积电 3nm 工艺的加速器,原生 FP8/FP4 张量核心,重新设计的内存系统,配备 216GB HBM3e,速度为 7TB/s,集成 272MB SRAM,以及数据流动引擎,确保大型模型供电、快速且高利用率。这使得Maia 200成为任何超大规模开发商中最高效的第一方硅片,FP4性能是第三代亚马逊Train的三倍,FP8性能则优于谷歌第七代TPU。Maia 200 也是 Microsoft 迄今部署过的最高效推理系统,每美元性能比我们现有设备中最新一代的硬件高出 30%。
Maia 200 是我们异构 AI 基础设施的一部分,将服务于多个模型,包括 OpenAI 最新的 GPT-5.2 模型,为 Microsoft Foundry 和 Microsoft 365 Copilot 带来按美元性能的优势。Microsoft Superintelligence团队将利用Maia 200进行合成数据生成和强化学习,以增强下一代内部模型。对于合成数据管道的应用场景,Maia 200独特的设计有助于加快高质量、领域特定数据的生成和过滤速度,从而为下游训练提供更新鲜、更有针对性的信号。
Maia 200 已部署在爱荷华州得梅因附近的美国中部数据中心区域,亚利桑那州菲尼克斯附近的美国西部三区数据中心区域也将部署,未来将扩展到多个地区。Maia 200 与 Azure 无缝集成,我们推出了 Maia SDK 及完整的工具,用于构建和优化 Maia 200 模型。它包含了完整的功能,包括与 PyTorch、Triton 编译器、优化内核库的集成,以及对 Maia 底层编程语言的访问。这为开发者提供了细粒度的控制,同时便于跨异构硬件加速器移植模型。
专为人工智能推理设计
基于台积电先进的3纳米工艺,每颗Maia 200芯片包含超过1400亿个晶体管,专为大规模AI工作负载量身定制,同时实现了高成本的高效性能。无论从哪个方面,《Maia 200》都旨在脱颖而出。它专为使用低精度计算的最新型号设计,每颗 Maia 200 芯片在 4 位精度(FP4)下可实现超过 10 petaFLOPS,8 位性能(FP8)则可实现超过 5 petaFLOPS,全部在 750W SoC TDP 范围内。实际上,Maia 200可以轻松运行当今的大型车型,未来还能有充足的空间支持更大型号。
关键是,FLOPS并不是加速AI的唯一因素。数据流同样重要。Maia 200 通过重新设计的内存子系统解决了这一瓶颈。Maia 200内存子系统专注于窄精度数据类型、专用的DMA引擎、片上SRAM以及用于高带宽数据传输的专用NoC结构,从而提升令牌吞吐量。
优化的人工智能系统
在系统层面,Maia 200引入了基于标准以太网构建的新型两层网络设计。定制传输层和紧密集成的网卡实现了性能解锁、高可靠性和显著的成本优势,无需依赖专有结构。
每个加速器都展示了:
● 2.8 TB/s 的双向带宽专用于扩展
● 可预测且高性能的集体作,跨越最多6,144个加速器的集群
该架构为密集推理集群提供可扩展性能,同时降低全球Azure车队的功耗和总维护成本。
每个托盘内,四个Maia加速器通过直接和非交换链路完全连接,以保持本地高带宽通信,实现最佳推理效率。相同的通信协议也用于机架内和机架间网络,采用 AI-AI 传输协议,实现节点、机架和加速器集群之间的无缝扩展,且网络跳数极小。这种统一的织体简化了调度,提高了工作负载灵活性,减少了锁定容量,同时在云规模下保持了稳定的性能和成本效益。
云原生开发方法
Microsoft硅芯片开发项目的一个基本原则是在硅片最终可用之前,尽可能多地进行系统的端到端验证。
一个复杂的硅前环境从早期阶段引导 Maia 200 架构,能够高保真地模拟大型语言模型的计算和通信模式。这种早期的共同开发环境使我们能够在第一块硅片出现之前,将硅、网络和系统软件作为统一整体进行优化。
我们还设计了Maia 200,从一开始就实现数据中心的快速无缝可用性,实现了系统中最复杂部分的早期验证,包括后端网络和我们的第二代闭环液冷热交换器单元。与Azure控制平面的原生集成,在芯片和机架层面提供安全、遥测、诊断和管理能力,最大化AI生产关键工作负载的可靠性和正常运行时间。
由于这些投资,AI模型在首个成品产品到货后数日内即可在Maia 200芯片上运行。从第一块硅片到首次部署在数据中心机架的时间缩短到了同类AI基础设施项目的一半以下。这种从芯片到软件再到数据中心的端到端方法,直接转化为更高的利用率、更快的生产时间,以及云规模下每美元和每瓦性能的持续提升。
注册 Maia SDK 预览版
大规模人工智能时代才刚刚开始,基础设施将决定可能性。我们的 Maia AI 加速器项目设计为多代人。随着我们在全球基础设施中推广 Maia 200,我们已经开始为未来世代设计,并期望每一代人都能持续为可能的目标树立新标准,并为关键任务的 AI 工作负载提供越来越高的性能和效率。
今天,我们邀请开发者、人工智能初创企业和学者开始探索早期模型和工作负载优化,使用全新的 Maia 200 软件开发套件(SDK)。SDK包含Triton编译器、PyTorch支持、NPL低阶编程,以及Maia模拟器和成本计算器,用于在代码生命周期早期优化效率。点击这里订阅预览。
Scott Guthrie 负责大规模云计算解决方案和服务,包括 Azure、Microsoft 的云计算平台、生成式人工智能解决方案、数据平台以及信息安全和网络安全。这些平台和服务帮助全球组织解决紧迫挑战,推动长期转型。