GB300 NVL72首次部署
本帖最后由 PolyMorph 于 2025-7-4 10:40 编辑戴尔宣布出货业界首个基于Nvidia GB300 NVL72的系统专为大型语言模型的训练和推理而设计。收到72 Blackwell视频卡每个机柜36个Grace Arm处理器和36个BlueField DPU。该解决方案与AI云提供商CoreWeave合作开发,并部署在交换机数据中心。
Dell nvidia servershttps://pbs.twimg.com/media/Gu813iEX0AAMtBE?format=jpg&name=large
据公司称,一个GB300 NVL72在FP4模式下提供1.1 ExaFLOPS,在FP8模式下提供0.36 ExaFLOPS大约比GB200高50%每个橱柜还配有20TB HBM3E和40TB RAM节点之间的连接Quantum-X800 InfiniBand和SuperNIC ConnectX-8交换机支持最高14.4 GB/s-比以前快2倍所有部件都由液体冷却,如一个GPU功率达到1400 W.
在 CoreWeave,我们不遵循传统的 AI 基础架构构建路线图。我们致力于开创 AI 基础架构,同时追求更快、更智能的工程设计。作为首家提供 NVIDIA HGX H100 系统、NVIDIA H200 和 NVIDIA GB200 NVL72 访问的 AI 云提供商,我们在此基础上继续加快 AI 创新步伐,率先在业界推出 NVIDIA 最新的尖端平台 NVIDIA GB300 NVL72,该平台集成于戴尔的集成机架式系统。
为人工智能推理和代理性能设定新标准
NVIDIA GB300 NVL72 代表了 AI 推理工作负载性能的显著飞跃,与上一代 NVIDIA Hopper 架构相比,用户响应速度提升高达 10 倍,每瓦吞吐量提升 5 倍。这意味着推理模型的推理输出将大幅提升 50 倍,助您开发和部署更大、更复杂的 AI 模型,其速度将比以往呈指数级增长。凭借 1.5 倍更密集的 FP4 性能和 2 倍更快的 NVIDIA Quantum-X800 InfiniBand 速度,GB300 NVL72 实现了前所未有的推理速度,这将定义下一代 AI 应用。
Moonvalley 联合创始人兼首席执行官 Naeem Talukdar 表示:“Moonvalley 正在构建生成式电影制作的未来,为创作者提供工具,让他们的想象力变成现实。GB300 在 CoreWeave 上的应用令人兴奋不已。这个平台以及 CoreWeave 通过其 AI 云平台快速将其推向市场的能力,是推动 AI 驱动的电影制作成为我们行业现实的重要推动力。”
CoreWeave 借助其专用云平台,助力客户充分发挥 GB300 NVL72 的潜力,加速 AI 开发。CoreWeave 专为满足前沿规模 AI 的需求而打造,助力团队以极致性能、可靠性和弹性训练、优化和部署数万亿参数模型。
我们超越硬件层面,确保 CoreWeave AI 云中的每个组件,从 Kubernetes 服务 (CKS) 和 Slurm on Kubernetes 产品 (SUNK),到我们深度可观察性和定制设计的机架生命周期控制器 (RLCC),都经过优化,以最大程度地提升 GB300 NVL72 的性能。现在,我们全新的 Cabinet Wrangler 和 Cabinet Details 仪表板可提供更深入的可视性,从而提供机架规模的洞察。此外,硬件级数据和集群健康事件现在可直接通过 Weights & Biases 模型进行流式传输,使 AI 研究人员能够立即将基础设施问题与其训练运行关联起来,快速解决中断问题,并继续突破 AI 的极限。
CoreWeave 独特的基础架构方法已被证明能够显著提升硬件性能。今年早些时候,CoreWeave在 CoreWeave 云上 发布了多项基于 NVIDIA GB200 NVL72 实例的突破性 性能基准测试。正是由于对 AI 工作负载的高度关注,我们基于 GB200 的实例的单 GPU 推理性能比基于 H100 的实例提高了2.86 倍。通过将 GB300 NVL72 集成到我们的云产品组合中,并凭借我们一流的基础架构和工程专业知识,我们能够提供无与伦比的平台体验,并针对最苛刻的 AI 和 HPC 应用进行精细调整。
NVIDIA GB300 NVL72 内部一探
CoreWeave GB300 NVL72 是一款机架级解决方案,采用液冷平台,旨在满足最具挑战性的 AI 推理需求。它将 72 个 NVIDIA Blackwell Ultra GPU、36 个基于 Arm 的 NVIDIA Grace CPU 和 18 个 NVIDIA BlueField-3 DPU 整合到一个强大的平台中,并由 NVIDIA 的一系列行业领先创新技术提供支持:
NVIDIA Blackwell Ultra GPU:与 Blackwell GPU 相比,这些 GPU 的 AI 计算 FLOPS 增加了 1.5 倍。
扩展的 HBM3e 内存:GB300 NVL72 每机架配备高达 21TB 的高带宽 GPU 内存,与 GB200 NVL72 相比,GPU 内存增加了 1.5 倍,并允许更大的批量大小和更大的模型,这对于最大限度地提高 AI 推理的吞吐量至关重要。
第五代NVIDIA NVLink:最新版本的 NVLink 提供了惊人的 130TB/s 聚合带宽,确保系统中每个 GPU 之间实现无缝、高速通信,以实现峰值性能的 AI 模型。
下一代 InfiniBand 网络:该平台配备NVIDIA Quantum-X800 InfiniBand交换机和NVIDIA ConnectX-8 SuperNIC,为每个 GPU 提供高达 800 Gb/s 的专用网络连接。这确保了一流的远程直接内存访问 (RDMA),从而在大规模 AI 工作负载下实现最高效率。
安全的多租户云网络:在 NVIDIA BlueField-3 上运行的NVIDIA DOCA软件框架通过提供高达 200Gb/s 的线速租户网络和高性能 GPU 数据访问来加速 AI 工作负载。
该系统旨在处理测试时扩展推理的海量计算需求,这是部署最先进 AI 模型的关键组件。对于我们的客户而言,这意味着 AI 推理工作负载性能的显著提升。
戴尔发布的GB300 NVL72作为一个完全集成和测试机架准备用于工业。CoreWeave计划将该系统用于加速LLM学习和生成人工智能任务随着时间的推移,由于这些机架的可伸缩性,增加生产能力。GB200 NVL72发布7个月后,新平台出现这对布莱克威尔原版的寿命提出了质疑CSP公司对Blackwell Ultra的高需求. 这翻译还不如不翻 zhgbbs 发表于 2025-7-4 11:51
这翻译还不如不翻
如-翻[偷笑] 48v dc外置电源方案,可以增加1u 服务器的 io面板空间
页:
[1]