找回密码
 加入我们
搜索
      
查看: 572|回复: 2

[显卡] GB300 NVL72首次部署

[复制链接]
发表于 2025-7-4 10:22 | 显示全部楼层 |阅读模式
本帖最后由 PolyMorph 于 2025-7-4 10:40 编辑

戴尔宣布出货业界首个基于Nvidia GB300 NVL72的系统专为大型语言模型的训练和推理而设计。收到72 Blackwell视频卡每个机柜36个Grace Arm处理器和36个BlueField DPU。该解决方案与AI云提供商CoreWeave合作开发,并部署在交换机数据中心。

Dell nvidia servers

据公司称,一个GB300 NVL72在FP4模式下提供1.1 ExaFLOPS,在FP8模式下提供0.36 ExaFLOPS大约比GB200高50%每个橱柜还配有20TB HBM3E和40TB RAM节点之间的连接Quantum-X800 InfiniBand和SuperNIC ConnectX-8交换机支持最高14.4 GB/s-比以前快2倍所有部件都由液体冷却,如一个GPU功率达到1400 W.

在 CoreWeave,我们不遵循传统的 AI 基础架构构建路线图。我们致力于开创 AI 基础架构,同时追求更快、更智能的工程设计。作为首家提供 NVIDIA HGX H100 系统、NVIDIA H200 和 NVIDIA GB200 NVL72 访问的 AI 云提供商,我们在此基础上继续加快 AI 创新步伐,率先在业界推出 NVIDIA 最新的尖端平台 NVIDIA GB300 NVL72,该平台集成于戴尔的集成机架式系统。

为人工智能推理和代理性能设定新标准
NVIDIA GB300 NVL72 代表了 AI 推理工作负载性能的显著飞跃,与上一代 NVIDIA Hopper 架构相比,用户响应速度提升高达 10 倍,每瓦吞吐量提升 5 倍。这意味着推理模型的推理输出将大幅提升 50 倍,助您开发和部署更大、更复杂的 AI 模型,其速度将比以往呈指数级增长。凭借 1.5 倍更密集的 FP4 性能和 2 倍更快的 NVIDIA Quantum-X800 InfiniBand 速度,GB300 NVL72 实现了前所未有的推理速度,这将定义下一代 AI 应用。

Moonvalley 联合创始人兼首席执行官 Naeem Talukdar 表示:“Moonvalley 正在构建生成式电影制作的未来,为创作者提供工具,让他们的想象力变成现实。GB300 在 CoreWeave 上的应用令人兴奋不已。这个平台以及 CoreWeave 通过其 AI 云平台快速将其推向市场的能力,是推动 AI 驱动的电影制作成为我们行业现实的重要推动力。”

CoreWeave 借助其专用云平台,助力客户充分发挥 GB300 NVL72 的潜力,加速 AI 开发。CoreWeave 专为满足前沿规模 AI 的需求而打造,助力团队以极致性能、可靠性和弹性训练、优化和部署数万亿参数模型。

我们超越硬件层面,确保 CoreWeave AI 云中的每个组件,从 Kubernetes 服务 (CKS) 和 Slurm on Kubernetes 产品 (SUNK),到我们深度可观察性和定制设计的机架生命周期控制器 (RLCC),都经过优化,以最大程度地提升 GB300 NVL72 的性能。现在,我们全新的 Cabinet Wrangler 和 Cabinet Details 仪表板可提供更深入的可视性,从而提供机架规模的洞察。此外,硬件级数据和集群健康事件现在可直接通过 Weights & Biases 模型进行流式传输,使 AI 研究人员能够立即将基础设施问题与其训练运行关联起来,快速解决中断问题,并继续突破 AI 的极限。

CoreWeave 独特的基础架构方法已被证明能够显著提升硬件性能。今年早些时候,CoreWeave在 CoreWeave 云上 发布了多项基于 NVIDIA GB200 NVL72 实例的突破性 性能基准测试。正是由于对 AI 工作负载的高度关注,我们基于 GB200 的实例的单 GPU 推理性能比基于 H100 的实例提高了2.86 倍。通过将 GB300 NVL72 集成到我们的云产品组合中,并凭借我们一流的基础架构和工程专业知识,我们能够提供无与伦比的平台体验,并针对最苛刻的 AI 和 HPC 应用进行精细调整。

NVIDIA GB300 NVL72 内部一探
CoreWeave GB300 NVL72 是一款机架级解决方案,采用液冷平台,旨在满足最具挑战性的 AI 推理需求。它将 72 个 NVIDIA Blackwell Ultra GPU、36 个基于 Arm 的 NVIDIA Grace CPU 和 18 个 NVIDIA BlueField-3 DPU 整合到一个强大的平台中,并由 NVIDIA 的一系列行业领先创新技术提供支持:

NVIDIA Blackwell Ultra GPU:与 Blackwell GPU 相比,这些 GPU 的 AI 计算 FLOPS 增加了 1.5 倍。
扩展的 HBM3e 内存:GB300 NVL72 每机架配备高达 21TB 的高带宽 GPU 内存,与 GB200 NVL72 相比,GPU 内存增加了 1.5 倍,并允许更大的批量大小和更大的模型,这对于最大限度地提高 AI 推理的吞吐量至关重要。

第五代NVIDIA NVLink:最新版本的 NVLink 提供了惊人的 130TB/s 聚合带宽,确保系统中每个 GPU 之间实现无缝、高速通信,以实现峰值性能的 AI 模型。
下一代 InfiniBand 网络:该平台配备NVIDIA Quantum-X800 InfiniBand交换机和NVIDIA ConnectX-8 SuperNIC,为每个 GPU 提供高达 800 Gb/s 的专用网络连接。这确保了一流的远程直接内存访问 (RDMA),从而在大规模 AI 工作负载下实现最高效率。

安全的多租户云网络:  在 NVIDIA BlueField-3 上运行的NVIDIA DOCA软件框架通过提供高达 200Gb/s 的线速租户网络和高性能 GPU 数据访问来加速 AI 工作负载。
该系统旨在处理测试时扩展推理的海量计算需求,这是部署最先进 AI 模型的关键组件。对于我们的客户而言,这意味着 AI 推理工作负载性能的显著提升。


戴尔发布的GB300 NVL72作为一个完全集成和测试机架准备用于工业。CoreWeave计划将该系统用于加速LLM学习和生成人工智能任务随着时间的推移,由于这些机架的可伸缩性,增加生产能力。GB200 NVL72发布7个月后,新平台出现这对布莱克威尔原版的寿命提出了质疑CSP公司对Blackwell Ultra的高需求.
发表于 2025-7-4 11:51 | 显示全部楼层
这翻译还不如不翻
发表于 2025-7-4 11:52 | 显示全部楼层
zhgbbs 发表于 2025-7-4 11:51
这翻译还不如不翻

如-翻
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-7-5 17:11 , Processed in 0.008985 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表