GB300 NVL72首次部署

PolyMorph · 发表于 2025-7-4 10:22

本帖最后由 PolyMorph 于 2025-7-4 10:40 编辑

戴尔宣布出货业界首个基于Nvidia GB300 NVL72的系统专为大型语言模型的训练和推理而设计。收到72 Blackwell视频卡每个机柜36个Grace Arm处理器和36个BlueField DPU。该解决方案与AI云提供商CoreWeave合作开发，并部署在交换机数据中心。

Dell nvidia servers

据公司称，一个GB300 NVL72在FP4模式下提供1.1 ExaFLOPS，在FP8模式下提供0.36 ExaFLOPS大约比GB200高50％每个橱柜还配有20TB HBM3E和40TB RAM节点之间的连接Quantum-X800 InfiniBand和SuperNIC ConnectX-8交换机支持最高14.4 GB/s-比以前快2倍所有部件都由液体冷却，如一个GPU功率达到1400 W.

在 CoreWeave，我们不遵循传统的 AI 基础架构构建路线图。我们致力于开创 AI 基础架构，同时追求更快、更智能的工程设计。作为首家提供 NVIDIA HGX H100 系统、NVIDIA H200 和 NVIDIA GB200 NVL72 访问的 AI 云提供商，我们在此基础上继续加快 AI 创新步伐，率先在业界推出 NVIDIA 最新的尖端平台 NVIDIA GB300 NVL72，该平台集成于戴尔的集成机架式系统。

为人工智能推理和代理性能设定新标准
NVIDIA GB300 NVL72 代表了 AI 推理工作负载性能的显著飞跃，与上一代 NVIDIA Hopper 架构相比，用户响应速度提升高达 10 倍，每瓦吞吐量提升 5 倍。这意味着推理模型的推理输出将大幅提升 50 倍，助您开发和部署更大、更复杂的 AI 模型，其速度将比以往呈指数级增长。凭借 1.5 倍更密集的 FP4 性能和 2 倍更快的 NVIDIA Quantum-X800 InfiniBand 速度，GB300 NVL72 实现了前所未有的推理速度，这将定义下一代 AI 应用。

Moonvalley 联合创始人兼首席执行官 Naeem Talukdar 表示：“Moonvalley 正在构建生成式电影制作的未来，为创作者提供工具，让他们的想象力变成现实。GB300 在 CoreWeave 上的应用令人兴奋不已。这个平台以及 CoreWeave 通过其 AI 云平台快速将其推向市场的能力，是推动 AI 驱动的电影制作成为我们行业现实的重要推动力。”

CoreWeave 借助其专用云平台，助力客户充分发挥 GB300 NVL72 的潜力，加速 AI 开发。CoreWeave 专为满足前沿规模 AI 的需求而打造，助力团队以极致性能、可靠性和弹性训练、优化和部署数万亿参数模型。

我们超越硬件层面，确保 CoreWeave AI 云中的每个组件，从 Kubernetes 服务 (CKS) 和 Slurm on Kubernetes 产品 (SUNK)，到我们深度可观察性和定制设计的机架生命周期控制器 (RLCC)，都经过优化，以最大程度地提升 GB300 NVL72 的性能。现在，我们全新的 Cabinet Wrangler 和 Cabinet Details 仪表板可提供更深入的可视性，从而提供机架规模的洞察。此外，硬件级数据和集群健康事件现在可直接通过 Weights & Biases 模型进行流式传输，使 AI 研究人员能够立即将基础设施问题与其训练运行关联起来，快速解决中断问题，并继续突破 AI 的极限。

CoreWeave 独特的基础架构方法已被证明能够显著提升硬件性能。今年早些时候，CoreWeave在 CoreWeave 云上发布了多项基于 NVIDIA GB200 NVL72 实例的突破性性能基准测试。正是由于对 AI 工作负载的高度关注，我们基于 GB200 的实例的单 GPU 推理性能比基于 H100 的实例提高了2.86 倍。通过将 GB300 NVL72 集成到我们的云产品组合中，并凭借我们一流的基础架构和工程专业知识，我们能够提供无与伦比的平台体验，并针对最苛刻的 AI 和 HPC 应用进行精细调整。

NVIDIA GB300 NVL72 内部一探
CoreWeave GB300 NVL72 是一款机架级解决方案，采用液冷平台，旨在满足最具挑战性的 AI 推理需求。它将 72 个 NVIDIA Blackwell Ultra GPU、36 个基于 Arm 的 NVIDIA Grace CPU 和 18 个 NVIDIA BlueField-3 DPU 整合到一个强大的平台中，并由 NVIDIA 的一系列行业领先创新技术提供支持：

NVIDIA Blackwell Ultra GPU：与 Blackwell GPU 相比，这些 GPU 的 AI 计算 FLOPS 增加了 1.5 倍。
扩展的 HBM3e 内存：GB300 NVL72 每机架配备高达 21TB 的高带宽 GPU 内存，与 GB200 NVL72 相比，GPU 内存增加了 1.5 倍，并允许更大的批量大小和更大的模型，这对于最大限度地提高 AI 推理的吞吐量至关重要。

第五代NVIDIA NVLink：最新版本的 NVLink 提供了惊人的 130TB/s 聚合带宽，确保系统中每个 GPU 之间实现无缝、高速通信，以实现峰值性能的 AI 模型。
下一代 InfiniBand 网络：该平台配备NVIDIA Quantum-X800 InfiniBand交换机和NVIDIA ConnectX-8 SuperNIC，为每个 GPU 提供高达 800 Gb/s 的专用网络连接。这确保了一流的远程直接内存访问 (RDMA)，从而在大规模 AI 工作负载下实现最高效率。

安全的多租户云网络：在 NVIDIA BlueField-3 上运行的NVIDIA DOCA软件框架通过提供高达 200Gb/s 的线速租户网络和高性能 GPU 数据访问来加速 AI 工作负载。
该系统旨在处理测试时扩展推理的海量计算需求，这是部署最先进 AI 模型的关键组件。对于我们的客户而言，这意味着 AI 推理工作负载性能的显著提升。

戴尔发布的GB300 NVL72作为一个完全集成和测试机架准备用于工业。CoreWeave计划将该系统用于加速LLM学习和生成人工智能任务随着时间的推移，由于这些机架的可伸缩性，增加生产能力。GB200 NVL72发布7个月后，新平台出现这对布莱克威尔原版的寿命提出了质疑CSP公司对Blackwell Ultra的高需求.

zhgbbs · 发表于 2025-7-4 11:51

这翻译还不如不翻

wei73 · 发表于 2025-7-4 11:52

zhgbbs 发表于 2025-7-4 11:51
这翻译还不如不翻

如-翻

youx · 发表于 2025-7-6 14:47

48v dc外置电源方案，可以增加1u 服务器的 io面板空间

账号		自动登录	找回密码
密码			加入我们

[显卡] GB300 NVL72首次部署