
CoreWeave通过DeepSeek R1演示GB300 NVL72的6倍GPU吞吐量
CoreWeave通过DeepSeek R1成功实现了GB300 NVL72的6倍GPU吞吐量提升,这一突破性的展示展示了CoreWeave的技术实力和创新能力,通过优化和高效利用GPU资源,大幅提高了数据处理和计算效率,这一成果对于推动行业技术进步具有重要意义。
NVIDIA 搭载 Blackwell 架构的 AI 超级芯片相比 H100 等上一代 GPU 拥有显著优势。GB300 已然是 NVIDIA 迄今为止最出色的产品,其计算能力实现了显著的提升,内存容量和带宽也大幅提升,这对于繁重的 AI 工作负载至关重要。CoreWeave 进行的最新基准测试也印证了这一点,该测试发现 NVIDIA 的最新平台可以通过降低张量并行度来显著提高吞吐量。
CoreWeave 在 DeepSeek R1 推理模型中测试了这两个平台,这是一个相当复杂的模型,但主要区别在于配置的显著差异。一方面,它需要 16 个 NVIDIA H100 集群来运行 DeepSeek R1 模型,但另一方面,它只需要 NVIDIA GB300 NVL72 基础架构上的 4 个 GB300 GPU 即可完成任务。
尽管使用了四分之一的 GPU,基于 GB300 的系统却实现了 6 倍的单 GPU 原始吞吐量,这展现了该 GPU 在复杂 AI 工作负载方面相对于 H100 的巨大优势。
图片来源:CoreWeave
如上所述,GB300 明显优于 H100 系统,因为前者仅需 4 路张量并行即可运行相同模型。由于分割次数减少,GPU 间通信得到改善,更高的内存容量和带宽也在性能大幅提升中发挥了关键作用。凭借如此架构上的飞跃,GB300 NVL72 平台看起来非常稳定,这要归功于高带宽 NVLink 和 NVSwitch 互连技术,它们使 GPU 能够以惊人的速度交换数据。
对于客户而言,这可以加快词元生成速度并降低延迟,同时更高效地扩展企业 AI 工作负载。CoreWeave 重点介绍了 NVIDIA GB300 NVL72 机架式系统的卓越规格和功能,该系统提供高达 37 TB 的内存容量(GB300 NVL72 最高支持 40 TB),可用于运行大型复杂的 AI 模型,以及可提供 130 TB/s 内存带宽的超快互连。
总而言之,NVIDIA GB300 不仅注重原始 TFLOP,更注重效率。张量并行度的降低使 GB300 能够最大限度地降低 GPU 通信开销,而这通常会阻碍大规模 AI 训练和推理。借助 GB300,企业现在即使使用更少的 GPU 也能实现更高的吞吐量,这不仅可以降低总体成本,还能帮助他们高效扩展。
新闻来源:CoreWeave