什么是 NVIDIA HGX?

NVIDIA HGX 是一个计算平台,通过NVLink 和 NVSwitch将多个GPU串连起来,提供强大的AI运算能力。

什么是 NVIDIA DGX?

NVIDIA DGX是 AI 超级计算机。硬件方面包含:GPU、CPU、内存、硬盘、散热系统、软件、操作系统等等,也就是说,除了显示器、键盘、鼠标,它全都有。

这是一台H100 DGX。

NVIDIA HGX 与 DGX的区别:

  1. 硬件配置

看图片就能一眼看出差异。HGX是一个计算模组,DGX是一个完整的主机。

  1. 软件堆栈和集成

DGX相较于HGX更加完备。

HGXDGX
操作系统DGX OS / Ubuntu / Red Hat Enterprise Linux / Rocky – Operating System
软件来自NGC™的完全优化的NVIDIA AI和HPC软件堆栈。NVIDIA AI EnterpriseNVIDIA Base Command
  1. 可定制性

HGX 具有高度可定制性,用户根据计算需求添加或删除 GPU。

DGX 可定制性不如 HGX,硬件配置是固定的。

  1. 目标用户和应用程序

HGX 主要面向需要灵活且可扩展的平台来满足高性能计算需求的研究人员和开发人员。适用于云数据中心、高性能计算、大规模人工智能研发、可定制基础设施等应用。

DGX 专为需要强大、即用型 AI 解决方案的企业而设计。它非常适合人工智能和深度学习开发、边缘计算、医疗保健和医学研究以及内容创建和媒体等应用。

  1. 成本

HGX 是模块化设计,定价灵活。DGX 是一体式高端解决方案,价格昂贵。

但是DGX价格贵也不是一概而论的。如果DGX对你来说,性能过剩了,你只需要4-GPUs,或者2-GPUs的。那么DGX相对于HGX来说,确实贵了。但是你如果需要8-GPUs,那么DGX对你而言,可能更具有性价比。

  • 买HGX,你还需要再额外购买CPU、内存、硬盘等等,这是一笔额外的支出。
  • 还需配备懂得硬件维护的运维工程师

6.运算性能

以H100为例,4-GPU版本的的HGX不支持NVSwitch,8-GPU版本的HGX支持第三代NVSwitch。NVSwitch可支持服务器内和服务器间实现高级多 GPU 通信的基础模组。在DGX中,第四代 NVLink 与 NVSwitch™ 相结合,可在每个 DGX H100 系统中的每个 GPU 之间提供每秒 900 GB 的连接。

DGX每个系统配备 8 个 H100 GPU,通过 NVLink® 连接为一个,每个 DGX H100 以新的 FP8 精度提供 32 petaflops 的 AI 性能,比上一代高出 6 倍。

总的来说,相同GPU数量下,DGX会比HGX运算能力更强。

总结,我该选什么

  • 想要开箱即用。不想花精力在攒机、配置软件、系统环境的,选择 DGX。
  • 想要对软硬件高度自由定制的,喜欢DIY的,选择 HGX。

绝大多数云平台,只提供HGX版本。原因在于,HGX并没有统一标准。云平台可以通过其它硬件的差异化配置,进行不同定价。云平台往往只标明自己的服务器是几个GPU,但是其它硬件配置,包括硬盘、内存、CPU、网卡等不会进行标注。或者这些信息会隐藏在文档中,需要开发者非常仔细的阅读查找。正是这种信息差给了云平台定价的空间。

同样的GPU配置,但是由于其它硬件配置不同,服务器的性能会有差异,定价也不一样。企业和开发者在选择GPU云服务器时,是比较困难的。

如果云平台提供DGX版本,DGX的配置是标准化的,云平台的定价空间就很小,换言之利润空间就变小了。

决定运算性能的,不单只是GPU,还有CPU、内存、网络、硬盘、甚至是散热。选择GPU云服务,不要图便宜,不要只看GPU数量。还是要实际测试后,根据性能来选择。

贴一个DGX H100的配置表,以供大家建立一个基准线

GPU8 个 NVIDIA H100 Tensor Core GPU
GPU 显存共 640GB
性能32 petaFLOPS FP8
NVIDIA® NVSwitch™4x
系统功耗最高 10.2kW
CPU双路 x86
系统内存2TB
网络4 个 OSFP 端口,提供 8 个单端口NVIDIA ConnectX-7 网卡
400Gb/s 的 InfiniBand/ 以太网2 个双端口 NVIDIA BlueField-3 DPU VPI
1 个 400Gb/s 的 InfiniBand/以太网网卡
1 个 200Gb/s 的 InfiniBand/以太网网卡
网络管理RJ45 接口 10Gb/s 板载网卡
50Gb/s 的以太网可选网卡
RJ45 接口主机基板管理控制器(BMC)
2 个 NVIDIA BlueField-3 DPU BMC(均为 RJ45 接口)
存储操作系统 :2 块 1.9TB NVMe M.2硬盘
内部存储 :8 块 3.84TB NVMe U.2硬盘
系统软件DGX H100 系统预安装 DGX 操作系统,该操作系统基于 Ubuntu Linux,包含DGX 软件堆栈(所有必要软件包和驱
动均针对 DGX 优化)。
客户可以选择单独安装 Ubuntu Linux或 Red Hat Enterprise Linux 以及必要的 DGX 软件堆栈。
运行温度范围5 至 30°C

HGX应用场景

  • 云数据中心
  • 高性能计算 (HPC)
  • 大规模人工智能研究与开发
  • 可定制的基础设施

DGX 应用场景

  • 人工智能和深度学习开发
  • 边缘计算
  • 医疗保健和医学研究
  • 内容创作和媒体

参考资料:

https://www.nvidia.cn/data-center/dgx-h100/

https://www.nvidia.cn/data-center/hgx/

https://nvidianews.nvidia.com/news/nvidia-announces-dgx-h100-systems-worlds-most-advanced-enterprise-ai-infrastructure#:~:text=Packing%20eight%20NVIDIA%20H100%20GPUs,more%20than%20the%20prior%20generation.