GPU 服务器与集群概览

H3C GPU 服务器产品线

G5500 系列（高密 GPU 服务器）

H3C UniServer G5500 G5 是专为 AI 训练设计的高密度 GPU 服务器：

H3C UniServer G5500 G5 规格：
├── CPU：2× Intel Xeon Platinum 8358（32C/64T，2.6GHz）
├── 内存：2TB DDR4（32× DIMM 插槽）
├── GPU：8× NVIDIA A100/H100/A800 SXM
│   └── GPU 间互联：NVLink 3.0/4.0（全互联）
├── 存储：8× NVMe SSD（系统盘 + 本地缓存）
├── 网络：
│   ├── 2× 100GbE（业务网络）
│   └── 8× InfiniBand HDR（GPU 直连网络）
├── 功耗：10kW（满载）
└── 外形：4U 机架式

NVLink 全互联拓扑

8 张 GPU 通过 NVLink Switch 全互联：

GPU0 ←→ GPU1 ←→ GPU2 ←→ GPU3
 ↕         ↕         ↕         ↕
GPU4 ←→ GPU5 ←→ GPU6 ←→ GPU7

每对 GPU 间带宽：600 GB/s（A100 NVLink 3.0）
任意两张 GPU 通信：无需经过 CPU，直接 GPU-to-GPU

GPU 集群网络架构

两层 Fat-Tree 架构（小规模）

适用规模：8-64 台 GPU 服务器

GPU 服务器（叶节点）
    ↓ 200Gbps InfiniBand
InfiniBand 叶交换机（Leaf）
    ↓ 200Gbps InfiniBand
InfiniBand 核心交换机（Spine）

特点：
  - 任意两台服务器间：2 跳
  - 全双工带宽：200Gbps/端口
  - 超额订阅比：1:1（无阻塞）

三层 Fat-Tree 架构（大规模）

适用规模：64-1000+ 台 GPU 服务器

GPU 服务器
    ↓ 400Gbps InfiniBand NDR
接入层交换机（Access）
    ↓ 400Gbps
汇聚层交换机（Aggregation）
    ↓ 400Gbps
核心层交换机（Core）

典型配置（512 台服务器）：
  接入层：64 台 × 40 端口交换机
  汇聚层：16 台 × 40 端口交换机
  核心层：8 台 × 40 端口交换机

RoCE 以太网方案（低成本）

对于预算有限的场景，可使用 RoCE（RDMA over Converged Ethernet）替代 InfiniBand：

GPU 服务器
    ↓ 100GbE RDMA 网卡（Mellanox ConnectX-6）
100GbE 无损以太网交换机（H3C S6800）
    配置：PFC（优先级流控）+ ECN（显式拥塞通知）

性能对比：
  InfiniBand HDR 200Gbps：延迟 ~600ns，带宽 25GB/s
  RoCE 100GbE：延迟 ~1-2μs，带宽 12.5GB/s
  
成本对比：
  InfiniBand 方案：约 RoCE 方案的 3-5 倍

集群管理

SLURM 作业调度

bash

# 提交训练作业
sbatch train_llm.sh

# train_llm.sh 内容
#!/bin/bash
#SBATCH --job-name=llm-training
#SBATCH --nodes=8                    # 使用 8 台节点
#SBATCH --ntasks-per-node=8          # 每节点 8 个任务（对应 8 张 GPU）
#SBATCH --gres=gpu:8                 # 每节点申请 8 张 GPU
#SBATCH --time=72:00:00              # 最长运行 72 小时
#SBATCH --partition=gpu-a100         # 使用 A100 分区
#SBATCH --output=logs/%j.out

# 加载环境
module load cuda/12.1 nccl/2.18 openmpi/4.1

# 启动分布式训练
srun python train.py \
  --model-size 70b \
  --batch-size 2048 \
  --learning-rate 1e-4 \
  --num-epochs 3

# 查看作业状态
squeue -u $USER

# 查看 GPU 使用情况
srun --jobid=<job-id> nvidia-smi

GPU 监控

bash

# 实时监控 GPU 状态
nvidia-smi dmon -s pucvmet -d 1

# 关键指标：
# pwr：功耗（W）
# temp：温度（°C）
# sm：SM 利用率（%）
# mem：显存利用率（%）
# enc/dec：编解码利用率

# 使用 DCGM 进行集群级 GPU 监控
dcgmi discovery -l          # 发现所有 GPU
dcgmi diag -r 3             # 运行诊断测试
dcgmi stats -e              # 启用统计收集
dcgmi stats -g <group-id> -j  # 查看作业统计

存储方案

并行文件系统（Lustre）

AI 训练需要高吞吐存储，Lustre 是主流选择：

Lustre 架构：
├── MGS（Management Server）：存储配置信息
├── MDS（Metadata Server）：存储文件元数据
│   └── MDT（Metadata Target）：元数据存储设备
└── OSS（Object Storage Server）：存储文件数据
    └── OST（Object Storage Target）：数据存储设备

典型配置（1PB 存储）：
  MDS：2 台（HA），每台 2× NVMe SSD
  OSS：20 台，每台 12× NVMe SSD（3.84TB）
  总容量：20 × 12 × 3.84TB ≈ 921TB（可用）
  聚合带宽：200GB/s+

bash

# 挂载 Lustre 文件系统
mount -t lustre mgs-node:/lustrefs /mnt/lustre

# 查看文件系统状态
lfs df -h /mnt/lustre

# 设置文件条带（提升大文件读写性能）
lfs setstripe -c 8 /mnt/lustre/training-data/
# -c 8：跨 8 个 OST 条带化存储

液冷方案

高密度 GPU 集群功耗极高，液冷是必要选择：

冷板液冷

原理：
  冷却液在密封管道中循环
  冷板贴合 CPU/GPU 散热
  热量通过冷却液带走

优势：
  - 改造成本低（可在现有机柜上改造）
  - 冷却效率：PUE 可达 1.2-1.3
  - 维护方便

适用：
  功耗密度 < 30kW/机柜

浸没式液冷

原理：
  服务器完全浸泡在绝缘冷却液中
  冷却液直接接触所有发热元件

优势：
  - 冷却效率最高：PUE 可达 1.03-1.1
  - 无需风扇，噪音极低
  - 支持极高功耗密度（100kW+/机柜）

适用：
  超大规模 AI 集群
  对 PUE 要求极高的场景

GPU 服务器与集群概览 ​

H3C GPU 服务器产品线 ​

G5500 系列（高密 GPU 服务器） ​

NVLink 全互联拓扑 ​

GPU 集群网络架构 ​

两层 Fat-Tree 架构（小规模） ​

三层 Fat-Tree 架构（大规模） ​

RoCE 以太网方案（低成本） ​

集群管理 ​

SLURM 作业调度 ​

GPU 监控 ​

存储方案 ​

并行文件系统（Lustre） ​

液冷方案 ​

冷板液冷 ​

浸没式液冷 ​

GPU 服务器与集群概览

H3C GPU 服务器产品线

G5500 系列（高密 GPU 服务器）

NVLink 全互联拓扑

GPU 集群网络架构

两层 Fat-Tree 架构（小规模）

三层 Fat-Tree 架构（大规模）

RoCE 以太网方案（低成本）

集群管理

SLURM 作业调度

GPU 监控

存储方案

并行文件系统（Lustre）

液冷方案

冷板液冷

浸没式液冷