Skip to content

GPU 服务器与集群概览

H3C GPU 服务器产品线

G5500 系列(高密 GPU 服务器)

H3C UniServer G5500 G5 是专为 AI 训练设计的高密度 GPU 服务器:

H3C UniServer G5500 G5 规格:
├── CPU:2× Intel Xeon Platinum 8358(32C/64T,2.6GHz)
├── 内存:2TB DDR4(32× DIMM 插槽)
├── GPU:8× NVIDIA A100/H100/A800 SXM
│   └── GPU 间互联:NVLink 3.0/4.0(全互联)
├── 存储:8× NVMe SSD(系统盘 + 本地缓存)
├── 网络:
│   ├── 2× 100GbE(业务网络)
│   └── 8× InfiniBand HDR(GPU 直连网络)
├── 功耗:10kW(满载)
└── 外形:4U 机架式
8 张 GPU 通过 NVLink Switch 全互联:

GPU0 ←→ GPU1 ←→ GPU2 ←→ GPU3
 ↕         ↕         ↕         ↕
GPU4 ←→ GPU5 ←→ GPU6 ←→ GPU7

每对 GPU 间带宽:600 GB/s(A100 NVLink 3.0)
任意两张 GPU 通信:无需经过 CPU,直接 GPU-to-GPU

GPU 集群网络架构

两层 Fat-Tree 架构(小规模)

适用规模:8-64 台 GPU 服务器

GPU 服务器(叶节点)
    ↓ 200Gbps InfiniBand
InfiniBand 叶交换机(Leaf)
    ↓ 200Gbps InfiniBand
InfiniBand 核心交换机(Spine)

特点:
  - 任意两台服务器间:2 跳
  - 全双工带宽:200Gbps/端口
  - 超额订阅比:1:1(无阻塞)

三层 Fat-Tree 架构(大规模)

适用规模:64-1000+ 台 GPU 服务器

GPU 服务器
    ↓ 400Gbps InfiniBand NDR
接入层交换机(Access)
    ↓ 400Gbps
汇聚层交换机(Aggregation)
    ↓ 400Gbps
核心层交换机(Core)

典型配置(512 台服务器):
  接入层:64 台 × 40 端口交换机
  汇聚层:16 台 × 40 端口交换机
  核心层:8 台 × 40 端口交换机

RoCE 以太网方案(低成本)

对于预算有限的场景,可使用 RoCE(RDMA over Converged Ethernet)替代 InfiniBand:

GPU 服务器
    ↓ 100GbE RDMA 网卡(Mellanox ConnectX-6)
100GbE 无损以太网交换机(H3C S6800)
    配置:PFC(优先级流控)+ ECN(显式拥塞通知)

性能对比:
  InfiniBand HDR 200Gbps:延迟 ~600ns,带宽 25GB/s
  RoCE 100GbE:延迟 ~1-2μs,带宽 12.5GB/s
  
成本对比:
  InfiniBand 方案:约 RoCE 方案的 3-5 倍

集群管理

SLURM 作业调度

bash
# 提交训练作业
sbatch train_llm.sh

# train_llm.sh 内容
#!/bin/bash
#SBATCH --job-name=llm-training
#SBATCH --nodes=8                    # 使用 8 台节点
#SBATCH --ntasks-per-node=8          # 每节点 8 个任务(对应 8 张 GPU)
#SBATCH --gres=gpu:8                 # 每节点申请 8 张 GPU
#SBATCH --time=72:00:00              # 最长运行 72 小时
#SBATCH --partition=gpu-a100         # 使用 A100 分区
#SBATCH --output=logs/%j.out

# 加载环境
module load cuda/12.1 nccl/2.18 openmpi/4.1

# 启动分布式训练
srun python train.py \
  --model-size 70b \
  --batch-size 2048 \
  --learning-rate 1e-4 \
  --num-epochs 3

# 查看作业状态
squeue -u $USER

# 查看 GPU 使用情况
srun --jobid=<job-id> nvidia-smi

GPU 监控

bash
# 实时监控 GPU 状态
nvidia-smi dmon -s pucvmet -d 1

# 关键指标:
# pwr:功耗(W)
# temp:温度(°C)
# sm:SM 利用率(%)
# mem:显存利用率(%)
# enc/dec:编解码利用率

# 使用 DCGM 进行集群级 GPU 监控
dcgmi discovery -l          # 发现所有 GPU
dcgmi diag -r 3             # 运行诊断测试
dcgmi stats -e              # 启用统计收集
dcgmi stats -g <group-id> -j  # 查看作业统计

存储方案

并行文件系统(Lustre)

AI 训练需要高吞吐存储,Lustre 是主流选择:

Lustre 架构:
├── MGS(Management Server):存储配置信息
├── MDS(Metadata Server):存储文件元数据
│   └── MDT(Metadata Target):元数据存储设备
└── OSS(Object Storage Server):存储文件数据
    └── OST(Object Storage Target):数据存储设备

典型配置(1PB 存储):
  MDS:2 台(HA),每台 2× NVMe SSD
  OSS:20 台,每台 12× NVMe SSD(3.84TB)
  总容量:20 × 12 × 3.84TB ≈ 921TB(可用)
  聚合带宽:200GB/s+
bash
# 挂载 Lustre 文件系统
mount -t lustre mgs-node:/lustrefs /mnt/lustre

# 查看文件系统状态
lfs df -h /mnt/lustre

# 设置文件条带(提升大文件读写性能)
lfs setstripe -c 8 /mnt/lustre/training-data/
# -c 8:跨 8 个 OST 条带化存储

液冷方案

高密度 GPU 集群功耗极高,液冷是必要选择:

冷板液冷

原理:
  冷却液在密封管道中循环
  冷板贴合 CPU/GPU 散热
  热量通过冷却液带走

优势:
  - 改造成本低(可在现有机柜上改造)
  - 冷却效率:PUE 可达 1.2-1.3
  - 维护方便

适用:
  功耗密度 < 30kW/机柜

浸没式液冷

原理:
  服务器完全浸泡在绝缘冷却液中
  冷却液直接接触所有发热元件

优势:
  - 冷却效率最高:PUE 可达 1.03-1.1
  - 无需风扇,噪音极低
  - 支持极高功耗密度(100kW+/机柜)

适用:
  超大规模 AI 集群
  对 PUE 要求极高的场景

褚成志的云与计算笔记