GPU 服务器与集群概览
H3C GPU 服务器产品线
G5500 系列(高密 GPU 服务器)
H3C UniServer G5500 G5 是专为 AI 训练设计的高密度 GPU 服务器:
H3C UniServer G5500 G5 规格:
├── CPU:2× Intel Xeon Platinum 8358(32C/64T,2.6GHz)
├── 内存:2TB DDR4(32× DIMM 插槽)
├── GPU:8× NVIDIA A100/H100/A800 SXM
│ └── GPU 间互联:NVLink 3.0/4.0(全互联)
├── 存储:8× NVMe SSD(系统盘 + 本地缓存)
├── 网络:
│ ├── 2× 100GbE(业务网络)
│ └── 8× InfiniBand HDR(GPU 直连网络)
├── 功耗:10kW(满载)
└── 外形:4U 机架式NVLink 全互联拓扑
8 张 GPU 通过 NVLink Switch 全互联:
GPU0 ←→ GPU1 ←→ GPU2 ←→ GPU3
↕ ↕ ↕ ↕
GPU4 ←→ GPU5 ←→ GPU6 ←→ GPU7
每对 GPU 间带宽:600 GB/s(A100 NVLink 3.0)
任意两张 GPU 通信:无需经过 CPU,直接 GPU-to-GPUGPU 集群网络架构
两层 Fat-Tree 架构(小规模)
适用规模:8-64 台 GPU 服务器
GPU 服务器(叶节点)
↓ 200Gbps InfiniBand
InfiniBand 叶交换机(Leaf)
↓ 200Gbps InfiniBand
InfiniBand 核心交换机(Spine)
特点:
- 任意两台服务器间:2 跳
- 全双工带宽:200Gbps/端口
- 超额订阅比:1:1(无阻塞)三层 Fat-Tree 架构(大规模)
适用规模:64-1000+ 台 GPU 服务器
GPU 服务器
↓ 400Gbps InfiniBand NDR
接入层交换机(Access)
↓ 400Gbps
汇聚层交换机(Aggregation)
↓ 400Gbps
核心层交换机(Core)
典型配置(512 台服务器):
接入层:64 台 × 40 端口交换机
汇聚层:16 台 × 40 端口交换机
核心层:8 台 × 40 端口交换机RoCE 以太网方案(低成本)
对于预算有限的场景,可使用 RoCE(RDMA over Converged Ethernet)替代 InfiniBand:
GPU 服务器
↓ 100GbE RDMA 网卡(Mellanox ConnectX-6)
100GbE 无损以太网交换机(H3C S6800)
配置:PFC(优先级流控)+ ECN(显式拥塞通知)
性能对比:
InfiniBand HDR 200Gbps:延迟 ~600ns,带宽 25GB/s
RoCE 100GbE:延迟 ~1-2μs,带宽 12.5GB/s
成本对比:
InfiniBand 方案:约 RoCE 方案的 3-5 倍集群管理
SLURM 作业调度
bash
# 提交训练作业
sbatch train_llm.sh
# train_llm.sh 内容
#!/bin/bash
#SBATCH --job-name=llm-training
#SBATCH --nodes=8 # 使用 8 台节点
#SBATCH --ntasks-per-node=8 # 每节点 8 个任务(对应 8 张 GPU)
#SBATCH --gres=gpu:8 # 每节点申请 8 张 GPU
#SBATCH --time=72:00:00 # 最长运行 72 小时
#SBATCH --partition=gpu-a100 # 使用 A100 分区
#SBATCH --output=logs/%j.out
# 加载环境
module load cuda/12.1 nccl/2.18 openmpi/4.1
# 启动分布式训练
srun python train.py \
--model-size 70b \
--batch-size 2048 \
--learning-rate 1e-4 \
--num-epochs 3
# 查看作业状态
squeue -u $USER
# 查看 GPU 使用情况
srun --jobid=<job-id> nvidia-smiGPU 监控
bash
# 实时监控 GPU 状态
nvidia-smi dmon -s pucvmet -d 1
# 关键指标:
# pwr:功耗(W)
# temp:温度(°C)
# sm:SM 利用率(%)
# mem:显存利用率(%)
# enc/dec:编解码利用率
# 使用 DCGM 进行集群级 GPU 监控
dcgmi discovery -l # 发现所有 GPU
dcgmi diag -r 3 # 运行诊断测试
dcgmi stats -e # 启用统计收集
dcgmi stats -g <group-id> -j # 查看作业统计存储方案
并行文件系统(Lustre)
AI 训练需要高吞吐存储,Lustre 是主流选择:
Lustre 架构:
├── MGS(Management Server):存储配置信息
├── MDS(Metadata Server):存储文件元数据
│ └── MDT(Metadata Target):元数据存储设备
└── OSS(Object Storage Server):存储文件数据
└── OST(Object Storage Target):数据存储设备
典型配置(1PB 存储):
MDS:2 台(HA),每台 2× NVMe SSD
OSS:20 台,每台 12× NVMe SSD(3.84TB)
总容量:20 × 12 × 3.84TB ≈ 921TB(可用)
聚合带宽:200GB/s+bash
# 挂载 Lustre 文件系统
mount -t lustre mgs-node:/lustrefs /mnt/lustre
# 查看文件系统状态
lfs df -h /mnt/lustre
# 设置文件条带(提升大文件读写性能)
lfs setstripe -c 8 /mnt/lustre/training-data/
# -c 8:跨 8 个 OST 条带化存储液冷方案
高密度 GPU 集群功耗极高,液冷是必要选择:
冷板液冷
原理:
冷却液在密封管道中循环
冷板贴合 CPU/GPU 散热
热量通过冷却液带走
优势:
- 改造成本低(可在现有机柜上改造)
- 冷却效率:PUE 可达 1.2-1.3
- 维护方便
适用:
功耗密度 < 30kW/机柜浸没式液冷
原理:
服务器完全浸泡在绝缘冷却液中
冷却液直接接触所有发热元件
优势:
- 冷却效率最高:PUE 可达 1.03-1.1
- 无需风扇,噪音极低
- 支持极高功耗密度(100kW+/机柜)
适用:
超大规模 AI 集群
对 PUE 要求极高的场景