液冷散热方案
为什么需要液冷
GPU 服务器功耗对比:
传统 CPU 服务器:300-500W/台
GPU 服务器(8×A100):10,000W/台(10kW)
机柜功耗密度:
传统服务器:5-10kW/机柜
GPU 服务器:40-80kW/机柜(4-8 台/柜)
传统风冷极限:约 20-30kW/机柜
液冷可支持:100kW+/机柜冷板液冷(Direct Liquid Cooling)
工作原理
冷却液循环路径:
冷水机组(CDU)
↓ 供水(18-25°C)
机柜分液管
↓
服务器冷板(贴合 CPU/GPU)
↑ 回水(35-45°C)
机柜回液管
↑
冷水机组(散热,降温)H3C 冷板液冷方案
H3C 液冷服务器配置:
冷板:覆盖 CPU、GPU、内存、VRM
冷却液:去离子水(DI Water)或乙二醇溶液
工作温度:供水 18-25°C,回水 35-45°C
CDU(冷却分配单元)规格:
H3C CDU-100:制冷量 100kW,支持 10 台 GPU 服务器
H3C CDU-200:制冷量 200kW,支持 20 台 GPU 服务器
PUE 指标:
传统风冷:PUE 1.4-1.6
冷板液冷:PUE 1.15-1.25部署注意事项
机房改造要求:
1. 铺设冷却液管道(供回水管)
2. 安装 CDU(冷却分配单元)
3. 连接楼宇冷却水系统(或独立冷水机)
4. 防漏液检测系统(必须)
运维注意:
- 定期检查冷却液浓度(防腐蚀)
- 定期检查管道接头(防泄漏)
- 监控供回水温差(正常 10-20°C)
- 备用 CDU(N+1 冗余)浸没式液冷(Immersion Cooling)
单相浸没
原理:
服务器浸泡在绝缘矿物油或合成液中
液体不沸腾(单相),通过循环带走热量
特点:
- 冷却效率极高:PUE 1.03-1.08
- 支持功耗密度:100kW+/机柜
- 噪音极低(无风扇)
- 初期投资较高
适用场景:
- 超大规模 AI 训练集群
- 对 PUE 要求极高的绿色数据中心两相浸没
原理:
使用低沸点氟化液(沸点 49°C)
液体在 GPU 表面沸腾(相变),带走大量热量
蒸汽在冷凝器上液化,回流到槽体
特点:
- 冷却效率最高:PUE 1.02-1.05
- 无需泵循环(自然对流)
- 冷却液成本较高(氟化液)数据中心基础设施
供电架构
市电输入
↓
变压器(10kV → 400V)
↓
UPS(不间断电源,N+1 冗余)
↓
PDU(配电单元,每机柜)
↓
服务器电源(双路冗余)
GPU 服务器供电要求:
单台 10kW → 需要 32A/380V 三相电源
每机柜 4 台 → 需要 40kW 供电能力机房规划
AI 集群机房规划(100 台 GPU 服务器):
面积:约 500 平方米
机柜数:25 个(每柜 4 台)
总功耗:100 × 10kW = 1MW
冷却需求:1MW 制冷量
供电:2MW(含 UPS 损耗和冗余)
网络布线:
InfiniBand:每台 8 根光纤(到 IB 交换机)
以太网:每台 2 根(管理 + 业务)
总光纤:100 × 10 = 1000 根监控与告警
bash
# GPU 温度监控(Prometheus + DCGM Exporter)
# docker-compose.yml
version: '3'
services:
dcgm-exporter:
image: nvcr.io/nvidia/k8s/dcgm-exporter:3.1.7-3.1.4-ubuntu20.04
runtime: nvidia
environment:
- NVIDIA_VISIBLE_DEVICES=all
ports:
- "9400:9400"
cap_add:
- SYS_ADMIN
# Prometheus 告警规则
groups:
- name: gpu-alerts
rules:
- alert: GPUHighTemperature
expr: DCGM_FI_DEV_GPU_TEMP > 85
for: 5m
labels:
severity: warning
annotations:
summary: "GPU 温度过高"
description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 85°C"
- alert: GPUCriticalTemperature
expr: DCGM_FI_DEV_GPU_TEMP > 90
for: 1m
labels:
severity: critical
annotations:
summary: "GPU 温度危险"
description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 90°C,可能触发降频"