Skip to content

液冷散热方案

为什么需要液冷

GPU 服务器功耗对比:
  传统 CPU 服务器:300-500W/台
  GPU 服务器(8×A100):10,000W/台(10kW)
  
机柜功耗密度:
  传统服务器:5-10kW/机柜
  GPU 服务器:40-80kW/机柜(4-8 台/柜)
  
传统风冷极限:约 20-30kW/机柜
液冷可支持:100kW+/机柜

冷板液冷(Direct Liquid Cooling)

工作原理

冷却液循环路径:

冷水机组(CDU)
    ↓ 供水(18-25°C)
机柜分液管

服务器冷板(贴合 CPU/GPU)
    ↑ 回水(35-45°C)
机柜回液管

冷水机组(散热,降温)

H3C 冷板液冷方案

H3C 液冷服务器配置:
  冷板:覆盖 CPU、GPU、内存、VRM
  冷却液:去离子水(DI Water)或乙二醇溶液
  工作温度:供水 18-25°C,回水 35-45°C
  
CDU(冷却分配单元)规格:
  H3C CDU-100:制冷量 100kW,支持 10 台 GPU 服务器
  H3C CDU-200:制冷量 200kW,支持 20 台 GPU 服务器
  
PUE 指标:
  传统风冷:PUE 1.4-1.6
  冷板液冷:PUE 1.15-1.25

部署注意事项

机房改造要求:
  1. 铺设冷却液管道(供回水管)
  2. 安装 CDU(冷却分配单元)
  3. 连接楼宇冷却水系统(或独立冷水机)
  4. 防漏液检测系统(必须)

运维注意:
  - 定期检查冷却液浓度(防腐蚀)
  - 定期检查管道接头(防泄漏)
  - 监控供回水温差(正常 10-20°C)
  - 备用 CDU(N+1 冗余)

浸没式液冷(Immersion Cooling)

单相浸没

原理:
  服务器浸泡在绝缘矿物油或合成液中
  液体不沸腾(单相),通过循环带走热量

特点:
  - 冷却效率极高:PUE 1.03-1.08
  - 支持功耗密度:100kW+/机柜
  - 噪音极低(无风扇)
  - 初期投资较高

适用场景:
  - 超大规模 AI 训练集群
  - 对 PUE 要求极高的绿色数据中心

两相浸没

原理:
  使用低沸点氟化液(沸点 49°C)
  液体在 GPU 表面沸腾(相变),带走大量热量
  蒸汽在冷凝器上液化,回流到槽体

特点:
  - 冷却效率最高:PUE 1.02-1.05
  - 无需泵循环(自然对流)
  - 冷却液成本较高(氟化液)

数据中心基础设施

供电架构

市电输入

变压器(10kV → 400V)

UPS(不间断电源,N+1 冗余)

PDU(配电单元,每机柜)

服务器电源(双路冗余)

GPU 服务器供电要求:
  单台 10kW → 需要 32A/380V 三相电源
  每机柜 4 台 → 需要 40kW 供电能力

机房规划

AI 集群机房规划(100 台 GPU 服务器):

面积:约 500 平方米
机柜数:25 个(每柜 4 台)
总功耗:100 × 10kW = 1MW
冷却需求:1MW 制冷量
供电:2MW(含 UPS 损耗和冗余)

网络布线:
  InfiniBand:每台 8 根光纤(到 IB 交换机)
  以太网:每台 2 根(管理 + 业务)
  总光纤:100 × 10 = 1000 根

监控与告警

bash
# GPU 温度监控(Prometheus + DCGM Exporter)
# docker-compose.yml
version: '3'
services:
  dcgm-exporter:
    image: nvcr.io/nvidia/k8s/dcgm-exporter:3.1.7-3.1.4-ubuntu20.04
    runtime: nvidia
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
    ports:
      - "9400:9400"
    cap_add:
      - SYS_ADMIN

# Prometheus 告警规则
groups:
- name: gpu-alerts
  rules:
  - alert: GPUHighTemperature
    expr: DCGM_FI_DEV_GPU_TEMP > 85
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "GPU 温度过高"
      description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 85°C"
  
  - alert: GPUCriticalTemperature
    expr: DCGM_FI_DEV_GPU_TEMP > 90
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "GPU 温度危险"
      description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 90°C,可能触发降频"

褚成志的云与计算笔记