液冷散热方案

为什么需要液冷

GPU 服务器功耗对比：
  传统 CPU 服务器：300-500W/台
  GPU 服务器（8×A100）：10,000W/台（10kW）
  
机柜功耗密度：
  传统服务器：5-10kW/机柜
  GPU 服务器：40-80kW/机柜（4-8 台/柜）
  
传统风冷极限：约 20-30kW/机柜
液冷可支持：100kW+/机柜

冷板液冷（Direct Liquid Cooling）

工作原理

冷却液循环路径：

冷水机组（CDU）
    ↓ 供水（18-25°C）
机柜分液管
    ↓
服务器冷板（贴合 CPU/GPU）
    ↑ 回水（35-45°C）
机柜回液管
    ↑
冷水机组（散热，降温）

H3C 冷板液冷方案

H3C 液冷服务器配置：
  冷板：覆盖 CPU、GPU、内存、VRM
  冷却液：去离子水（DI Water）或乙二醇溶液
  工作温度：供水 18-25°C，回水 35-45°C
  
CDU（冷却分配单元）规格：
  H3C CDU-100：制冷量 100kW，支持 10 台 GPU 服务器
  H3C CDU-200：制冷量 200kW，支持 20 台 GPU 服务器
  
PUE 指标：
  传统风冷：PUE 1.4-1.6
  冷板液冷：PUE 1.15-1.25

部署注意事项

机房改造要求：
  1. 铺设冷却液管道（供回水管）
  2. 安装 CDU（冷却分配单元）
  3. 连接楼宇冷却水系统（或独立冷水机）
  4. 防漏液检测系统（必须）

运维注意：
  - 定期检查冷却液浓度（防腐蚀）
  - 定期检查管道接头（防泄漏）
  - 监控供回水温差（正常 10-20°C）
  - 备用 CDU（N+1 冗余）

浸没式液冷（Immersion Cooling）

单相浸没

原理：
  服务器浸泡在绝缘矿物油或合成液中
  液体不沸腾（单相），通过循环带走热量

特点：
  - 冷却效率极高：PUE 1.03-1.08
  - 支持功耗密度：100kW+/机柜
  - 噪音极低（无风扇）
  - 初期投资较高

适用场景：
  - 超大规模 AI 训练集群
  - 对 PUE 要求极高的绿色数据中心

两相浸没

原理：
  使用低沸点氟化液（沸点 49°C）
  液体在 GPU 表面沸腾（相变），带走大量热量
  蒸汽在冷凝器上液化，回流到槽体

特点：
  - 冷却效率最高：PUE 1.02-1.05
  - 无需泵循环（自然对流）
  - 冷却液成本较高（氟化液）

数据中心基础设施

供电架构

市电输入
    ↓
变压器（10kV → 400V）
    ↓
UPS（不间断电源，N+1 冗余）
    ↓
PDU（配电单元，每机柜）
    ↓
服务器电源（双路冗余）

GPU 服务器供电要求：
  单台 10kW → 需要 32A/380V 三相电源
  每机柜 4 台 → 需要 40kW 供电能力

机房规划

AI 集群机房规划（100 台 GPU 服务器）：

面积：约 500 平方米
机柜数：25 个（每柜 4 台）
总功耗：100 × 10kW = 1MW
冷却需求：1MW 制冷量
供电：2MW（含 UPS 损耗和冗余）

网络布线：
  InfiniBand：每台 8 根光纤（到 IB 交换机）
  以太网：每台 2 根（管理 + 业务）
  总光纤：100 × 10 = 1000 根

监控与告警

bash

# GPU 温度监控（Prometheus + DCGM Exporter）
# docker-compose.yml
version: '3'
services:
  dcgm-exporter:
    image: nvcr.io/nvidia/k8s/dcgm-exporter:3.1.7-3.1.4-ubuntu20.04
    runtime: nvidia
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
    ports:
      - "9400:9400"
    cap_add:
      - SYS_ADMIN

# Prometheus 告警规则
groups:
- name: gpu-alerts
  rules:
  - alert: GPUHighTemperature
    expr: DCGM_FI_DEV_GPU_TEMP > 85
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "GPU 温度过高"
      description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 85°C"
  
  - alert: GPUCriticalTemperature
    expr: DCGM_FI_DEV_GPU_TEMP > 90
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "GPU 温度危险"
      description: "GPU {{ $labels.gpu }} 温度 {{ $value }}°C 超过 90°C，可能触发降频"

液冷散热方案 ​

为什么需要液冷 ​

冷板液冷（Direct Liquid Cooling） ​

工作原理 ​

H3C 冷板液冷方案 ​

部署注意事项 ​

浸没式液冷（Immersion Cooling） ​

单相浸没 ​

两相浸没 ​

数据中心基础设施 ​

供电架构 ​

机房规划 ​

监控与告警 ​

液冷散热方案

为什么需要液冷

冷板液冷（Direct Liquid Cooling）

工作原理

H3C 冷板液冷方案

部署注意事项

浸没式液冷（Immersion Cooling）

单相浸没

两相浸没

数据中心基础设施

供电架构

机房规划

监控与告警