AI 基础设施总览
H3C AI 战略定位
新华三将 AI 基础设施作为核心战略方向,提供从芯片到平台的全栈 AI 解决方案:
H3C AI 全栈方案
应用层:行业 AI 应用(智慧城市/智慧医疗/智慧金融)
↑
平台层:AI 开发平台(训练/推理/MLOps)
↑
算力层:GPU/NPU 服务器集群
↑
网络层:高速互联(InfiniBand/RoCE)
↑
存储层:高性能并行存储(Lustre/GPFS)
↑
基础层:数据中心基础设施(液冷/供电/机房)AI 算力产品线
GPU 服务器
| 型号 | GPU | GPU 数量 | GPU 显存 | 互联方式 | 适用场景 |
|---|---|---|---|---|---|
| H3C UniServer G5500 G5 | NVIDIA A100 | 8 | 640GB(8×80GB) | NVLink + InfiniBand | 大模型训练 |
| H3C UniServer G5500 G5 | NVIDIA H100 | 8 | 640GB(8×80GB) | NVLink + InfiniBand | 最新大模型 |
| H3C UniServer G5500 G5 | NVIDIA A800 | 8 | 640GB(8×80GB) | NVLink + InfiniBand | 国内合规版 |
| H3C UniServer R4900 G5 | NVIDIA A10 | 4 | 96GB(4×24GB) | PCIe | 推理服务 |
| H3C UniServer R4900 G5 | NVIDIA T4 | 4 | 64GB(4×16GB) | PCIe | 轻量推理 |
国产 AI 芯片支持
H3C 同时支持国产 AI 芯片:
| 芯片 | 厂商 | 算力 | 适用场景 |
|---|---|---|---|
| 昇腾 910B | 华为 | 320 TFLOPS(FP16) | 大模型训练 |
| 昇腾 310P | 华为 | 32 TOPS(INT8) | 推理加速 |
| 寒武纪 MLU370 | 寒武纪 | 256 TOPS(INT8) | 推理 |
| 天数智芯 BI-V150 | 天数智芯 | 256 TFLOPS(FP16) | 训练/推理 |
AI 集群规模参考
小型 AI 集群(入门级)
规模:8 台 GPU 服务器(64 张 A100)
用途:中小模型训练、推理服务
网络:100GbE 以太网(RoCE)
存储:全闪 NVMe 存储(100TB)
功耗:约 200kW中型 AI 集群
规模:64 台 GPU 服务器(512 张 A100)
用途:大模型训练(百亿参数级别)
网络:200Gbps InfiniBand HDR
存储:并行文件系统(1PB+)
功耗:约 1.6MW
液冷:推荐冷板液冷大型 AI 集群(超算级)
规模:1000+ 台 GPU 服务器(8000+ 张 H100)
用途:千亿/万亿参数大模型训练
网络:400Gbps InfiniBand NDR
存储:分布式并行存储(10PB+)
功耗:25MW+
液冷:浸没式液冷AI 基础设施关键指标
算力指标
FLOPS(浮点运算次数/秒):
TFLOPS = 10^12 FLOPS
PFLOPS = 10^15 FLOPS
A100 SXM 算力:
FP64:9.7 TFLOPS
FP32:19.5 TFLOPS
TF32:156 TFLOPS(Tensor Core)
FP16:312 TFLOPS(Tensor Core)
INT8:624 TOPS(Tensor Core)
BF16:312 TFLOPS(Tensor Core)互联带宽
GPU 间通信带宽对比:
PCIe 4.0 x16:64 GB/s(双向)
NVLink 3.0(A100):600 GB/s(双向,单 GPU 对)
NVLink 4.0(H100):900 GB/s(双向,单 GPU 对)
节点间通信:
100GbE RoCE:12.5 GB/s
200Gbps InfiniBand HDR:25 GB/s
400Gbps InfiniBand NDR:50 GB/s典型 AI 应用场景
大语言模型(LLM)训练
模型规模 vs 所需算力(参考):
7B 参数:8×A100,约 3 天(1T tokens)
13B 参数:16×A100,约 5 天
70B 参数:64×A100,约 21 天
175B 参数(GPT-3 级别):512×A100,约 30 天
关键技术:
- 数据并行(Data Parallelism)
- 模型并行(Model Parallelism)
- 流水线并行(Pipeline Parallelism)
- 混合精度训练(FP16/BF16)推理服务
推理延迟要求:
在线推理(实时对话):< 100ms(首 token)
批量推理(离线处理):吞吐量优先
推理优化技术:
- 量化(INT8/INT4):减少显存,提升吞吐
- KV Cache:缓存注意力计算结果
- 连续批处理(Continuous Batching)
- 张量并行(Tensor Parallelism)