AI 基础设施总览

H3C AI 战略定位

新华三将 AI 基础设施作为核心战略方向，提供从芯片到平台的全栈 AI 解决方案：

H3C AI 全栈方案

应用层：行业 AI 应用（智慧城市/智慧医疗/智慧金融）
    ↑
平台层：AI 开发平台（训练/推理/MLOps）
    ↑
算力层：GPU/NPU 服务器集群
    ↑
网络层：高速互联（InfiniBand/RoCE）
    ↑
存储层：高性能并行存储（Lustre/GPFS）
    ↑
基础层：数据中心基础设施（液冷/供电/机房）

AI 算力产品线

GPU 服务器

型号	GPU	GPU 数量	GPU 显存	互联方式	适用场景
H3C UniServer G5500 G5	NVIDIA A100	8	640GB（8×80GB）	NVLink + InfiniBand	大模型训练
H3C UniServer G5500 G5	NVIDIA H100	8	640GB（8×80GB）	NVLink + InfiniBand	最新大模型
H3C UniServer G5500 G5	NVIDIA A800	8	640GB（8×80GB）	NVLink + InfiniBand	国内合规版
H3C UniServer R4900 G5	NVIDIA A10	4	96GB（4×24GB）	PCIe	推理服务
H3C UniServer R4900 G5	NVIDIA T4	4	64GB（4×16GB）	PCIe	轻量推理

国产 AI 芯片支持

H3C 同时支持国产 AI 芯片：

芯片	厂商	算力	适用场景
昇腾 910B	华为	320 TFLOPS（FP16）	大模型训练
昇腾 310P	华为	32 TOPS（INT8）	推理加速
寒武纪 MLU370	寒武纪	256 TOPS（INT8）	推理
天数智芯 BI-V150	天数智芯	256 TFLOPS（FP16）	训练/推理

AI 集群规模参考

小型 AI 集群（入门级）

规模：8 台 GPU 服务器（64 张 A100）
用途：中小模型训练、推理服务
网络：100GbE 以太网（RoCE）
存储：全闪 NVMe 存储（100TB）
功耗：约 200kW

中型 AI 集群

规模：64 台 GPU 服务器（512 张 A100）
用途：大模型训练（百亿参数级别）
网络：200Gbps InfiniBand HDR
存储：并行文件系统（1PB+）
功耗：约 1.6MW
液冷：推荐冷板液冷

大型 AI 集群（超算级）

规模：1000+ 台 GPU 服务器（8000+ 张 H100）
用途：千亿/万亿参数大模型训练
网络：400Gbps InfiniBand NDR
存储：分布式并行存储（10PB+）
功耗：25MW+
液冷：浸没式液冷

AI 基础设施关键指标

算力指标

FLOPS（浮点运算次数/秒）：
  TFLOPS = 10^12 FLOPS
  PFLOPS = 10^15 FLOPS

A100 SXM 算力：
  FP64：9.7 TFLOPS
  FP32：19.5 TFLOPS
  TF32：156 TFLOPS（Tensor Core）
  FP16：312 TFLOPS（Tensor Core）
  INT8：624 TOPS（Tensor Core）
  BF16：312 TFLOPS（Tensor Core）

互联带宽

GPU 间通信带宽对比：
  PCIe 4.0 x16：64 GB/s（双向）
  NVLink 3.0（A100）：600 GB/s（双向，单 GPU 对）
  NVLink 4.0（H100）：900 GB/s（双向，单 GPU 对）
  
节点间通信：
  100GbE RoCE：12.5 GB/s
  200Gbps InfiniBand HDR：25 GB/s
  400Gbps InfiniBand NDR：50 GB/s

典型 AI 应用场景

大语言模型（LLM）训练

模型规模 vs 所需算力（参考）：
  7B 参数：8×A100，约 3 天（1T tokens）
  13B 参数：16×A100，约 5 天
  70B 参数：64×A100，约 21 天
  175B 参数（GPT-3 级别）：512×A100，约 30 天
  
关键技术：
  - 数据并行（Data Parallelism）
  - 模型并行（Model Parallelism）
  - 流水线并行（Pipeline Parallelism）
  - 混合精度训练（FP16/BF16）

推理服务

推理延迟要求：
  在线推理（实时对话）：< 100ms（首 token）
  批量推理（离线处理）：吞吐量优先
  
推理优化技术：
  - 量化（INT8/INT4）：减少显存，提升吞吐
  - KV Cache：缓存注意力计算结果
  - 连续批处理（Continuous Batching）
  - 张量并行（Tensor Parallelism）

AI 基础设施总览 ​

H3C AI 战略定位 ​

AI 算力产品线 ​

GPU 服务器 ​

国产 AI 芯片支持 ​

AI 集群规模参考 ​

小型 AI 集群（入门级） ​

中型 AI 集群 ​

大型 AI 集群（超算级） ​

AI 基础设施关键指标 ​

算力指标 ​

互联带宽 ​

典型 AI 应用场景 ​

大语言模型（LLM）训练 ​

推理服务 ​

相关文档 ​

AI 基础设施总览

H3C AI 战略定位

AI 算力产品线

GPU 服务器

国产 AI 芯片支持

AI 集群规模参考

小型 AI 集群（入门级）

中型 AI 集群

大型 AI 集群（超算级）

AI 基础设施关键指标

算力指标

互联带宽

典型 AI 应用场景

大语言模型（LLM）训练

推理服务

相关文档