CloudOS 核心架构详解
整体架构分层
CloudOS 采用经典的三层架构,从下到上依次为:资源层、平台层、服务层。
┌──────────────────────────────────────────────────────────────┐
│ 服务层(Service Layer) │
│ 自助服务门户 | 管理控制台 | API Gateway | 计费系统 | 监控告警 │
├──────────────────────────────────────────────────────────────┤
│ 平台层(Platform Layer) │
│ 资源调度引擎 | 多租户管理 | 镜像服务 | 网络编排 | 存储编排 │
├──────────────────────────────────────────────────────────────┤
│ 资源层(Resource Layer) │
│ 计算节点(KVM/CAS) | 网络节点(SDN) | 存储节点(Ceph/FC/NFS) │
└──────────────────────────────────────────────────────────────┘核心组件详解
1. 管理节点(Management Node)
管理节点是 CloudOS 的大脑,运行所有控制面服务:
管理节点(3 节点 HA 部署)
├── API Server(接收所有 REST API 请求)
├── Scheduler(资源调度决策)
├── Database(MySQL Galera 集群)
├── Message Queue(RabbitMQ 集群)
├── Identity Service(Keystone)
└── Image Service(Glance)高可用方案:
- 管理节点采用 3 节点部署,通过 Keepalived + HAProxy 实现 VIP 漂移
- 数据库使用 MySQL Galera 多主同步复制
- 消息队列使用 RabbitMQ 镜像队列
2. 计算节点(Compute Node)
计算节点
├── Nova-Compute(虚拟机生命周期管理)
├── CAS Agent(H3C 虚拟化代理)
├── Neutron Agent(网络代理,OVS/OVN)
├── Cinder Volume(本地存储代理)
└── Telemetry Agent(监控数据采集)计算节点规格建议:
| 场景 | CPU | 内存 | 本地存储 |
|---|---|---|---|
| 通用计算 | 2×32C | 512GB | 2×960GB SSD |
| 内存密集 | 2×32C | 1.5TB | 2×960GB SSD |
| GPU 计算 | 2×32C | 512GB | 2×960GB SSD + GPU |
3. 网络节点(Network Node)
网络节点
├── Neutron Server(网络 API)
├── L3 Agent(路由器、浮动 IP)
├── DHCP Agent(IP 地址分配)
├── LBaaS(负载均衡服务)
└── VPN Agent(VPN 服务)网络架构:
外部网络(Internet/企业内网)
↓
浮动 IP(Floating IP)
↓
虚拟路由器(Virtual Router)
↓
租户网络(Tenant Network,VxLAN)
↓
虚拟机(VM)4. 存储节点(Storage Node)
CloudOS 支持多种存储后端:
存储后端选择
├── Ceph(推荐,分布式,支持块/对象/文件)
│ ├── RBD → 虚拟机系统盘/数据盘
│ ├── RGW → 对象存储(S3 兼容)
│ └── CephFS → 共享文件系统
├── H3C 全闪存储(高性能场景)
│ └── 通过 FC/iSCSI 接入
├── NFS(简单场景)
└── 本地存储(测试/边缘场景)网络虚拟化架构
VxLAN Overlay 网络
物理网络(Underlay)
↓ VxLAN 封装
逻辑网络(Overlay)
├── 租户 A 网络(VNI: 1001)
│ ├── 子网 192.168.1.0/24
│ └── 子网 192.168.2.0/24
└── 租户 B 网络(VNI: 1002)
└── 子网 10.0.0.0/24SDN 控制器集成
H3C CloudOS 深度集成 H3C SDN 控制器(iMC/IMC):
CloudOS Neutron
↓ REST API
H3C SDN 控制器
↓ OpenFlow/NETCONF
H3C 物理交换机(S6800/S12500 等)优势:物理网络与虚拟网络统一管理,支持硬件 VTEP,性能更优。
高可用架构
控制面 HA
VIP(虚拟 IP)
/ \
管理节点1(Active) 管理节点2(Standby)
| |
管理节点3(Standby)
|
MySQL Galera 集群(3节点同步复制)计算面 HA
虚拟机高可用通过以下机制保障:
- 主机故障自动迁移(Auto Evacuation):计算节点宕机时,VM 自动迁移到其他节点
- 热迁移(Live Migration):不停机迁移 VM,用于主机维护
- 冷迁移(Cold Migration):停机迁移,用于跨存储迁移
存储 HA
Ceph 集群(推荐 3 副本)
├── OSD 节点1(数据副本1)
├── OSD 节点2(数据副本2)
└── OSD 节点3(数据副本3)
副本策略:
- 默认 3 副本,允许 1 个 OSD 故障
- 纠删码(EC):节省空间,适合冷数据部署规模参考
小型私有云(PoC/测试)
最小配置:
- 管理节点:1 台(非 HA)
- 计算节点:2 台
- 存储:本地存储或小型 Ceph(3 节点)
- 总服务器:5-6 台中型私有云(生产)
标准配置:
- 管理节点:3 台(HA)
- 计算节点:10-20 台
- 存储节点:6-9 台(Ceph)
- 网络节点:2 台(HA)
- 总服务器:20-35 台大型私有云
大规模配置:
- 管理节点:3 台(HA)
- 计算节点:50-200 台
- 存储节点:20-50 台
- 网络节点:4 台(HA)
- 可选:独立监控节点、日志节点关键性能指标
| 指标 | 参考值 |
|---|---|
| VM 创建时间 | < 30 秒(本地镜像) |
| VM 热迁移时间 | < 5 分钟(32GB 内存 VM) |
| API 响应时间 | < 500ms(P99) |
| 最大租户数 | 10,000+(单集群) |
| 最大 VM 数 | 100,000+(单集群) |
| 控制面 RTO | < 5 分钟(管理节点故障切换) |