Skip to content

CloudOS 核心架构详解

整体架构分层

CloudOS 采用经典的三层架构,从下到上依次为:资源层、平台层、服务层。

┌──────────────────────────────────────────────────────────────┐
│                    服务层(Service Layer)                     │
│  自助服务门户 | 管理控制台 | API Gateway | 计费系统 | 监控告警  │
├──────────────────────────────────────────────────────────────┤
│                    平台层(Platform Layer)                    │
│  资源调度引擎 | 多租户管理 | 镜像服务 | 网络编排 | 存储编排    │
├──────────────────────────────────────────────────────────────┤
│                    资源层(Resource Layer)                    │
│  计算节点(KVM/CAS) | 网络节点(SDN) | 存储节点(Ceph/FC/NFS)   │
└──────────────────────────────────────────────────────────────┘

核心组件详解

1. 管理节点(Management Node)

管理节点是 CloudOS 的大脑,运行所有控制面服务:

管理节点(3 节点 HA 部署)
├── API Server(接收所有 REST API 请求)
├── Scheduler(资源调度决策)
├── Database(MySQL Galera 集群)
├── Message Queue(RabbitMQ 集群)
├── Identity Service(Keystone)
└── Image Service(Glance)

高可用方案

  • 管理节点采用 3 节点部署,通过 Keepalived + HAProxy 实现 VIP 漂移
  • 数据库使用 MySQL Galera 多主同步复制
  • 消息队列使用 RabbitMQ 镜像队列

2. 计算节点(Compute Node)

计算节点
├── Nova-Compute(虚拟机生命周期管理)
├── CAS Agent(H3C 虚拟化代理)
├── Neutron Agent(网络代理,OVS/OVN)
├── Cinder Volume(本地存储代理)
└── Telemetry Agent(监控数据采集)

计算节点规格建议

场景CPU内存本地存储
通用计算2×32C512GB2×960GB SSD
内存密集2×32C1.5TB2×960GB SSD
GPU 计算2×32C512GB2×960GB SSD + GPU

3. 网络节点(Network Node)

网络节点
├── Neutron Server(网络 API)
├── L3 Agent(路由器、浮动 IP)
├── DHCP Agent(IP 地址分配)
├── LBaaS(负载均衡服务)
└── VPN Agent(VPN 服务)

网络架构

外部网络(Internet/企业内网)

浮动 IP(Floating IP)

虚拟路由器(Virtual Router)

租户网络(Tenant Network,VxLAN)

虚拟机(VM)

4. 存储节点(Storage Node)

CloudOS 支持多种存储后端:

存储后端选择
├── Ceph(推荐,分布式,支持块/对象/文件)
│   ├── RBD → 虚拟机系统盘/数据盘
│   ├── RGW → 对象存储(S3 兼容)
│   └── CephFS → 共享文件系统
├── H3C 全闪存储(高性能场景)
│   └── 通过 FC/iSCSI 接入
├── NFS(简单场景)
└── 本地存储(测试/边缘场景)

网络虚拟化架构

VxLAN Overlay 网络

物理网络(Underlay)
    ↓ VxLAN 封装
逻辑网络(Overlay)
    ├── 租户 A 网络(VNI: 1001)
    │   ├── 子网 192.168.1.0/24
    │   └── 子网 192.168.2.0/24
    └── 租户 B 网络(VNI: 1002)
        └── 子网 10.0.0.0/24

SDN 控制器集成

H3C CloudOS 深度集成 H3C SDN 控制器(iMC/IMC):

CloudOS Neutron
    ↓ REST API
H3C SDN 控制器
    ↓ OpenFlow/NETCONF
H3C 物理交换机(S6800/S12500 等)

优势:物理网络与虚拟网络统一管理,支持硬件 VTEP,性能更优。

高可用架构

控制面 HA

                    VIP(虚拟 IP)
                   /              \
        管理节点1(Active)    管理节点2(Standby)
              |                      |
        管理节点3(Standby)
              |
        MySQL Galera 集群(3节点同步复制)

计算面 HA

虚拟机高可用通过以下机制保障:

  1. 主机故障自动迁移(Auto Evacuation):计算节点宕机时,VM 自动迁移到其他节点
  2. 热迁移(Live Migration):不停机迁移 VM,用于主机维护
  3. 冷迁移(Cold Migration):停机迁移,用于跨存储迁移

存储 HA

Ceph 集群(推荐 3 副本)
├── OSD 节点1(数据副本1)
├── OSD 节点2(数据副本2)
└── OSD 节点3(数据副本3)

副本策略:
- 默认 3 副本,允许 1 个 OSD 故障
- 纠删码(EC):节省空间,适合冷数据

部署规模参考

小型私有云(PoC/测试)

最小配置:
- 管理节点:1 台(非 HA)
- 计算节点:2 台
- 存储:本地存储或小型 Ceph(3 节点)
- 总服务器:5-6 台

中型私有云(生产)

标准配置:
- 管理节点:3 台(HA)
- 计算节点:10-20 台
- 存储节点:6-9 台(Ceph)
- 网络节点:2 台(HA)
- 总服务器:20-35 台

大型私有云

大规模配置:
- 管理节点:3 台(HA)
- 计算节点:50-200 台
- 存储节点:20-50 台
- 网络节点:4 台(HA)
- 可选:独立监控节点、日志节点

关键性能指标

指标参考值
VM 创建时间< 30 秒(本地镜像)
VM 热迁移时间< 5 分钟(32GB 内存 VM)
API 响应时间< 500ms(P99)
最大租户数10,000+(单集群)
最大 VM 数100,000+(单集群)
控制面 RTO< 5 分钟(管理节点故障切换)

褚成志的云与计算笔记