Skip to content

售后运维体系概览

H3C 售后服务体系

H3C 售后服务层次:

一线支持(TAC - Technical Assistance Center)
    ├── 7×24 小时电话/在线支持
    ├── 远程故障诊断
    └── 知识库查询

二线支持(高级技术支持)
    ├── 复杂问题升级处理
    ├── 现场工程师派遣
    └── 产品 Bug 修复协调

三线支持(研发支持)
    ├── 产品 Bug 修复
    ├── 特殊需求开发
    └── 技术白皮书

增值服务:
    ├── 驻场服务(专属工程师)
    ├── 巡检服务(定期健康检查)
    └── 容量规划咨询

服务级别协议(SLA)

标准 SLA

H3C 标准维保服务 SLA:

响应时间:
  P1(严重故障,业务中断):
    电话响应:15 分钟内
    远程支持:1 小时内
    现场到达:4 小时内(省会城市)/ 8 小时内(其他城市)

  P2(重要故障,业务降级):
    电话响应:30 分钟内
    远程支持:2 小时内
    现场到达:8 小时内

  P3(一般故障,有临时解决方案):
    电话响应:2 小时内
    远程支持:4 小时内
    现场到达:次日

  P4(咨询/优化建议):
    响应:2 个工作日内

服务时间:
  标准版:5×8(工作日 9:00-18:00)
  增强版:7×24(全年无休)

故障级别定义

P1(Critical)- 严重故障:
  - 生产系统完全不可用
  - 数据丢失风险
  - 影响所有用户
  示例:CloudOS 管理平台宕机、存储系统故障

P2(High)- 重要故障:
  - 核心功能不可用
  - 影响大量用户
  - 有临时解决方案但不可持续
  示例:部分计算节点故障、网络性能严重下降

P3(Medium)- 一般故障:
  - 非核心功能异常
  - 影响少量用户
  - 有可接受的临时解决方案
  示例:监控告警误报、个别 VM 无法迁移

P4(Low)- 低级别:
  - 功能优化建议
  - 文档问题
  - 非紧急咨询

故障处理流程

标准故障处理流程

故障发生

用户发现并上报(电话/工单/监控告警)

TAC 工程师接单(记录工单,分配优先级)

初步诊断(远程)
    ├── 已知问题 → 提供解决方案
    └── 未知问题 → 深入分析

问题定位
    ├── 配置问题 → 远程修复
    ├── 软件 Bug → 提供补丁/临时方案
    └── 硬件故障 → 派遣现场工程师 + 备件

问题解决

验证确认(客户确认业务恢复)

根因分析(RCA)

工单关闭 + 知识库更新

工单管理

python
# 工单系统 API 示例(H3C 内部系统)
import requests
from datetime import datetime

class TicketSystem:
    def __init__(self, base_url, api_key):
        self.base_url = base_url
        self.headers = {"Authorization": f"Bearer {api_key}"}
    
    def create_ticket(self, title, description, priority, customer_id):
        """创建故障工单"""
        ticket = {
            "title": title,
            "description": description,
            "priority": priority,  # P1/P2/P3/P4
            "customer_id": customer_id,
            "created_at": datetime.now().isoformat(),
            "status": "open"
        }
        response = requests.post(
            f"{self.base_url}/api/tickets",
            json=ticket,
            headers=self.headers
        )
        return response.json()["ticket_id"]
    
    def update_ticket(self, ticket_id, status, notes):
        """更新工单状态"""
        requests.patch(
            f"{self.base_url}/api/tickets/{ticket_id}",
            json={"status": status, "notes": notes},
            headers=self.headers
        )
    
    def close_ticket(self, ticket_id, resolution, rca=None):
        """关闭工单"""
        requests.patch(
            f"{self.base_url}/api/tickets/{ticket_id}",
            json={
                "status": "closed",
                "resolution": resolution,
                "root_cause": rca,
                "closed_at": datetime.now().isoformat()
            },
            headers=self.headers
        )

运维监控体系

监控架构

H3C 运维监控平台:

数据采集层:
  ├── 服务器监控(IPMI/Redfish)
  ├── 虚拟化监控(CloudOS API)
  ├── 存储监控(存储 REST API)
  ├── 网络监控(SNMP/NetFlow)
  └── 应用监控(Prometheus/Zabbix)

数据处理层:
  ├── 时序数据库(InfluxDB/Prometheus)
  └── 日志系统(Elasticsearch)

展示层:
  ├── 监控大屏(Grafana)
  └── 告警通知(邮件/短信/企业微信)

关键监控指标

服务器监控:
  CPU 利用率(告警阈值:> 85%,持续 5 分钟)
  内存利用率(告警阈值:> 90%)
  磁盘使用率(告警阈值:> 85%)
  磁盘 I/O 延迟(告警阈值:> 50ms)
  网络带宽利用率(告警阈值:> 80%)
  温度(告警阈值:> 80°C)

CloudOS 监控:
  管理节点可用性(告警:不可用)
  计算节点状态(告警:节点 down)
  VM 创建成功率(告警:< 95%)
  API 响应时间(告警:> 2 秒)

Ceph 存储监控:
  集群健康状态(告警:HEALTH_WARN/ERR)
  OSD 状态(告警:OSD down)
  存储使用率(告警:> 80%)
  IOPS/带宽(趋势分析)
  PG 状态(告警:非 active+clean)

巡检服务

月度巡检清单

月度巡检报告内容:

一、硬件健康状态
  □ 服务器硬件告警(HDM 事件日志)
  □ 磁盘健康状态(SMART 数据)
  □ 内存错误统计
  □ 风扇/电源状态

二、软件运行状态
  □ CloudOS 版本及补丁状态
  □ 服务进程健康检查
  □ 日志错误分析

三、资源使用情况
  □ CPU/内存/存储使用率趋势
  □ 容量预测(预计何时达到 80%)
  □ 性能趋势分析

四、安全状态
  □ 账号权限审计
  □ 安全补丁状态
  □ 异常登录检查

五、备份状态
  □ 备份任务执行情况
  □ 备份数据完整性验证
  □ 恢复测试(季度执行)

六、建议与优化
  □ 资源优化建议
  □ 配置优化建议
  □ 升级建议

褚成志的云与计算笔记