告警管理 / 处理预案库
💡 Runbook Tier 设计(参考 Grafana IRM 最佳实践):Tier 1 = 已知故障+固定步骤可自动化;Tier 2 = 需要判断但有诊断路径;Tier 3 = 高级工程师介入,深度根因分析。
| 预案 ID |
名称 |
分类 |
Tier |
自动化步骤 |
关联告警 |
近 30d 使用次数 |
操作 |
预案样例:RB-001 Kafka Broker 异常恢复
触发条件:告警网关识别到 kafka-broker-* 进程退出 / kafka 连接异常类告警
处置步骤:
-
立即
1. 检查 Broker 主机进程状态
systemctl status kafka
-
立即
2. 流量切换:把异常 broker 的 topic leader 迁移到健康 broker
-
尽快
3. 重启 Broker 进程
-
尽快
4. 验证 Broker 重新加入集群,副本同步完成
-
稍后
5. 分析进程退出根因(dmesg, kafka 日志)
-
稍后
6. 若反复发生,发起硬件检查工单
⚠ 政企审计:步骤 2、3 涉及生产环境写操作,触发后会生成审计记录(操作人/时间/before-after),高风险时段需要二级审批。
预案元信息
| 预案 ID | RB-001 |
| Tier | Tier 1 |
| 分类 | 中间件 |
| 创建 | 赵明 2025-12-03 |
| 最近修订 | 2026-04-22 |
| 使用次数 | 近 30d × 6 |
| 平均处置耗时 | 12 分钟 |
| 成功率 | 100% |
关联告警规则
• kafka 运行状态异常
• kafka 连接异常
• kafka topic 未消费条数超限