影响摘要

业务影响
录制成功率 -7%
数据统计延迟 8s
影响范围
21 个录制任务失败
12 个服务受波及
合并告警
32 条原始告警
收敛率 96.9%

根因传播路径(自动推理)

基于服务拓扑 + 时间相关性 + 错误传播规则
kafka-broker-2 进程退出 @ 10:23:14 / 主机 core-db-002
vodmanager kafka 消费失败 ×8 @ 10:25 起
 └ vodmanager 录制文件入库异常 @ 10:26
dcs kafka 连接异常 ×5 @ 10:26 起
des kafka 连接异常 ×4 @ 10:27 起
access kafka 消息发送失败 ×3 @ 10:30 起
spark 任务消费延迟 @ 10:35

影响范围(业务侧)

影响维度数量详情
失败录制任务2110:25–现在
受影响部门4财务部 / 法务部 / 总裁办 / 销售部
受影响终端21主要分布在 02 / 03 区域
受波及服务12详见根因路径

处置预案 — RB-001 Kafka Broker 异常恢复

  • 立即 步骤 1. 登录主机 core-db-002,systemctl status kafka
  • 立即 步骤 2. 切流:broker-2 上的 topic leader 迁移到 broker-1/3
  • 尽快 步骤 3. 重启 broker-2 进程
  • 尽快 步骤 4. 验证 broker-2 重新加入集群,副本同步完成
  • 稍后 步骤 5. 分析进程退出原因(dmesg + kafka 日志)

事件时间线

10:23:14
告警触发:kafka-broker-2 进程退出
原始告警 #A8923
10:25–10:35
下游告警传播
12 个服务陆续触发 32 条告警,自动合并为 1 个根因事件
10:23:25
通知发出
已发送至预设通道:钉钉运维群 / 短信
当前
待处置
建议按预案 RB-001 步骤 1-3 处置

历史相似事件

事件 #E20260318-007
3 月 18 日 · 类似根因 · 处理 38 分钟
事件 #E20260104-021
1 月 04 日 · 类似根因 · 处理 1h22m