告警管理
/
告警中心
/
事件 #E20260521-001
Kafka Broker-2 异常引发录制 / 数据统计降级
🔴 紧急
事件 #E20260521-001 · 10:23 触发 · 持续 1h12m · 影响 录制点播 / 大数据统计
屏蔽
分享
查看处理预案
影响摘要
业务影响
录制成功率 -7%
数据统计延迟 8s
影响范围
21 个录制任务失败
12 个服务受波及
合并告警
32 条原始告警
收敛率 96.9%
根因传播路径(自动推理)
基于服务拓扑 + 时间相关性 + 错误传播规则
●
kafka-broker-2 进程退出
@ 10:23:14 / 主机 core-db-002
↳
vodmanager kafka 消费失败
×8 @ 10:25 起
└
vodmanager 录制文件入库异常
@ 10:26
↳
dcs kafka 连接异常
×5 @ 10:26 起
↳
des kafka 连接异常
×4 @ 10:27 起
↳
access kafka 消息发送失败
×3 @ 10:30 起
↳
spark 任务消费延迟
@ 10:35
💡
推理逻辑
:12 个告警在 10:23–10:35 时间窗内集中爆发;其中 7 个标签包含 kafka 或 broker-2; 根因规则:kafka-broker-2 (基础设施) → vodmanager / dcs / des / access (消费者) → 业务降级。 优先处置最上游节点。
影响范围(业务侧)
影响维度
数量
详情
失败录制任务
21
10:25–现在
受影响部门
4
财务部 / 法务部 / 总裁办 / 销售部
受影响终端
21
主要分布在 02 / 03 区域
受波及服务
12
详见根因路径
处置预案 — RB-001 Kafka Broker 异常恢复
立即
步骤 1.
登录主机 core-db-002,
systemctl status kafka
查看命令
立即
步骤 2.
切流:broker-2 上的 topic leader 迁移到 broker-1/3
一键执行
尽快
步骤 3.
重启 broker-2 进程
一键执行
尽快
步骤 4.
验证 broker-2 重新加入集群,副本同步完成
查看检查项
稍后
步骤 5.
分析进程退出原因(dmesg + kafka 日志)
查看日志
⚠
政企审计
:所有"一键执行"操作会生成审计记录(操作人/时间/before-after),高风险操作需二级审批。
事件时间线
10:23:14
告警触发:kafka-broker-2 进程退出
原始告警 #A8923
10:25–10:35
下游告警传播
12 个服务陆续触发 32 条告警,自动合并为 1 个根因事件
10:23:25
通知发出
已发送至预设通道:钉钉运维群 / 短信
当前
待处置
建议按预案 RB-001 步骤 1-3 处置
历史相似事件
事件 #E20260318-007
3 月 18 日 · 类似根因 · 处理 38 分钟
事件 #E20260104-021
1 月 04 日 · 类似根因 · 处理 1h22m
关联实体
▸ 主机 core-db-002
▸ 服务 vodmanager
▸ 接口 recording/upload
▸ 业务能力 录制点播
▸ 涉事拓扑
▸ 处理预案 RB-001