Skill Entry

事故复盘触发与根因分布(附录 C)

依据 Google SRE Workbook「附录 C - Results of Postmortem Analysis」,说明为何需在组织内统一事故的「触发维度」与「根因类目」两组标签:附录基于大量历史复盘样本列出常见 outage 触发因素占比——如二进制推送约 37%、配置推送约 31%,以及用户行为、管线、提供商变更、性能衰退、容量、硬件等分项;并就根因给出软件缺陷约 41.35%、研发流程失效约 20.23%、复杂系统行为约 16.90%、部署计划约 6.74%、网络故障约 2.75%等分布(均为附录所述统计区间内的汇总)。落地时应沿用其分类颗粒度并结合自身事故库重算权重,而非照搬数字。

分类 运营
平台 Google SRE Workbook / Codex
发布时间 2026-05-15
postmortemreliabilityincidents

使用场景

  • 准备在数据仓库中为事故标签建表前的口径对齐
  • 季度可靠性会向管理层汇报「我们 vs 教科书参考分布」的差异
  • 复盘评审会上强制区分触发事件与系统性根因
  • 为新 SRE/on-call 培训课程提供教材级引用
  • 评估预防性工程预算是否对齐高频根因而非单一事故热度

主要功能

  • 复制附录定义的触发类别到内部术语表并与监控事件对齐映射
  • 为每条复盘记录补充「触发」标签与「根因主题」两套字段
  • 用至少一个季度的本地样本绘制直方图,再与附录参考形状对比讲故事
  • 对占比异常的象限立项(例如硬件触发异常升高)
  • 在度量看板脚注标注附录统计的时间窗与公司范围免责
  • 复查整改 backlog 是否与目标根因象限相关联

相关推荐

相关推荐

3 收录条目