事故复盘触发与根因分布（附录 C）

依据 Google SRE Workbook「附录 C - Results of Postmortem Analysis」，说明为何需在组织内统一事故的「触发维度」与「根因类目」两组标签：附录基于大量历史复盘样本列出常见 outage 触发因素占比——如二进制推送约 37%、配置推送约 31%，以及用户行为、管线、提供商变更、性能衰退、容量、硬件等分项；并就根因给出软件缺陷约 41.35%、研发流程失效约 20.23%、复杂系统行为约 16.90%、部署计划约 6.74%、网络故障约 2.75%等分布（均为附录所述统计区间内的汇总）。落地时应沿用其分类颗粒度并结合自身事故库重算权重，而非照搬数字。

分类运营

平台 Google SRE Workbook / Codex

发布时间 2026-05-15

postmortemreliabilityincidents

使用场景

准备在数据仓库中为事故标签建表前的口径对齐
季度可靠性会向管理层汇报「我们 vs 教科书参考分布」的差异
复盘评审会上强制区分触发事件与系统性根因
为新 SRE/on-call 培训课程提供教材级引用
评估预防性工程预算是否对齐高频根因而非单一事故热度

主要功能

复制附录定义的触发类别到内部术语表并与监控事件对齐映射
为每条复盘记录补充「触发」标签与「根因主题」两套字段
用至少一个季度的本地样本绘制直方图，再与附录参考形状对比讲故事
对占比异常的象限立项（例如硬件触发异常升高）
在度量看板脚注标注附录统计的时间窗与公司范围免责
复查整改 backlog 是否与目标根因象限相关联

示例 SLO 文档起草

运营

依据 Google SRE Workbook 附录《Example SLO Document》，把示范性「游戏服务 API / HTTP / 分数管道」的写法抽象为可落地的文档模板：先写清用户旅程与数据来源，再选定滚动观测窗口（示例为四周），为每一条 SLI（可用性剔除 5xx、延迟阈值、读取新鲜度、探针正确性、批任务完整性等）写清分子与分母的统计口径并给出目标百分比，解释目标选取与取整惯例，分项计算误差预算并与《示例错误预算策略》联动，最后用 clarifications/caveats 记录 ELB/SYN 探测等盲点。套用模板时需替换为你们自己的业务指标与数据来源。

事故复盘写作

运营

在故障后沉淀时间线、影响面、促成因素与可跟踪的后续项，让团队从事故里学习，而不是重复同一种意外。

错误预算策略起草

运营

依据 Google SRE Workbook 附录示例，把错误预算写成可执行的治理文档：界定目标与非目标、滚动窗口内的冻结与放行规则、事故占用预算阈值对应的复盘与整改要求，以及预算口径争议时的升级路径，便于产品与研发对「可靠性 vs 迭代速度」达成共识。

使用场景

主要功能

相关推荐

示例 SLO 文档起草

事故复盘写作

错误预算策略起草