依据 Google SRE Workbook「附录 C - Results of Postmortem Analysis」,说明为何需在组织内统一事故的「触发维度」与「根因类目」两组标签:附录基于大量历史复盘样本列出常见 outage 触发因素占比——如二进制推送约 37%、配置推送约 31%,以及用户行为、管线、提供商变更、性能衰退、容量、硬件等分项;并就根因给出软件缺陷约 41.35%、研发流程失效约 20.23%、复杂系统行为约 16.90%、部署计划约 6.74%、网络故障约 2.75%等分布(均为附录所述统计区间内的汇总)。落地时应沿用其分类颗粒度并结合自身事故库重算权重,而非照搬数字。
使用场景
- 准备在数据仓库中为事故标签建表前的口径对齐
- 季度可靠性会向管理层汇报「我们 vs 教科书参考分布」的差异
- 复盘评审会上强制区分触发事件与系统性根因
- 为新 SRE/on-call 培训课程提供教材级引用
- 评估预防性工程预算是否对齐高频根因而非单一事故热度
主要功能
- 复制附录定义的触发类别到内部术语表并与监控事件对齐映射
- 为每条复盘记录补充「触发」标签与「根因主题」两套字段
- 用至少一个季度的本地样本绘制直方图,再与附录参考形状对比讲故事
- 对占比异常的象限立项(例如硬件触发异常升高)
- 在度量看板脚注标注附录统计的时间窗与公司范围免责
- 复查整改 backlog 是否与目标根因象限相关联
相关推荐
相关推荐
3 收录条目
示例 SLO 文档起草
依据 Google SRE Workbook 附录《Example SLO Document》,把示范性「游戏服务 API / HTTP / 分数管道」的写法抽象为可落地的文档模板:先写清用户旅程与数据来源,再选定滚动观测窗口(示例为四周),为每一条 SLI(可用性剔除 5xx、延迟阈值、读取新鲜度、探针正确性、批任务完整性等)写清分子与分母的统计口径并给出目标百分比,解释目标选取与取整惯例,分项计算误差预算并与《示例错误预算策略》联动,最后用 clarifications/caveats 记录 ELB/SYN 探测等盲点。套用模板时需替换为你们自己的业务指标与数据来源。
事故复盘写作
在故障后沉淀时间线、影响面、促成因素与可跟踪的后续项,让团队从事故里学习,而不是重复同一种意外。
错误预算策略起草
依据 Google SRE Workbook 附录示例,把错误预算写成可执行的治理文档:界定目标与非目标、滚动窗口内的冻结与放行规则、事故占用预算阈值对应的复盘与整改要求,以及预算口径争议时的升级路径,便于产品与研发对「可靠性 vs 迭代速度」达成共识。