在故障后沉淀时间线、影响面、促成因素与可跟踪的后续项,让团队从事故里学习,而不是重复同一种意外。
使用场景
- 面向用户的故障
- 数据类事故
- 重复出现的回归
主要功能
- 先冻结事实与时间戳
- 区分根因与触发条件
- 把补救项落成可跟踪任务与负责人
相关推荐
相关推荐
3 收录条目
事故复盘触发与根因分布(附录 C)
依据 Google SRE Workbook「附录 C - Results of Postmortem Analysis」,说明为何需在组织内统一事故的「触发维度」与「根因类目」两组标签:附录基于大量历史复盘样本列出常见 outage 触发因素占比——如二进制推送约 37%、配置推送约 31%,以及用户行为、管线、提供商变更、性能衰退、容量、硬件等分项;并就根因给出软件缺陷约 41.35%、研发流程失效约 20.23%、复杂系统行为约 16.90%、部署计划约 6.74%、网络故障约 2.75%等分布(均为附录所述统计区间内的汇总)。落地时应沿用其分类颗粒度并结合自身事故库重算权重,而非照搬数字。
金丝雀发布
先把一小部分流量打到新构建,看错误预算与延迟,再扩面或回滚;Agent 动发布链路时,意外也更可控。
Agentic 编码供应商就绪度核查
在标准化 AI 编码栈前核查:SCM 状态页 incident、主备 Agent(Copilot/Cursor/Claude Code 等)、Braintrust 等 tracing 基线,以及托管与 Agent API 双故障演练;引用公开计费与 outage 报道。