依据 Google SRE Workbook 附录示例,把错误预算写成可执行的治理文档:界定目标与非目标、滚动窗口内的冻结与放行规则、事故占用预算阈值对应的复盘与整改要求,以及预算口径争议时的升级路径,便于产品与研发对「可靠性 vs 迭代速度」达成共识。
使用场景
- 制定公司级可靠性制度需要把「何时停发」写清楚
- 事故复盘暴露大家对冻结触发条件理解不一致
- 跨团队共享 SLO 时需要统一的预算消耗与例外条款
- 外部依赖故障是否计入本方预算存在争议
- 监控分类错误导致预算失真需要仲裁流程
主要功能
- 写明适用范围与服务边界
- 列出目标(降低重复伤害用户)与非目标(不以惩罚为目的)
- 约定观测窗口长度并把冻结条件绑定到书面 SLO
- 写明允许的紧急变更类别(最高优先级缺陷、安全补丁等)
- 写入单次事故占用预算阈值及复盘产出要求(对齐附录示例阈值思路)
- 指定争议升级负责人或委员会并完成评审签发
相关推荐
相关推荐
3 收录条目
示例 SLO 文档起草
依据 Google SRE Workbook 附录《Example SLO Document》,把示范性「游戏服务 API / HTTP / 分数管道」的写法抽象为可落地的文档模板:先写清用户旅程与数据来源,再选定滚动观测窗口(示例为四周),为每一条 SLI(可用性剔除 5xx、延迟阈值、读取新鲜度、探针正确性、批任务完整性等)写清分子与分母的统计口径并给出目标百分比,解释目标选取与取整惯例,分项计算误差预算并与《示例错误预算策略》联动,最后用 clarifications/caveats 记录 ELB/SYN 探测等盲点。套用模板时需替换为你们自己的业务指标与数据来源。
AI 经济收益分配就绪度核查
将 AI 驱动财富与劳资关系整理为规划清单:记录 AI 增益是否转化为员工/公众收益、评估芯片股集中度风险、为 physical-AI 自动化前的劳资对话做准备;引用 CNBC 韩国副总理与三星罢工等公开报道作背景。
Agentic 编码供应商就绪度核查
在标准化 AI 编码栈前核查:SCM 状态页 incident、主备 Agent(Copilot/Cursor/Claude Code 等)、Braintrust 等 tracing 基线,以及托管与 Agent API 双故障演练;引用公开计费与 outage 报道。