Skill Entry

生产故障应急响应

从检测到解决的生产故障处理结构化流程——涵盖严重性评估、团队协调、沟通模板和事后分析要求。

分类 运营
平台 Codex / Claude Code
发布时间 2026-04-29
incidentoperationson-call

使用场景

  • 生产服务不可用
  • 部分用户受影响的局部中断
  • 触发告警的性能下降

主要功能

  • 评估严重性:P0(全面停机)、P1(主要功能故障)、P2(体验降级)、P3(轻微问题)
  • 在 #incidents 频道声明故障,说明严重性、影响范围和你的姓名(事故指挥官)
  • 组建响应团队:受影响服务的值班工程师、负责利益相关方更新的沟通负责人
  • 立即缓解:回滚最近部署、禁用功能开关或激活熔断——优先恢复服务而非寻找根本原因
  • 在声明故障后 15 分钟内通过状态页面通知受影响用户
  • 同时进行根因调查和监控——使用仪表板和日志,而非推测
  • 服务恢复后更新状态页面,并在 48 小时内召开事后分析会
  • 撰写事后分析:时间线、根因、促成因素,以及带负责人和截止日期的行动项

相关推荐

相关推荐

3 收录条目