P

Skill Entry

Postmortem writing

Captura la línea de tiempo completa del incidente, blast radius, factores contribuyentes y acciones de seguimiento concretas después de incidentes de producción para que los equipos construyan memoria institucional en lugar de repetir las mismas sorpresas. Un postmortem bien escrito separa causa raíz de triggers, evita culpa y produce action items rastreados que previenen recurrencia.

Categoría Operaciones
Plataforma Codex / Claude Code
Fecha de publicación 2026-04-16
incidentsreliabilitylearning

Casos de uso

  • Un outage facing customer que duró más de 30 minutos y afectó un porcentaje medible de usuarios
  • Un incidente de integridad de datos donde datos incorrectos fueron servidos o almacenados, incluso si el error fue rápidamente corregido
  • Un incidente repetido donde el mismo modo de fallo occurred dentro de 90 días de un postmortem anterior
  • Un near-miss donde un fallo fue atrapado por automatización antes de que se volviera visible para el usuario pero el riesgo era significativo
  • Un incidente triggered por un cambio que pasó todos los CI checks y fue aprobado por un ingeniero senior, revelando una brecha en el proceso de revisión

Funciones principales

  • Congela la línea de tiempo factual tan pronto como el incidente se resuelve mientras las memorias están frescas: captura cuándo la alert sonó, cuándo el ingeniero se engageó, cuándo comenzó la mitigación y cuándo se restauró el servicio
  • Separa causa raíz (el flaw sistémico subyacente que permitió queoccurriera el incidente) de triggers (el evento inmediato que inició la cascade): resiste conflactar los dos
  • Identifica factores contribuyentes: gaps de proceso, automatización faltante, propiedad poco clara o fallos de tooling que hicieron el incidente peor o más difícil de detectar
  • Archiva remediaciones específicas y rastreadas con owners nombrados y deadlines: no sugerencias vagas como 'mejorar monitoreo' sino acciones concretas como 'añadir alert en latencia p99 > 2s para /api/checkout'
  • Revisa el postmortem en una reunión sin culpa con todas las partes involucradas, actualízalo basado en discusión y publícalo al equipo dentro de 48 horas del incidente

Relacionados

Relacionados

3 Entradas indexadas