I

Skill Entry

Incident response

Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.

Categoría Operaciones
Plataforma Codex / Claude Code
Fecha de publicación 2026-04-29
incidentoperationson-call

Casos de uso

  • Un servicio de producción está completamente caído y los usuarios no pueden acceder a la funcionalidad core
  • Un outage parcial afectando un subconjunto de usuarios, como una región específica o tier de usuario
  • Degradación de rendimiento que dispara alerts automáticas pero aún no es un outage completo
  • Un issue de integridad de datos donde datos incorrectos se están mostrando a los usuarios
  • Un incidente de seguridad donde acceso no autorizado es sospechado o confirmado

Funciones principales

  • Evalúa la severidad y asigna un grado: P0 para outage completo, P1 para funcionalidad major rota, P2 para experiencia degradada, P3 para issue menor con workarounds disponibles
  • Declara el incidente en el canal designado con severidad, descripción de impacto y tu nombre como incident commander, luego ensambla el equipo de respuesta
  • Comienza mitigación inmediatamente: rollback del último deployment, deshabilita un feature flag o activa un circuit breaker para restaurar servicio antes de investigar causa raíz
  • Comunica el status a usuarios afectados vía la página de status dentro de los 15 minutos de la declaración y proporciona actualizaciones a intervalos regulares hasta resolución
  • Investiga la causa raíz en paralelo con monitoreo, usando dashboards y logs estructurados en lugar de especulación sobre qué podría haber cambiado
  • Cuando el servicio es restaurado, actualiza la página de status inmediatamente y programa una reunión de post-mortem dentro de 48 horas con todas las partes involucradas
  • Escribe el documento de post-mortem cubriendo la línea de tiempo completa, análisis de causa raíz, factores contribuyentes y action items concretos con owners y deadlines

Relacionados

Relacionados

3 Entradas indexadas