Production debugging - Codex / Claude Code Skill

Diagnostica incidentes de producción live usando triage de logs, correlación de spikes de métricas, filtering de ventana de deployment y pasos de reproducción seguros sin causar mayor disrupción. Production debugging aplica principios de depuración sistemática en un entorno live donde el costo de acciones wrongas es alto y la habilidad de reproducir el issue es limitada.

Categoría debugging

Plataforma Codex / Claude Code

Fecha de publicación 2026-04-25

debuggingproductionincident-response

Casos de uso

Un servicio de repente retornando errores 5xx para un porcentaje de requests con ningún deploy de código en la última hora
Fuga de memoria sospechada donde el uso de heap crece gradualmente sobre días hasta que el servicio restart o degrada
Latency spike en producción donde la latencia p99 se duplicó para un endpoint específico sin causa obvia
Un fallo intermitente que ocurre durante tráfico peak pero no durante off-peak, sugiriendo un issue de resource contention
Una degradación de dependencia de terceros causando fallos en cascada en tu servicio cuando tu proveedor upstream está lento o retornando errores

Funciones principales

Check dashboards de tasa de error y latencia para el servicio afectado, identificando la ventana del spike y qué endpoints u operaciones están degradadas
Filtra logs por servicio, severidad y ventana de tiempo, buscando patrones de excepción, tipos de error inusuales o mensajes que solo aparecen durante la ventana del incidente
Correlaciona el incidente con deployments recientes: verifica qué versión está corriendo, si hubo un deploy en las últimas horas y cómo se veían las métricas base antes del deploy
Check salud de servicios upstream y downstream: fallos upstream a menudo hacen cascade downstream y un latency spike en una dependencia puede manifestarse como un error en tu servicio
Identifica una reproducción mínima: una sola request de curl o script pequeño que reproduce el fallo sin side effects, permitiéndote verificar el fix antes de desplegar
Abre una rama de fix nunca en producción, aplica el fix mínimo, verifica que la reproducción ya no se activa, luego sigue el proceso estándar de deployment con monitoreo de canary
Confirma que las métricas vuelven a la línea base después del deployment antes de marcar el incidente resuelto y archivar el reporte de investigación de seguimiento

Relacionados

3 Entradas indexadas

Structured logging

Operaciones

Define un conjunto consistente de campos de log: request ID, user ID, feature flag, latency bucket, error code para que debugging de producción no dependa de grep a través de strings inconsistentes estilo printf. Structured JSON o key=value logging habilita dashboards, alerts y herramientas de agregación de logs para parsear y consultar logs programáticamente en lugar de a través de búsqueda manual de texto.

Incident response

Operaciones

Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.

Observability baselines

Operaciones

Establece golden signals (latencia, tráfico, errores, saturación), ventanas de SLO y checks de dashboard antes de que los agentes automaticen deployments para que 'healthy' y 'degraded' tengan definiciones medibles en lugar de interpretaciones subjetivas. Esto es esencial cuando agentes de IA están manageando deploys porque los agentes necesitan métricas objetivas para tomar decisiones, no gut feelings de humanos.