Postmortem trigger and root-cause taxonomy - Google SRE Workbook / Codex Skill

Resume el Apéndice C del workbook SRE (“Results of Postmortem Analysis”): explica cómo Google estandariza postmortems para relacionar disparadores observables versus categorías de causa raíz, priorizando arreglos sistémicos. El apéndice cita estadística histórica 2010–2017 donde empujes binarios (~37 %) y configuración (~31 %) encabezan triggers, más fracciones menores comportamiento usuarios (~9 %), pipelines (~6 %), cambios proveedor (~5 %), degradación (~5 %), capacidad (~5 %) y hardware (~2 %). Otra tabla liga causa raíz: fallos software (~41 %), proceso desarrollo (~20 %), comportamientos complejos (~17 %), planificación despliegue (~7 %), red (~3 %). Úsalas como benchmark heurístico, no SLA.

Categoría Operaciones

Plataforma Google SRE Workbook / Codex

Fecha de publicación 2026-05-15

postmortemreliabilityincidents

Casos de uso

Revisiones trimestrales necesitan enfocarse en distribuciones, no urgencias coyunturales
Diseñar taxonomías de etiquetas separando disparador versus causa raíz
Capacitar nuevos SRE sobre plantillas estándar
Equipos capacidad requieren justificar programas previos estadísticos
Stakeholders seguridad/buscan comparación cualitativa con agregados de referencia

Funciones principales

Importar taxonomías al glosario
Exigir ambas dimensiones en cada retro
Comparar mix local vs histograma ilustrativo sin confundirlo con meta
Detectar sesgos (p.ej. hardware alto) y planificar intervención
Anclar narrativas cualitativas con contexto de origen de los porcentajes
Seguir si las acciones reducen la categoría objetivo en trimestres siguientes

Relacionados

3 Entradas indexadas

Example SLO document authoring

Operaciones

Operacionaliza el Apéndice A del libro de trabajo de Google SRE reinterpretando la carpeta ficticia del “Example Game Service” como checklist ejecutable: redactar el trabajo visible para usuarios; fijar ventanas móviles (ej. cuatro semanas); emparejar subsistemas con SLIs bien definidas (disponibilidad excluyendo 5xx, latencias con cortes ms, freshness de tablas derivadas, corrección vía probes, cobertura de pipelines); exponer texto num/denom; fundamentar redondeos; derivar presupuestos de error objetivo‑a‑objetivo y enlazar la política de presupuesto de errores correlativa.

Postmortem writing

Operaciones

Captura la línea de tiempo completa del incidente, blast radius, factores contribuyentes y acciones de seguimiento concretas después de incidentes de producción para que los equipos construyan memoria institucional en lugar de repetir las mismas sorpresas. Un postmortem bien escrito separa causa raíz de triggers, evita culpa y produce action items rastreados que previenen recurrencia.

Error budget policy drafting

Operaciones

Adapta el ejemplo de política de presupuesto de errores del workbook de Google en una guía repetible para ligar el ritmo de releases a la fiabilidad medida: define objetivos (proteger a usuarios de fallos repetidos de SLO preservando incentivos de innovación), detalla qué ocurre cuando la ventana móvil agota el presupuesto (congelar cambios salvo defectos urgentes o trabajo de seguridad), codifica umbrales de investigación por outage y documenta escalamiento cuando hay desacuerdo sobre el cálculo del presupuesto.