Resume el Apéndice C del workbook SRE (“Results of Postmortem Analysis”): explica cómo Google estandariza postmortems para relacionar disparadores observables versus categorías de causa raíz, priorizando arreglos sistémicos. El apéndice cita estadística histórica 2010–2017 donde empujes binarios (~37 %) y configuración (~31 %) encabezan triggers, más fracciones menores comportamiento usuarios (~9 %), pipelines (~6 %), cambios proveedor (~5 %), degradación (~5 %), capacidad (~5 %) y hardware (~2 %). Otra tabla liga causa raíz: fallos software (~41 %), proceso desarrollo (~20 %), comportamientos complejos (~17 %), planificación despliegue (~7 %), red (~3 %). Úsalas como benchmark heurístico, no SLA.
Casos de uso
- Revisiones trimestrales necesitan enfocarse en distribuciones, no urgencias coyunturales
- Diseñar taxonomías de etiquetas separando disparador versus causa raíz
- Capacitar nuevos SRE sobre plantillas estándar
- Equipos capacidad requieren justificar programas previos estadísticos
- Stakeholders seguridad/buscan comparación cualitativa con agregados de referencia
Funciones principales
- Importar taxonomías al glosario
- Exigir ambas dimensiones en cada retro
- Comparar mix local vs histograma ilustrativo sin confundirlo con meta
- Detectar sesgos (p.ej. hardware alto) y planificar intervención
- Anclar narrativas cualitativas con contexto de origen de los porcentajes
- Seguir si las acciones reducen la categoría objetivo en trimestres siguientes
Relacionados
Relacionados
3 Entradas indexadas
Example SLO document authoring
Operacionaliza el Apéndice A del libro de trabajo de Google SRE reinterpretando la carpeta ficticia del “Example Game Service” como checklist ejecutable: redactar el trabajo visible para usuarios; fijar ventanas móviles (ej. cuatro semanas); emparejar subsistemas con SLIs bien definidas (disponibilidad excluyendo 5xx, latencias con cortes ms, freshness de tablas derivadas, corrección vía probes, cobertura de pipelines); exponer texto num/denom; fundamentar redondeos; derivar presupuestos de error objetivo‑a‑objetivo y enlazar la política de presupuesto de errores correlativa.
Postmortem writing
Captura la línea de tiempo completa del incidente, blast radius, factores contribuyentes y acciones de seguimiento concretas después de incidentes de producción para que los equipos construyan memoria institucional en lugar de repetir las mismas sorpresas. Un postmortem bien escrito separa causa raíz de triggers, evita culpa y produce action items rastreados que previenen recurrencia.
Error budget policy drafting
Adapta el ejemplo de política de presupuesto de errores del workbook de Google en una guía repetible para ligar el ritmo de releases a la fiabilidad medida: define objetivos (proteger a usuarios de fallos repetidos de SLO preservando incentivos de innovación), detalla qué ocurre cuando la ventana móvil agota el presupuesto (congelar cambios salvo defectos urgentes o trabajo de seguridad), codifica umbrales de investigación por outage y documenta escalamiento cuando hay desacuerdo sobre el cálculo del presupuesto.