Operacionaliza el Apéndice A del libro de trabajo de Google SRE reinterpretando la carpeta ficticia del “Example Game Service” como checklist ejecutable: redactar el trabajo visible para usuarios; fijar ventanas móviles (ej. cuatro semanas); emparejar subsistemas con SLIs bien definidas (disponibilidad excluyendo 5xx, latencias con cortes ms, freshness de tablas derivadas, corrección vía probes, cobertura de pipelines); exponer texto num/denom; fundamentar redondeos; derivar presupuestos de error objetivo‑a‑objetivo y enlazar la política de presupuesto de errores correlativa.
Casos de uso
- Servicio enfrentado a clientes nuevo y ejecutivos piden contrato antes de GA
- Existen dashboards pero falta vínculo a SLIs firmadas
- API HTTP y pipelines comparten componentes pero necesitan SLO segregados
- Auditorías quieren tamaño cuantificado de errores sintéticos aceptados
- Postmortems muestran SLO vagos impedían freezes consistentes
Funciones principales
- Describir arquitectura y superficies enfrentadas
- Señalar período rodante oficial (cuatro semanas en el ejemplo)
- Definir SLIs con denominadores coherentes LB/prober/pipelines
- Documentar rationale, redondeo y déficit probatorio conocido
- Calcular error budgets separados objetivo‑a‑objetivo
- Referenciar política de uso de budgets y disclaimers LB/prober
Relacionados
Relacionados
3 Entradas indexadas
Postmortem trigger and root-cause taxonomy
Resume el Apéndice C del workbook SRE (“Results of Postmortem Analysis”): explica cómo Google estandariza postmortems para relacionar disparadores observables versus categorías de causa raíz, priorizando arreglos sistémicos. El apéndice cita estadística histórica 2010–2017 donde empujes binarios (~37 %) y configuración (~31 %) encabezan triggers, más fracciones menores comportamiento usuarios (~9 %), pipelines (~6 %), cambios proveedor (~5 %), degradación (~5 %), capacidad (~5 %) y hardware (~2 %). Otra tabla liga causa raíz: fallos software (~41 %), proceso desarrollo (~20 %), comportamientos complejos (~17 %), planificación despliegue (~7 %), red (~3 %). Úsalas como benchmark heurístico, no SLA.
Error budget policy drafting
Adapta el ejemplo de política de presupuesto de errores del workbook de Google en una guía repetible para ligar el ritmo de releases a la fiabilidad medida: define objetivos (proteger a usuarios de fallos repetidos de SLO preservando incentivos de innovación), detalla qué ocurre cuando la ventana móvil agota el presupuesto (congelar cambios salvo defectos urgentes o trabajo de seguridad), codifica umbrales de investigación por outage y documenta escalamiento cuando hay desacuerdo sobre el cálculo del presupuesto.
Agentic coding vendor readiness review
Convierte guías de fiabilidad de plataforma y agentes de codificación multi-proveedor en una lista antes de estandarizar un stack de IA para código: inventariar SLAs del host SCM (incidentes en githubstatus.com), comparar agentes primarios/reserva (Copilot, Cursor, Claude Code, Codex), verificar observabilidad con Braintrust u otras trazas, y ensayar flujos cuando el host o la API del agente fallen. Cita páginas de estado y cambios de facturación públicos (p. ej. Copilot por uso en github.blog).