Example SLO document authoring

Operacionaliza el Apéndice A del libro de trabajo de Google SRE reinterpretando la carpeta ficticia del “Example Game Service” como checklist ejecutable: redactar el trabajo visible para usuarios; fijar ventanas móviles (ej. cuatro semanas); emparejar subsistemas con SLIs bien definidas (disponibilidad excluyendo 5xx, latencias con cortes ms, freshness de tablas derivadas, corrección vía probes, cobertura de pipelines); exponer texto num/denom; fundamentar redondeos; derivar presupuestos de error objetivo‑a‑objetivo y enlazar la política de presupuesto de errores correlativa.

Categoría Operaciones

Plataforma Google SRE Workbook / Codex

Fecha de publicación 2026-05-14

reliabilityslislo

Casos de uso

Servicio enfrentado a clientes nuevo y ejecutivos piden contrato antes de GA
Existen dashboards pero falta vínculo a SLIs firmadas
API HTTP y pipelines comparten componentes pero necesitan SLO segregados
Auditorías quieren tamaño cuantificado de errores sintéticos aceptados
Postmortems muestran SLO vagos impedían freezes consistentes

Funciones principales

Describir arquitectura y superficies enfrentadas
Señalar período rodante oficial (cuatro semanas en el ejemplo)
Definir SLIs con denominadores coherentes LB/prober/pipelines
Documentar rationale, redondeo y déficit probatorio conocido
Calcular error budgets separados objetivo‑a‑objetivo
Referenciar política de uso de budgets y disclaimers LB/prober

Relacionados

3 Entradas indexadas

Postmortem trigger and root-cause taxonomy

Operaciones

Resume el Apéndice C del workbook SRE (“Results of Postmortem Analysis”): explica cómo Google estandariza postmortems para relacionar disparadores observables versus categorías de causa raíz, priorizando arreglos sistémicos. El apéndice cita estadística histórica 2010–2017 donde empujes binarios (~37 %) y configuración (~31 %) encabezan triggers, más fracciones menores comportamiento usuarios (~9 %), pipelines (~6 %), cambios proveedor (~5 %), degradación (~5 %), capacidad (~5 %) y hardware (~2 %). Otra tabla liga causa raíz: fallos software (~41 %), proceso desarrollo (~20 %), comportamientos complejos (~17 %), planificación despliegue (~7 %), red (~3 %). Úsalas como benchmark heurístico, no SLA.

Error budget policy drafting

Operaciones

Adapta el ejemplo de política de presupuesto de errores del workbook de Google en una guía repetible para ligar el ritmo de releases a la fiabilidad medida: define objetivos (proteger a usuarios de fallos repetidos de SLO preservando incentivos de innovación), detalla qué ocurre cuando la ventana móvil agota el presupuesto (congelar cambios salvo defectos urgentes o trabajo de seguridad), codifica umbrales de investigación por outage y documenta escalamiento cuando hay desacuerdo sobre el cálculo del presupuesto.

Agentic coding vendor readiness review

Operaciones

Convierte guías de fiabilidad de plataforma y agentes de codificación multi-proveedor en una lista antes de estandarizar un stack de IA para código: inventariar SLAs del host SCM (incidentes en githubstatus.com), comparar agentes primarios/reserva (Copilot, Cursor, Claude Code, Codex), verificar observabilidad con Braintrust u otras trazas, y ensayar flujos cuando el host o la API del agente fallen. Cita páginas de estado y cambios de facturación públicos (p. ej. Copilot por uso en github.blog).

Casos de uso

Funciones principales

Relacionados

Postmortem trigger and root-cause taxonomy

Error budget policy drafting

Agentic coding vendor readiness review

Noticias relacionadas