E

Skill Entry

Evaluation and benchmarking

Construye suites de evaluación con respuestas de ground truth, scoring automatizado y detección de regresión para que puedas medir si cambios de modelo o prompt realmente mejoran resultados antes de shippear. Sin evaluación sistemática, los equipos shippean cambios que parecen mejores anecdotamente pero pueden degradar casos edge específicos silenciosamente.

Categoría Operaciones
Plataforma Codex / Claude Code
Fecha de publicación 2026-04-20
evaluationtestingquality

Casos de uso

  • Comparando dos modelos de IA (o dos variaciones de prompt) para una tarea específica y necesitando datos para decidir cuál desplegar
  • Antes de shippear un cambio de prompt a producción y queriendo confirmar que no hace regress en casos edge conocidos
  • Ejecutando evaluación semanal de modelo para detectar degradación gradual de calidad a medida que la versión del modelo cambia
  • Evaluando resultados de fine-tuning midiendo si el modelo fine-tuned supera al base model en un test set held-out
  • Benchmarking latencia y costo de funcionalidad de IA junto con métricas de calidad para tomar decisiones de deployment

Funciones principales

  • Define métricas específicas por tarea que reflejen valor real de usuario: no solo perplexity o accuracy genéricas, sino métricas atadas al comportamiento específico que te importa
  • Curate un dataset de evaluación con inputs diversos y representativos y respuestas de ground truth que reflejen cómo se ve un buen output para tu caso de uso
  • Ejecuta scoring automatizado contra el dataset de evaluación, comparando el nuevo modelo o prompt contra la línea base usando tests estadísticos para determinar si las diferencias son significativas
  • Integra runs de evaluación en CI para que cambios de prompt o modelo que hacen regress en métricas de eval sean bloqueados antes del merge
  • Reporta resultados de eval con intervalos de confianza, no solo point estimates: sets de eval pequeños con métricas de single-run son misleading

Relacionados

Relacionados

3 Entradas indexadas

Postmortem trigger and root-cause taxonomy

Operaciones

Resume el Apéndice C del workbook SRE (“Results of Postmortem Analysis”): explica cómo Google estandariza postmortems para relacionar disparadores observables versus categorías de causa raíz, priorizando arreglos sistémicos. El apéndice cita estadística histórica 2010–2017 donde empujes binarios (~37 %) y configuración (~31 %) encabezan triggers, más fracciones menores comportamiento usuarios (~9 %), pipelines (~6 %), cambios proveedor (~5 %), degradación (~5 %), capacidad (~5 %) y hardware (~2 %). Otra tabla liga causa raíz: fallos software (~41 %), proceso desarrollo (~20 %), comportamientos complejos (~17 %), planificación despliegue (~7 %), red (~3 %). Úsalas como benchmark heurístico, no SLA.

AI cost optimization

Operaciones

Audita uso de tokens, selección de modelos, estrategia de caching y compresión de prompts para prevenir costos de inferencia descontrolados a medida que las funcionalidades de IA escalan. Esto es especialmente importante para workflows agentic de alto volumen donde llamadas repetidas se compounding rápidamente y donde la brecha entre una implementación bien optimizada y una descuidada puede ser de órdenes de magnitud en costo.

Incident response

Operaciones

Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.