Convierte la documentación de observabilidad de LangSmith en un flujo repetible para incidentes de LLM y agentes: partir de un run o thread fallido, usar la UI o herramientas MCP (`fetch_runs`, `get_thread_history`) para reconstruir prompts, llamadas a herramientas y errores, y acotar con filtros documentados (run_type, is_root, FQL filter/trace_filter/tree_filter) antes de cambiar código o prompts. Recuerda la paginación por presupuesto de caracteres (`page_number`, `total_pages`) y separar MCP remoto OAuth de Cloud frente a `LANGSMITH_ENDPOINT` self-hosted al recopilar evidencias.
Casos de uso
- Pico de 5xx en ruta RAG con LangChain
- Hilo de cliente con respuesta fuera de política
- Release con p95 mayor tras cambio de prompt
- Revisión de seguridad sobre alcance de tools
- Auditoría de facturación de traces
Funciones principales
- Capturar identificadores: proyecto, UUID de run, thread, versión desplegada y ventana temporal.
- Obtener el run raíz con fetch_runs (is_root, limit, filtros FQL) o la traza equivalente en la UI.
- Si el payload trunca, paginar get_thread_history o fetch_runs con trace_id hasta agotar total_pages.
- Clasificar la capa del fallo: retrieval, schema de tool, rechazo del modelo, rate limit u HTTP downstream.
- Comparar con la última revisión buena del prompt vía get_prompt_by_name antes de editar producción.
- Documentar mitigación, responsables y si hace falta ejemplo en dataset u eval online.
Relacionados
Relacionados
3 Entradas indexadas
Production debugging
Diagnostica incidentes de producción live usando triage de logs, correlación de spikes de métricas, filtering de ventana de deployment y pasos de reproducción seguros sin causar mayor disrupción. Production debugging aplica principios de depuración sistemática en un entorno live donde el costo de acciones wrongas es alto y la habilidad de reproducir el issue es limitada.
Designing with LLM structured outputs
Define esquemas, activa el modo de salida estructurada que documente tu proveedor, valida siempre en servidor y trata los rechazos como eventos de primera clase—fundamental cuando los regex sobre texto libre son demasiado frágiles en producción.
Postmortem writing
Captura la línea de tiempo completa del incidente, blast radius, factores contribuyentes y acciones de seguimiento concretas después de incidentes de producción para que los equipos construyan memoria institucional en lugar de repetir las mismas sorpresas. Un postmortem bien escrito separa causa raíz de triggers, evita culpa y produce action items rastreados que previenen recurrencia.