Plataforma open source de ingeniería de LLM: trazas, evals y gestión de prompts
Langfuse es un producto open source de observabilidad para aplicaciones con LLM: ingiere trazas y spans desde tu stack, admite datasets y flujos de prompts/versiones, y ofrece Langfuse Cloud opcional o despliegue self-hosted. Se integra con SDKs Python/JS y frameworks que emiten telemetría compatible con OpenTelemetry, para depurar bucles de agentes, comparar iteraciones de prompts y vigilar métricas de calidad en producción sin construir analítica a medida desde cero.
Casos de uso
- Depurar agentes con muchas herramientas cuando el fallo está profundo en la cadena
- Medir latencia y uso de tokens entre rutas y versiones de modelo
- Construir conjuntos de evaluación desde trazas de producción
- Comparar cambios de prompt con datasets consistentes
- Dar al equipo plataforma una vista compartida del comportamiento del LLM
Funciones principales
- Vistas de trazas y sesiones para flujos LLM y de agentes en varios pasos
- Gestión de prompts con versionado y comparación
- Datasets y puntuación para evaluación offline y regresiones
- Integraciones SDK en ecosistemas Python y JavaScript
- Self-hosting junto a Langfuse Cloud para requisitos de residencia de datos
Relacionados
Relacionados
3 Entradas indexadas
LangSmith
LangSmith es la plataforma de LangChain (cloud o self-hosted) para trazar, monitorizar y mejorar aplicaciones LLM. La documentación en docs.langchain.com describe instrumentación mediante variables de entorno, integraciones de frameworks (OpenAI, Anthropic, CrewAI, Vercel AI SDK, Pydantic AI y otras listadas) o el SDK, de modo que equipos inspeccionen runs multipaso, comparen versiones de prompts, construyan datasets, ejecuten evaluaciones offline/online, automaticen flujos y recojan feedback sin analítica ad hoc para bucles de agentes.
Braintrust
Braintrust documenta en braintrust.dev una plataforma de observabilidad donde los equipos instrumentan aplicaciones para capturar trazas (entradas, salidas, latencia, tokens, llamadas a herramientas), analizar logs, anotar con feedback humano, ejecutar experimentos y scorers, e iterar prompts antes del despliegue. La doc describe el flujo Instrument → Observe → Annotate → Evaluate → Deploy, con auto-instrumentación para proveedores principales y frameworks como LangChain, LangGraph, Vercel AI SDK y Pydantic AI. Los tipos de span documentados incluyen task, llm, function, tool y score.
LiteLLM
LiteLLM es una biblioteca Python open source y stack proxy documentado en docs.litellm.ai que expone una interfaz `completion()` única para proveedores como OpenAI, Anthropic, Vertex AI, Bedrock y Ollama con formas de petición/respuesta compatibles con OpenAI. El proyecto documenta un Router con reintentos, fallback y balanceo, callbacks de observabilidad (Langfuse, MLflow, Helicone y otros en las guías) y un LiteLLM Proxy autogestionado con claves virtuales, seguimiento de gasto, guardrails y UI admin. La documentación reciente también describe un MCP Gateway que centraliza herramientas MCP con permisos por clave, equipo y organización.