Plataforma open source de ingeniería de LLM: trazas, evals y gestión de prompts

Langfuse es un producto open source de observabilidad para aplicaciones con LLM: ingiere trazas y spans desde tu stack, admite datasets y flujos de prompts/versiones, y ofrece Langfuse Cloud opcional o despliegue self-hosted. Se integra con SDKs Python/JS y frameworks que emiten telemetría compatible con OpenTelemetry, para depurar bucles de agentes, comparar iteraciones de prompts y vigilar métricas de calidad en producción sin construir analítica a medida desde cero.

Categoría Herramientas para desarrolladores

Precio Open source + hosted plans

Plataformas Web / API / Self-hosted

observabilityllmopstracing

Casos de uso

Depurar agentes con muchas herramientas cuando el fallo está profundo en la cadena
Medir latencia y uso de tokens entre rutas y versiones de modelo
Construir conjuntos de evaluación desde trazas de producción
Comparar cambios de prompt con datasets consistentes
Dar al equipo plataforma una vista compartida del comportamiento del LLM

Funciones principales

Vistas de trazas y sesiones para flujos LLM y de agentes en varios pasos
Gestión de prompts con versionado y comparación
Datasets y puntuación para evaluación offline y regresiones
Integraciones SDK en ecosistemas Python y JavaScript
Self-hosting junto a Langfuse Cloud para requisitos de residencia de datos

Relacionados

3 Entradas indexadas

LangSmith

Herramientas para desarrolladoresFree + Paid

LangSmith es la plataforma de LangChain (cloud o self-hosted) para trazar, monitorizar y mejorar aplicaciones LLM. La documentación en docs.langchain.com describe instrumentación mediante variables de entorno, integraciones de frameworks (OpenAI, Anthropic, CrewAI, Vercel AI SDK, Pydantic AI y otras listadas) o el SDK, de modo que equipos inspeccionen runs multipaso, comparen versiones de prompts, construyan datasets, ejecuten evaluaciones offline/online, automaticen flujos y recojan feedback sin analítica ad hoc para bucles de agentes.

Braintrust

Herramientas para desarrolladoresFree + Paid

Braintrust documenta en braintrust.dev una plataforma de observabilidad donde los equipos instrumentan aplicaciones para capturar trazas (entradas, salidas, latencia, tokens, llamadas a herramientas), analizar logs, anotar con feedback humano, ejecutar experimentos y scorers, e iterar prompts antes del despliegue. La doc describe el flujo Instrument → Observe → Annotate → Evaluate → Deploy, con auto-instrumentación para proveedores principales y frameworks como LangChain, LangGraph, Vercel AI SDK y Pydantic AI. Los tipos de span documentados incluyen task, llm, function, tool y score.

LiteLLM

Herramientas para desarrolladoresOpen source

LiteLLM es una biblioteca Python open source y stack proxy documentado en docs.litellm.ai que expone una interfaz `completion()` única para proveedores como OpenAI, Anthropic, Vertex AI, Bedrock y Ollama con formas de petición/respuesta compatibles con OpenAI. El proyecto documenta un Router con reintentos, fallback y balanceo, callbacks de observabilidad (Langfuse, MLflow, Helicone y otros en las guías) y un LiteLLM Proxy autogestionado con claves virtuales, seguimiento de gasto, guardrails y UI admin. La documentación reciente también describe un MCP Gateway que centraliza herramientas MCP con permisos por clave, equipo y organización.

Langfuse