Plataforma de observabilidad de IA para trazas, evals, datasets y bucles de calidad

Braintrust documenta en braintrust.dev una plataforma de observabilidad donde los equipos instrumentan aplicaciones para capturar trazas (entradas, salidas, latencia, tokens, llamadas a herramientas), analizar logs, anotar con feedback humano, ejecutar experimentos y scorers, e iterar prompts antes del despliegue. La doc describe el flujo Instrument → Observe → Annotate → Evaluate → Deploy, con auto-instrumentación para proveedores principales y frameworks como LangChain, LangGraph, Vercel AI SDK y Pydantic AI. Los tipos de span documentados incluyen task, llm, function, tool y score.

Categoría Herramientas para desarrolladores

Precio Free signup; paid tiers documented on braintrust.dev/pricing

Plataformas Web / API / Python / TypeScript

observabilityevalstracing

Casos de uso

Depurar regresiones de agentes comparando trazas
Construir datasets desde sesiones reales anotadas
Ejecutar evals offline antes de cambios de modelo
Monitorizar tokens y latencia en spans anidados
Cerrar el bucle logs → evals → deploy

Funciones principales

Quickstart de tracing y auto-instrumentación
Jerarquía de spans con tipos documentados
UI de logs para filtrar trazas de producción
Datasets y anotación humana
Experimentos, scorers y playground

Relacionados

3 Entradas indexadas

LangSmith

Herramientas para desarrolladoresFree + Paid

LangSmith es la plataforma de LangChain (cloud o self-hosted) para trazar, monitorizar y mejorar aplicaciones LLM. La documentación en docs.langchain.com describe instrumentación mediante variables de entorno, integraciones de frameworks (OpenAI, Anthropic, CrewAI, Vercel AI SDK, Pydantic AI y otras listadas) o el SDK, de modo que equipos inspeccionen runs multipaso, comparen versiones de prompts, construyan datasets, ejecuten evaluaciones offline/online, automaticen flujos y recojan feedback sin analítica ad hoc para bucles de agentes.

Weights & Biases (W&B)

Herramientas para desarrolladoresFree + Paid

Weights & Biases comercializa W&B, una plataforma hospedada cuya narrativa oficial en docs.wandb.ai guía equipos ML a instrumentar entrenamiento con SDK `wandb`, emitir métricas/multimedia/logs de sistema comprimidos en dashboards colaborativos, articular workspaces/proyectos, y lanzar Sweep jobs descritos mediante YAML/controladores públicos antes que hojas de cálculo ad hoc. Tutoriales publican Artefactos versionando datasets/checkpoints/reportes reproducibles, vínculos a frameworks PyTorch/Keras/JAX/Hugging Face/entrenadores de alto nivel, reportes ejecutivos, opciones SOC2/enterprise y monitores de inferencia donde el catálogo de producto así lo mencione.

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

Braintrust