面向追踪、评测与生产质量闭环的 AI 可观测平台

Braintrust 提供 trace、日志分析、人工标注、实验与 scorer，支持 OpenAI/Anthropic 等主流提供商与 LangChain、Vercel AI SDK 等框架集成，用于生产调试与评测闭环。

分类开发者工具

价格免费注册；付费方案见 braintrust.dev/pricing

平台 Web / API / Python / TypeScript

observabilityevalstracing

使用场景

对比 prompt 变更前后 trace
从真实会话构建评测集
上线前离线实验
监控 token 与延迟
日志—评测—部署闭环

主要功能

Tracing 与 auto-instrumentation
task/llm/tool 等 span 层级
Logs 过滤生产 trace
数据集与人工标注
实验、scorer 与 playground

LangSmith

开发者工具免费 + 付费

LangSmith 是 LangChain 提供的云端／可自建平台，用于追踪、监控与改进大模型应用。docs.langchain.com 说明可通过环境变量、框架集成（文档集成页列出的 OpenAI、Anthropic、CrewAI、Vercel AI SDK、Pydantic AI 等）或 LangSmith SDK 接入，以便查看多步 run、对比 Prompt 版本、构建数据集、运行离线与在线评测、配置自动化并收集反馈队列。

Weights & Biases（W&B）

开发者工具免费 + 付费

Weights & Biases 运营的 W&B 是一类面向团队的云端机器学习开发平台：官方 docs.wandb.ai 介绍如何通过 Python `wandb` 客户端（另有文档涉及的其它绑定）初始化 run、写入标量／媒体／系统遥测并在浏览器里对比多张曲线与表格，亦说明 Sweeps YAML 驱动的超参搜索如何把并发试验调度到你账号允许的计算池。Artifacts 小节描述如何为有校验和的权重快照、预处理数据集 derivatives 与离线评测工件建立版本别名；集成索引覆盖 PyTorch、Keras／JAX、Lightning、Hugging Face Accelerate／Transformers Trainer、Ray、Kubeflow 等多条链路。免费额度与团队协作／企业 SKU、专线／VPC／SSO 等能力请参考 wandb.ai 当期产品页逐项核对，以免与旧博客结论偏离。

Baseten

开发者工具按用量计费推理与训练

Baseten 在 docs.baseten.co 文档化训练与推理平台：团队可通过开源 Truss 框架部署模型，或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎；truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。

Braintrust

使用场景

主要功能

相关推荐

LangSmith

Weights & Biases（W&B）

Baseten

相关资讯