面向追踪、评测与生产质量闭环的 AI 可观测平台
Braintrust 提供 trace、日志分析、人工标注、实验与 scorer,支持 OpenAI/Anthropic 等主流提供商与 LangChain、Vercel AI SDK 等框架集成,用于生产调试与评测闭环。
使用场景
- 对比 prompt 变更前后 trace
- 从真实会话构建评测集
- 上线前离线实验
- 监控 token 与延迟
- 日志—评测—部署闭环
主要功能
- Tracing 与 auto-instrumentation
- task/llm/tool 等 span 层级
- Logs 过滤生产 trace
- 数据集与人工标注
- 实验、scorer 与 playground
相关推荐
相关推荐
3 收录条目
LangSmith
LangSmith 是 LangChain 提供的云端/可自建平台,用于追踪、监控与改进大模型应用。docs.langchain.com 说明可通过环境变量、框架集成(文档集成页列出的 OpenAI、Anthropic、CrewAI、Vercel AI SDK、Pydantic AI 等)或 LangSmith SDK 接入,以便查看多步 run、对比 Prompt 版本、构建数据集、运行离线与在线评测、配置自动化并收集反馈队列。
Weights & Biases(W&B)
Weights & Biases 运营的 W&B 是一类面向团队的云端机器学习开发平台:官方 docs.wandb.ai 介绍如何通过 Python `wandb` 客户端(另有文档涉及的其它绑定)初始化 run、写入标量/媒体/系统遥测并在浏览器里对比多张曲线与表格,亦说明 Sweeps YAML 驱动的超参搜索如何把并发试验调度到你账号允许的计算池。Artifacts 小节描述如何为有校验和的权重快照、预处理数据集 derivatives 与离线评测工件建立版本别名;集成索引覆盖 PyTorch、Keras/JAX、Lightning、Hugging Face Accelerate/Transformers Trainer、Ray、Kubeflow 等多条链路。免费额度与团队协作/企业 SKU、专线/VPC/SSO 等能力请参考 wandb.ai 当期产品页逐项核对,以免与旧博客结论偏离。
Helicone
Helicone 通过 ai-gateway.helicone.ai 提供 OpenAI 兼容网关,可调用 100+ 模型并将请求记录到控制台;支持 0% 加价额度、上游故障回退及自带厂商密钥(BYOK)。