开源 LLM 工程平台:链路追踪、评测与 Prompt 版本管理
Langfuse 提供面向大模型与 Agent 的可观测性:接入 trace/span、管理 prompt 与数据集,支持云托管或自建,便于排查多步工具调用、对比 prompt 并跟踪线上指标。
使用场景
- 定位工具链深处失败的 Agent 运行
- 按版本统计延迟与 token
- 从生产 trace 构造评测集
- 用固定集对比 prompt 变更
- 平台团队统一查看预发与线上行为
主要功能
- 多步 LLM / Agent 会话的 trace 与视图
- Prompt 版本化与对比
- 数据集与离线评测、回归
- Python / JavaScript SDK
- 可自建部署以满足数据驻留
相关推荐
相关推荐
3 收录条目
LangSmith
LangSmith 是 LangChain 提供的云端/可自建平台,用于追踪、监控与改进大模型应用。docs.langchain.com 说明可通过环境变量、框架集成(文档集成页列出的 OpenAI、Anthropic、CrewAI、Vercel AI SDK、Pydantic AI 等)或 LangSmith SDK 接入,以便查看多步 run、对比 Prompt 版本、构建数据集、运行离线与在线评测、配置自动化并收集反馈队列。
Braintrust
Braintrust 提供 trace、日志分析、人工标注、实验与 scorer,支持 OpenAI/Anthropic 等主流提供商与 LangChain、Vercel AI SDK 等框架集成,用于生产调试与评测闭环。
LiteLLM
LiteLLM 是 docs.litellm.ai 上的开源 Python 库与可选代理栈:通过单一 completion 接口调用多家提供商,响应保持 OpenAI 风格;文档介绍 Router 重试/回退/负载均衡、观测回调,以及带虚拟密钥与费用追踪的 LiteLLM Proxy,并含 MCP Gateway 说明。