开源 LLM 工程平台：链路追踪、评测与 Prompt 版本管理

Langfuse 提供面向大模型与 Agent 的可观测性：接入 trace/span、管理 prompt 与数据集，支持云托管或自建，便于排查多步工具调用、对比 prompt 并跟踪线上指标。

分类开发者工具

价格开源 + 云套餐

平台 Web / API / Self-hosted

observabilityllmopstracing

使用场景

定位工具链深处失败的 Agent 运行
按版本统计延迟与 token
从生产 trace 构造评测集
用固定集对比 prompt 变更
平台团队统一查看预发与线上行为

主要功能

多步 LLM / Agent 会话的 trace 与视图
Prompt 版本化与对比
数据集与离线评测、回归
Python / JavaScript SDK
可自建部署以满足数据驻留

LangSmith

开发者工具免费 + 付费

LangSmith 是 LangChain 提供的云端／可自建平台，用于追踪、监控与改进大模型应用。docs.langchain.com 说明可通过环境变量、框架集成（文档集成页列出的 OpenAI、Anthropic、CrewAI、Vercel AI SDK、Pydantic AI 等）或 LangSmith SDK 接入，以便查看多步 run、对比 Prompt 版本、构建数据集、运行离线与在线评测、配置自动化并收集反馈队列。

Braintrust

开发者工具免费 + 付费

Braintrust 提供 trace、日志分析、人工标注、实验与 scorer，支持 OpenAI/Anthropic 等主流提供商与 LangChain、Vercel AI SDK 等框架集成，用于生产调试与评测闭环。

LiteLLM

开发者工具开源

LiteLLM 是 docs.litellm.ai 上的开源 Python 库与可选代理栈：通过单一 completion 接口调用多家提供商，响应保持 OpenAI 风格；文档介绍 Router 重试/回退/负载均衡、观测回调，以及带虚拟密钥与费用追踪的 LiteLLM Proxy，并含 MCP Gateway 说明。

Langfuse

使用场景

主要功能

相关推荐

LangSmith

Braintrust

LiteLLM

相关资讯