容器化推理微服务,提供 OpenAI 兼容 API
NVIDIA NIM 在 docs.api.nvidia.com/nim 与 docs.nvidia.com/nim 文档化性能优化推理微服务:通过容器暴露行业标准 API(OpenAI 兼容的 /v1/chat/completions、/v1/completions、/v1/responses,以及 Anthropic 兼容的 /v1/messages),后端可为 TensorRT-LLM、vLLM 或 SGLang。可在云、数据中心或 RTX 工作站自托管,也可经 Developer Program 使用托管 NIM API 做原型。自托管容器提供 /v1/health/ready 与 /v1/metrics 等管理端点。
使用场景
- OpenAI 客户端改 base_url 指向本地 NIM
- Kubernetes 部署并抓 Prometheus 指标
- 托管 API 验证后再自托管
- Anthropic 风格客户端走 /v1/messages
- 按基础设施选择 TRT-LLM 或 vLLM
主要功能
- OpenAI 兼容 chat/completion/responses
- Anthropic 兼容 /v1/messages
- 存活/就绪探针
- 多场景模型目录
- Developer Program 托管 API 原型
相关推荐
相关推荐
3 收录条目
Baseten
Baseten 在 docs.baseten.co 文档化训练与推理平台:团队可通过开源 Truss 框架部署模型,或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎;truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。
AssemblyAI
AssemblyAI 提供 api.assemblyai.com 预录转写与 wss://streaming.assemblyai.com 流式 STT;预录须传 speech_models;含 Voice Agent、Speech Understanding 与 LLM Gateway。
fal
fal 在 fal.ai/docs 文档化无服务器平台:Python fal.App 与 @fal.endpoint 在 H100/A100/B200 自动扩缩 runner 上推理,或调用 1000+ Model APIs;fal run 测试、fal deploy 持久端点;含 setup、machine_type、鉴权、按秒 Serverless 与 Compute 按 GPU 小时计费及 Prometheus 指标。