容器化推理微服务，提供 OpenAI 兼容 API

NVIDIA NIM 在 docs.api.nvidia.com/nim 与 docs.nvidia.com/nim 文档化性能优化推理微服务：通过容器暴露行业标准 API（OpenAI 兼容的 /v1/chat/completions、/v1/completions、/v1/responses，以及 Anthropic 兼容的 /v1/messages），后端可为 TensorRT-LLM、vLLM 或 SGLang。可在云、数据中心或 RTX 工作站自托管，也可经 Developer Program 使用托管 NIM API 做原型。自托管容器提供 /v1/health/ready 与 /v1/metrics 等管理端点。

分类开发者工具

价格 Developer Program 托管 API 原型；生产自托管通常需 NVIDIA AI Enterprise

平台 Web / API / Docker / Kubernetes

inferencegpucontainers

使用场景

OpenAI 客户端改 base_url 指向本地 NIM
Kubernetes 部署并抓 Prometheus 指标
托管 API 验证后再自托管
Anthropic 风格客户端走 /v1/messages
按基础设施选择 TRT-LLM 或 vLLM

主要功能

OpenAI 兼容 chat/completion/responses
Anthropic 兼容 /v1/messages
存活/就绪探针
多场景模型目录
Developer Program 托管 API 原型

CoreWeave

开发者工具按 GPU 推理用量计费；Dedicate…

CoreWeave 在 docs.coreweave.com/products/inference 文档化 Serverless、Dedicated（在 H100/B200/A100 等 GPU 上 BYOW）与 CKS 推理产品，均提供 OpenAI API 兼容端点。推理 API 位于 api.coreweave.com（v1alpha1），经 REST/JSON、gRPC 或 Connect 管理 gateway、deployment 与 capacity claim，需 Bearer 令牌及 Inference Viewer/Admin 角色。入门指南说明 IAM 鉴权 gateway、按请求体 model 字段路由，以及对 Object Storage 中权重发起 chat completion。

Baseten

开发者工具按用量计费推理与训练

Baseten 在 docs.baseten.co 文档化训练与推理平台：团队可通过开源 Truss 框架部署模型，或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎；truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。

AssemblyAI

开发者工具按音频时长按量计费

AssemblyAI 提供 api.assemblyai.com 预录转写与 wss://streaming.assemblyai.com 流式 STT；预录须传 speech_models；含 Voice Agent、Speech Understanding 与 LLM Gateway。

NVIDIA NIM

使用场景

主要功能

相关推荐

CoreWeave

Baseten

AssemblyAI

相关资讯