C

AI Tool

CoreWeave

GPU 云推理:OpenAI 兼容端点与管理 API

CoreWeave 在 docs.coreweave.com/products/inference 文档化 Serverless、Dedicated(在 H100/B200/A100 等 GPU 上 BYOW)与 CKS 推理产品,均提供 OpenAI API 兼容端点。推理 API 位于 api.coreweave.com(v1alpha1),经 REST/JSON、gRPC 或 Connect 管理 gateway、deployment 与 capacity claim,需 Bearer 令牌及 Inference Viewer/Admin 角色。入门指南说明 IAM 鉴权 gateway、按请求体 model 字段路由,以及对 Object Storage 中权重发起 chat completion。

分类 开发者工具
价格 按 GPU 推理用量计费;Dedicated/Serverless 见 CoreWeave 计费文档
平台 Web / API / Terraform
gpuinferenceneocloud

使用场景

  • 在专用 NVIDIA GPU 上用 OpenAI 客户端服务自研权重
  • REST 程序化列出与管理推理部署
  • 上线前用 CapacityClaimService 预留 GPU
  • hyperscaler 桥接容量紧张时评估 neocloud
  • 将 OpenAI SDK 指向 gateway 端点

主要功能

  • 文档所述 OpenAI 兼容 chat/completions
  • api.coreweave.com/v1alpha1 部署与网关 API
  • Dedicated BYOW 与自动扩缩、容量 claim
  • Terraform 提供商
  • IAM gateway 与 body-based 模型路由

相关推荐

相关推荐

3 收录条目

NVIDIA NIM

开发者工具Developer Program 托管 API 原型;生产自托管通常需 NVIDIA AI Enterprise

NVIDIA NIM 在 docs.api.nvidia.com/nim 与 docs.nvidia.com/nim 文档化性能优化推理微服务:通过容器暴露行业标准 API(OpenAI 兼容的 /v1/chat/completions、/v1/completions、/v1/responses,以及 Anthropic 兼容的 /v1/messages),后端可为 TensorRT-LLM、vLLM 或 SGLang。可在云、数据中心或 RTX 工作站自托管,也可经 Developer Program 使用托管 NIM API 做原型。自托管容器提供 /v1/health/ready 与 /v1/metrics 等管理端点。

Baseten

开发者工具按用量计费推理与训练(见 baseten.co/pricing)

Baseten 在 docs.baseten.co 文档化训练与推理平台:团队可通过开源 Truss 框架部署模型,或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎;truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。

fal

开发者工具Serverless 按秒;Model APIs 按次;Compute 按 GPU 小时

fal 在 fal.ai/docs 文档化无服务器平台:Python fal.App 与 @fal.endpoint 在 H100/A100/B200 自动扩缩 runner 上推理,或调用 1000+ Model APIs;fal run 测试、fal deploy 持久端点;含 setup、machine_type、鉴权、按秒 Serverless 与 Compute 按 GPU 小时计费及 Prometheus 指标。