Microservicios de inferencia en contenedores con APIs compatibles con OpenAI

NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.

Categoría Herramientas para desarrolladores

Precio Developer Program hosted APIs for prototyping; NVIDIA AI Enterprise for production self-host (see nvidia.com/nim)

Plataformas Web / API / Docker / Kubernetes

inferencegpucontainers

Casos de uso

OpenAI client con base_url local
Kubernetes + Prometheus
Prototipo antes de AI Enterprise
Clientes /v1/messages
Elegir motor TRT-LLM o vLLM

Funciones principales

Endpoints OpenAI-compatibles
/v1/messages Anthropic-compat
Health y readiness probes
Catálogo multimodal
APIs alojadas para prototipos

Relacionados

3 Entradas indexadas

CoreWeave

Herramientas para desarrolladoresUsage-based GPU infer…

CoreWeave documenta en docs.coreweave.com/products/inference productos Serverless, Dedicated (BYOW en GPUs H100/B200/A100) y CKS con endpoints compatibles con OpenAI. La API de inferencia en api.coreweave.com (v1alpha1) gestiona gateways, despliegues y capacity claims vía REST/gRPC/Connect con tokens Bearer (roles Inference Viewer/Admin).

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

AssemblyAI

Herramientas para desarrolladoresPay-as-you-go per aud…

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

NVIDIA NIM