Inferencia GPU en la nube con endpoints compatibles con OpenAI y API de gestión

CoreWeave documenta en docs.coreweave.com/products/inference productos Serverless, Dedicated (BYOW en GPUs H100/B200/A100) y CKS con endpoints compatibles con OpenAI. La API de inferencia en api.coreweave.com (v1alpha1) gestiona gateways, despliegues y capacity claims vía REST/gRPC/Connect con tokens Bearer (roles Inference Viewer/Admin).

Categoría Herramientas para desarrolladores

Precio Usage-based GPU inference; see CoreWeave billing docs for Dedicated and Serverless pricing

Plataformas Web / API / Terraform

gpuinferenceneocloud

Casos de uso

Servir pesos propios en GPU dedicada
Gestionar despliegues vía REST
Reservar capacidad GPU
Evaluar neoclouds
Reutilizar SDK OpenAI

Funciones principales

Endpoints OpenAI-compatibles
API DeploymentService/GatewayService
Dedicated BYOW con autoscaling
Proveedor Terraform
Gateways IAM con routing por model

Relacionados

3 Entradas indexadas

NVIDIA NIM

Herramientas para desarrolladoresDeveloper Program hos…

NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

fal

Herramientas para desarrolladoresPer-second Serverless…

fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.

CoreWeave

Casos de uso

Funciones principales

Relacionados

NVIDIA NIM

Baseten

fal

Noticias relacionadas