Inferencia GPU en la nube con endpoints compatibles con OpenAI y API de gestión
CoreWeave documenta en docs.coreweave.com/products/inference productos Serverless, Dedicated (BYOW en GPUs H100/B200/A100) y CKS con endpoints compatibles con OpenAI. La API de inferencia en api.coreweave.com (v1alpha1) gestiona gateways, despliegues y capacity claims vía REST/gRPC/Connect con tokens Bearer (roles Inference Viewer/Admin).
Casos de uso
- Servir pesos propios en GPU dedicada
- Gestionar despliegues vía REST
- Reservar capacidad GPU
- Evaluar neoclouds
- Reutilizar SDK OpenAI
Funciones principales
- Endpoints OpenAI-compatibles
- API DeploymentService/GatewayService
- Dedicated BYOW con autoscaling
- Proveedor Terraform
- Gateways IAM con routing por model
Relacionados
Relacionados
3 Entradas indexadas
NVIDIA NIM
NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.
Baseten
Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.
fal
fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.