C

AI Tool

CoreWeave

Inferencia GPU en la nube con endpoints compatibles con OpenAI y API de gestión

CoreWeave documenta en docs.coreweave.com/products/inference productos Serverless, Dedicated (BYOW en GPUs H100/B200/A100) y CKS con endpoints compatibles con OpenAI. La API de inferencia en api.coreweave.com (v1alpha1) gestiona gateways, despliegues y capacity claims vía REST/gRPC/Connect con tokens Bearer (roles Inference Viewer/Admin).

Categoría Herramientas para desarrolladores
Precio Usage-based GPU inference; see CoreWeave billing docs for Dedicated and Serverless pricing
Plataformas Web / API / Terraform
gpuinferenceneocloud

Casos de uso

  • Servir pesos propios en GPU dedicada
  • Gestionar despliegues vía REST
  • Reservar capacidad GPU
  • Evaluar neoclouds
  • Reutilizar SDK OpenAI

Funciones principales

  • Endpoints OpenAI-compatibles
  • API DeploymentService/GatewayService
  • Dedicated BYOW con autoscaling
  • Proveedor Terraform
  • Gateways IAM con routing por model

Relacionados

Relacionados

3 Entradas indexadas

NVIDIA NIM

Herramientas para desarrolladoresDeveloper Program hosted APIs for prototyping; NVIDIA AI Enterprise for production self-host (see nvidia.com/nim)

NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.

Baseten

Herramientas para desarrolladoresUsage-based inference and training; see baseten.co/pricing

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

fal

Herramientas para desarrolladoresPer-second Serverless execution; Model APIs per call; Compute per GPU-hour (see fal.ai pricing)

fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.