R

AI Tool

RunPod

Endpoints GPU serverless y API Pods para cargas de inferencia IA

RunPod documenta en docs.runpod.io una plataforma serverless para desplegar handlers containerizados pagando solo tiempo de cómputo. Los desarrolladores usan el SDK Runpod, imágenes Docker y endpoints en api.runpod.ai/v2/{ID}/runsync o /run con Bearer RUNPOD_API_KEY. La doc cubre handlers streaming, endpoints load-balancing, Pods persistentes y REST en rest.runpod.io.

Categoría Herramientas para desarrolladores
Precio Per-second serverless compute; Pods billed per GPU-hour (see runpod.io/pricing)
Plataformas Web / API / Python / Docker
gpuserverlessinference

Casos de uso

  • Inferencia custom con autoscaling sin costo idle
  • Prototipar local y desplegar workers Docker
  • Entrenamiento en Pods y tráfico bursty en Serverless
  • Automatizar GPU vía REST API
  • Streaming de tokens LLM

Funciones principales

  • Endpoints con /runsync, /run, /status, /stream y /health
  • Handlers con SDK Runpod incluyendo streaming
  • Endpoints load-balancing con FastAPI/Flask
  • API Pods y volúmenes de red
  • Esquema OpenAPI en rest.runpod.io

Relacionados

Relacionados

3 Entradas indexadas

Modal

Herramientas para desarrolladoresPer-second serverless usage per modal.com/pricing

Modal documenta en modal.com una nube serverless para cargas intensivas en Python sin configurar infraestructura: servicios LLM compatibles con OpenAI, batch, colas, entrenamiento/fine-tuning en GPU y miles de Sandboxes para código generado por agentes. Las guías usan `@app.function`, `modal.Image` y tipos GPU en código, no YAML. Precio por segundo serverless con capacidad agrupada en nubes; clientes JS/Go además de Python.

Baseten

Herramientas para desarrolladoresUsage-based inference and training; see baseten.co/pricing

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

Fireworks AI

Herramientas para desarrolladoresServerless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.