Nube serverless en Python para GPUs, sandboxes, batch e inferencia LLM

Modal documenta en modal.com una nube serverless para cargas intensivas en Python sin configurar infraestructura: servicios LLM compatibles con OpenAI, batch, colas, entrenamiento/fine-tuning en GPU y miles de Sandboxes para código generado por agentes. Las guías usan `@app.function`, `modal.Image` y tipos GPU en código, no YAML. Precio por segundo serverless con capacidad agrupada en nubes; clientes JS/Go además de Python.

Categoría Herramientas para desarrolladores

Precio Per-second serverless usage per modal.com/pricing

Plataformas Web / Python / JavaScript / Go

serverlessgpuinference

Casos de uso

Servir LLM open-weight sin Kubernetes
Batch masivo de inferencia o datos
Fine-tuning en GPUs vía entornos en código
Agentes de código en Sandboxes
Prototipar con modal run y escalar

Funciones principales

Despliegues `@app.function` con GPU e imágenes en código
Ejemplos de inferencia LLM, batch y transcripción
Sandboxes para ejecución segura a escala
Notebooks con GPU en segundos
Pool multi-nube según introducción

Relacionados

3 Entradas indexadas

fal

Herramientas para desarrolladoresPer-second Serverless…

fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.

RunPod

Herramientas para desarrolladoresPer-second serverless…

RunPod documenta en docs.runpod.io una plataforma serverless para desplegar handlers containerizados pagando solo tiempo de cómputo. Los desarrolladores usan el SDK Runpod, imágenes Docker y endpoints en api.runpod.ai/v2/{ID}/runsync o /run con Bearer RUNPOD_API_KEY. La doc cubre handlers streaming, endpoints load-balancing, Pods persistentes y REST en rest.runpod.io.

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

Modal

Casos de uso

Funciones principales

Relacionados

fal

RunPod

Baseten

Noticias relacionadas