Apps GPU serverless y Model APIs para imagen, video, audio e inferencia custom
fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.
Casos de uso
- Desplegar pipelines propios sin Kubernetes
- Prototipar con fal run y pasar a producción
- Combinar Model APIs y apps custom
- Fine-tuning en Compute e inferencia serverless
- Publicar en marketplace fal
Funciones principales
- Decoradores `@fal.endpoint`, `@fal.realtime`, `@fal.function`
- Marketplace Model APIs multimodal
- `fal deploy` con revisiones y entornos
- Fallbacks machine_type y keep_alive
- Métricas Prometheus y log drains
Relacionados
Relacionados
3 Entradas indexadas
RunPod
RunPod documenta en docs.runpod.io una plataforma serverless para desplegar handlers containerizados pagando solo tiempo de cómputo. Los desarrolladores usan el SDK Runpod, imágenes Docker y endpoints en api.runpod.ai/v2/{ID}/runsync o /run con Bearer RUNPOD_API_KEY. La doc cubre handlers streaming, endpoints load-balancing, Pods persistentes y REST en rest.runpod.io.
Modal
Modal documenta en modal.com una nube serverless para cargas intensivas en Python sin configurar infraestructura: servicios LLM compatibles con OpenAI, batch, colas, entrenamiento/fine-tuning en GPU y miles de Sandboxes para código generado por agentes. Las guías usan `@app.function`, `modal.Image` y tipos GPU en código, no YAML. Precio por segundo serverless con capacidad agrupada en nubes; clientes JS/Go además de Python.
Baseten
Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.