Nube serverless en Python para GPUs, sandboxes, batch e inferencia LLM
Modal documenta en modal.com una nube serverless para cargas intensivas en Python sin configurar infraestructura: servicios LLM compatibles con OpenAI, batch, colas, entrenamiento/fine-tuning en GPU y miles de Sandboxes para código generado por agentes. Las guías usan `@app.function`, `modal.Image` y tipos GPU en código, no YAML. Precio por segundo serverless con capacidad agrupada en nubes; clientes JS/Go además de Python.
Casos de uso
- Servir LLM open-weight sin Kubernetes
- Batch masivo de inferencia o datos
- Fine-tuning en GPUs vía entornos en código
- Agentes de código en Sandboxes
- Prototipar con modal run y escalar
Funciones principales
- Despliegues `@app.function` con GPU e imágenes en código
- Ejemplos de inferencia LLM, batch y transcripción
- Sandboxes para ejecución segura a escala
- Notebooks con GPU en segundos
- Pool multi-nube según introducción
Relacionados
Relacionados
3 Entradas indexadas
Fireworks AI
Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.
Groq Cloud API
GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.
Portkey
Portkey documenta en docs.portkey.ai un gateway de IA que unifica acceso a más de 250 modelos mediante SDK Portkey o URL base compatible con OpenAI (`PORTKEY_GATEWAY_URL`) y cabeceras de enrutamiento. Los quickstarts muestran integraciones Python/TypeScript en pocas líneas que monitorizan solicitudes para resiliencia, seguridad y rendimiento. El gateway open source es gratuito autogestionado; el servicio gestionado incluye 10k solicitudes/mes gratis, workers edge con ~20–40 ms de latencia adicional, certificaciones ISO 27001 y SOC 2, y opciones para no almacenar cuerpos de petición/respuesta.