B

AI Tool

Baseten

Entrena, despliega y sirve modelos con Truss, Model APIs y endpoints compatibles con OpenAI

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

Categoría Herramientas para desarrolladores
Precio Usage-based inference and training; see baseten.co/pricing
Plataformas Web / API / Python / CLI
inferencedeploymenttruss

Casos de uso

  • Publicar un LLM de Hugging Face sin Dockerfiles
  • Prototipar con Model APIs y luego desplegar fine-tunes con Truss
  • Reutilizar SDK OpenAI cambiando base URL
  • Lógica custom en `predict` con escalado gestionado
  • Comparar builds TensorRT-LLM vs PyTorch

Funciones principales

  • Despliegues Truss con `config.yaml` para LLM/embeddings/imagen soportados
  • APIs HTTP compatibles con OpenAI y autenticación `BASETEN_API_KEY`
  • Ciclo `model.py` para preprocesado y arquitecturas no soportadas
  • Rutas development vs production documentadas
  • Model APIs sin despliegue privado inicial

Relacionados

Relacionados

3 Entradas indexadas

Fireworks AI

Herramientas para desarrolladoresServerless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

Together AI

Herramientas para desarrolladoresUsage-based inference + optional dedicated endpoints / fine-tuning (see Together pricing docs)

Together AI ofrece una plataforma para ejecutar modelos abiertos destacados desde GPUs hospedadas por Together. La documentación se centra en emitir API keys, instalar el SDK Python (`together`) o npm (`together-ai`) o llamar HTTPS como `https://api.together.ai/v1/chat/completions` con Bearer. Las guías cubren completions con streaming, llamadas a función, salidas estructuradas y descubrir modelos, además de reservas de GPU y fine tuning descritos en la jerarquía ampliada de docs.

Modal

Herramientas para desarrolladoresPer-second serverless usage per modal.com/pricing

Modal documenta en modal.com una nube serverless para cargas intensivas en Python sin configurar infraestructura: servicios LLM compatibles con OpenAI, batch, colas, entrenamiento/fine-tuning en GPU y miles de Sandboxes para código generado por agentes. Las guías usan `@app.function`, `modal.Image` y tipos GPU en código, no YAML. Precio por segundo serverless con capacidad agrupada en nubes; clientes JS/Go además de Python.