Inferencia serverless y dedicada para modelos LLM, imagen y embeddings abiertos o personalizados

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

Categoría Herramientas para desarrolladores

Precio Serverless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second

Plataformas Web / API / CLI

inferencellmfine-tuning

Casos de uso

Ejecutar Llama serverless sin aprovisionar GPUs
Desplegar LoRA privados en hardware dedicado
Gestionar ciclo de vida de modelos vía APIs
Comparar coste serverless vs dedicado
Integrar imagen y embeddings con una clave

Funciones principales

API REST con Bearer API keys
Catálogo serverless más modelos custom subidos
Despliegues dedicados con base models y LoRA
APIs de fine-tuning y gestión de despliegues
Privacidad: sin logging de prompts por defecto

Relacionados

3 Entradas indexadas

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

fal

Herramientas para desarrolladoresPer-second Serverless…

fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.

AssemblyAI

Herramientas para desarrolladoresPay-as-you-go per aud…

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

Fireworks AI

Casos de uso

Funciones principales

Relacionados

Baseten

fal

AssemblyAI

Noticias relacionadas