F

AI Tool

Fireworks AI

Inferencia serverless y dedicada para modelos LLM, imagen y embeddings abiertos o personalizados

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

Categoría Herramientas para desarrolladores
Precio Serverless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second
Plataformas Web / API / CLI
inferencellmfine-tuning

Casos de uso

  • Ejecutar Llama serverless sin aprovisionar GPUs
  • Desplegar LoRA privados en hardware dedicado
  • Gestionar ciclo de vida de modelos vía APIs
  • Comparar coste serverless vs dedicado
  • Integrar imagen y embeddings con una clave

Funciones principales

  • API REST con Bearer API keys
  • Catálogo serverless más modelos custom subidos
  • Despliegues dedicados con base models y LoRA
  • APIs de fine-tuning y gestión de despliegues
  • Privacidad: sin logging de prompts por defecto

Relacionados

Relacionados

3 Entradas indexadas

Together AI

Herramientas para desarrolladoresUsage-based inference + optional dedicated endpoints / fine-tuning (see Together pricing docs)

Together AI ofrece una plataforma para ejecutar modelos abiertos destacados desde GPUs hospedadas por Together. La documentación se centra en emitir API keys, instalar el SDK Python (`together`) o npm (`together-ai`) o llamar HTTPS como `https://api.together.ai/v1/chat/completions` con Bearer. Las guías cubren completions con streaming, llamadas a función, salidas estructuradas y descubrir modelos, además de reservas de GPU y fine tuning descritos en la jerarquía ampliada de docs.

Groq Cloud API

Herramientas para desarrolladoresFree tier + Pay-as-you-go (published USD rates)

GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.

Replicate

Herramientas para desarrolladoresPay-per-prediction billing + prepaid credits (see Replicate billing docs)

Replicate es una plataforma hospedada para ejecutar modelos de machine learning propios y de terceros vía HTTP sin aprovisionar GPUs manualmente. La documentación oficial explica cómo autenticarse con tokens, crear predicciones asíncronas, hacer streaming de salidas, obtener metadatos de modelos, conectar webhooks de finalización y, opcionalmente, desplegar o afinizar checkpoints publicados en el catálogo (incluye guías públicas tipo FLUX).