Modelos de peso abierto hospedados vía REST y SDKs oficiales en Python / TypeScript
Together AI ofrece una plataforma para ejecutar modelos abiertos destacados desde GPUs hospedadas por Together. La documentación se centra en emitir API keys, instalar el SDK Python (`together`) o npm (`together-ai`) o llamar HTTPS como `https://api.together.ai/v1/chat/completions` con Bearer. Las guías cubren completions con streaming, llamadas a función, salidas estructuradas y descubrir modelos, además de reservas de GPU y fine tuning descritos en la jerarquía ampliada de docs.
Casos de uso
- Operar backends de chat o agentes sobre checkpoints hospedados sin flota GPU propia
- Prototipar llamadas a herramientas con modelos listados por Together
- Migrar de pruebas curl a SDK tipado por manejar reintentos y telemetría
- Evaluar SKU de fine tuning o endpoints dedicados tras validar carga inicial
- Enseñar HTTP estilo OpenAI cambiando solo el modelo por entradas del catálogo Together
Funciones principales
- Flujos quickstart para Python y TypeScript usando API keys en variables de entorno (`TOGETHER_API_KEY`)
- Endpoints REST tipo chat completions con payloads JSON compatibles estilo OpenAI mostrados en quickstart
- Streaming con `stream=True` en Python e iteradores async en TypeScript según muestras oficiales
- Área funcional amplia según índice: catálogo de modelos, clusters GPU y fine tuning dedicado/reservado
- Enlaces documentados entre consola de facturación, proyectos (`api.together.ai`) y selección de modelo
Relacionados
Relacionados
3 Entradas indexadas
Replicate
Replicate es una plataforma hospedada para ejecutar modelos de machine learning propios y de terceros vía HTTP sin aprovisionar GPUs manualmente. La documentación oficial explica cómo autenticarse con tokens, crear predicciones asíncronas, hacer streaming de salidas, obtener metadatos de modelos, conectar webhooks de finalización y, opcionalmente, desplegar o afinizar checkpoints publicados en el catálogo (incluye guías públicas tipo FLUX).
Groq Cloud API
GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.
Baseten
Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.