STT, transcripción en streaming, Voice Agent API y LLM Gateway para flujos de voz
AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.
Casos de uso
- Transcripción batch con Universal-3 Pro
- Subtítulos en vivo
- Agentes de voz con resumen LLM
- PII con Guardrails
- Residencia UE
Funciones principales
- STT pregrabado con speech_models obligatorio
- Streaming WebSocket
- Voice Agent API speech-to-speech
- Speech Understanding (diarización, sentimiento)
- LLM Gateway multimodelo
Relacionados
Relacionados
3 Entradas indexadas
Deepgram
Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.
Fireworks AI
Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.
Baseten
Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.