A

AI Tool

AssemblyAI

STT, transcripción en streaming, Voice Agent API y LLM Gateway para flujos de voz

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

Categoría Herramientas para desarrolladores
Precio Pay-as-you-go per audio hour; enterprise plans (see assemblyai.com/pricing)
Plataformas Web / API / JavaScript / Python
speech-to-textstreamingvoice-agents

Casos de uso

  • Transcripción batch con Universal-3 Pro
  • Subtítulos en vivo
  • Agentes de voz con resumen LLM
  • PII con Guardrails
  • Residencia UE

Funciones principales

  • STT pregrabado con speech_models obligatorio
  • Streaming WebSocket
  • Voice Agent API speech-to-speech
  • Speech Understanding (diarización, sentimiento)
  • LLM Gateway multimodelo

Relacionados

Relacionados

3 Entradas indexadas

Deepgram

Herramientas para desarrolladoresPay-as-you-go per audio minute; enterprise plans (see deepgram.com/pricing)

Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.

Fireworks AI

Herramientas para desarrolladoresServerless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

Baseten

Herramientas para desarrolladoresUsage-based inference and training; see baseten.co/pricing

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.