APIs STT en streaming con Nova-3 para subtítulos en vivo y Flux para agentes de voz

Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.

Categoría Herramientas para desarrolladores

Precio Pay-as-you-go per audio minute; enterprise plans (see deepgram.com/pricing)

Plataformas Web / API / JavaScript / Python

speech-to-textstreamingvoice-agents

Casos de uso

Subtítulos y analítica de llamadas con Nova-3
Agentes de voz sin VAD separado
Comparar Flux vs Nova-3
Benchmark de latencia en producción
Flux on-prem

Funciones principales

Streaming `/v1/listen` con Nova-3
Flux en `/v2/listen` con eventos de turno
SDK v1/v2 connect para audio binario
Herramientas de medición de latencia EOT
Flux self-hosted con `/v2/listen`

Relacionados

3 Entradas indexadas

AssemblyAI

Herramientas para desarrolladoresPay-as-you-go per aud…

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

Chroma

Herramientas para desarrolladoresOpen source

Chroma documenta en docs.trychroma.com una base de embeddings open source para almacenar y consultar vectores, metadatos y texto en clientes Python y JavaScript. Cubre colecciones en memoria, almacenamiento persistente, servidor self-hosted y Chroma Cloud con tokens. APIs: add/query/get/update/delete, funciones de embedding e híbrido para RAG y memoria de agentes.

Groq Cloud API

Herramientas para desarrolladoresFree + Paid

GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.

Deepgram