语音转写、流式转录与 Voice Agent API
AssemblyAI 提供 api.assemblyai.com 预录转写与 wss://streaming.assemblyai.com 流式 STT;预录须传 speech_models;含 Voice Agent、Speech Understanding 与 LLM Gateway。
使用场景
- 预录转写
- 直播字幕
- 语音 Agent
- PII Guardrails
- EU 端点
主要功能
- POST /v2/transcript
- 流式 WebSocket
- Voice Agent API
- Speech Understanding
- LLM Gateway
相关推荐
相关推荐
3 收录条目
Deepgram
Deepgram 在 developers.deepgram.com 提供 `/v1/listen`(Nova-3 流式转写)与 `/v2/listen`(Flux 对话式回合检测);SDK 含 listen.v1/v2.connect;文档对比 Agent 与会议场景并支持自建 Flux。
Fireworks AI
Fireworks AI 提供 REST API 调用语言/图像/embedding 模型;支持 serverless 目录模型与专属 GPU 部署 custom base model 及 LoRA;默认不记录 prompt/输出(见文档例外)。
Baseten
Baseten 在 docs.baseten.co 文档化训练与推理平台:团队可通过开源 Truss 框架部署模型,或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎;truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。