ElevenLabs
强调自然语调和多语种配音管线,常见于播客、出海广告与实时数字人音频后端等 API 驱动场景。
Suno
适合 demo、短视频配乐与灵感发散,强项是快速迭代而非 DAW 级精修混音。
Descript
Descript 把音频和视频当成文档来剪:改文字稿、清理人声、加字幕,再把长录制切成可分发片段,不用一上来就打开复杂时间线。
Krisp
Krisp 接在会议音频链路中,用来消除背景噪声、回声与串音,同时补上转写、录制和行动项,适合高度依赖电话和视频会议的团队。
Otter.ai
Otter.ai 录制对话、实时转写,并把通话变成可搜索的笔记与行动项;适合想把会议上下文接进文本工作流、又不想手工清理原始逐字稿的团队。
豆包
豆包(来自字节跳动)提供 TTS、语音克隆与实时语音识别,对普通话及其他亚洲语言有专项优化。当需要英语之外的语音管线时,它是常见选择。
Wispr Flow
Wispr Flow is a Mac-native voice dictation app that learns your writing style and speaks naturally in over 100 languages. It integrates with Cursor, Claude, and ChatGPT, letting developers and power users compose messages, code, and documents by voice with auto-edits and command mode.