开源与自定义模型的 Serverless 与专属 GPU 推理

Fireworks AI 提供 REST API 调用语言/图像/embedding 模型；支持 serverless 目录模型与专属 GPU 部署 custom base model 及 LoRA；默认不记录 prompt/输出（见文档例外）。

分类开发者工具

价格 Serverless 按 token；专属部署按 GPU 秒（见 fireworks.ai/pricing）

平台 Web / API / CLI

inferencellmfine-tuning

使用场景

Serverless 跑开源 LLM
专属部署 LoRA
模型生命周期管理
对比 serverless 与专属成本
文本+图像+embedding 统一密钥

主要功能

Bearer API Key REST
Serverless 与专属部署
LoRA addon 支持
微调/部署管理 API
默认不记录 prompt

Baseten

开发者工具按用量计费推理与训练

Baseten 在 docs.baseten.co 文档化训练与推理平台：团队可通过开源 Truss 框架部署模型，或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎；truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。

fal

开发者工具Serverless 按秒；Model A…

fal 在 fal.ai/docs 文档化无服务器平台：Python fal.App 与 @fal.endpoint 在 H100/A100/B200 自动扩缩 runner 上推理，或调用 1000+ Model APIs；fal run 测试、fal deploy 持久端点；含 setup、machine_type、鉴权、按秒 Serverless 与 Compute 按 GPU 小时计费及 Prometheus 指标。

AssemblyAI

开发者工具按音频时长按量计费

AssemblyAI 提供 api.assemblyai.com 预录转写与 wss://streaming.assemblyai.com 流式 STT；预录须传 speech_models；含 Voice Agent、Speech Understanding 与 LLM Gateway。

Fireworks AI

使用场景

主要功能

相关推荐

Baseten

fal

AssemblyAI

相关资讯