Serverless GPU 应用与 Model APIs,覆盖图像、视频、音频与自定义推理
fal 在 fal.ai/docs 文档化无服务器平台:Python fal.App 与 @fal.endpoint 在 H100/A100/B200 自动扩缩 runner 上推理,或调用 1000+ Model APIs;fal run 测试、fal deploy 持久端点;含 setup、machine_type、鉴权、按秒 Serverless 与 Compute 按 GPU 小时计费及 Prometheus 指标。
使用场景
- 不经 Kubernetes 部署自研流水线
- fal run 原型后上线私有端点
- Model APIs + 自定义 Serverless
- Compute 训练 + Serverless 推理
- 发布至 fal 市场
主要功能
- @fal.endpoint、@fal.realtime、@fal.function
- Model APIs 多模态市场
- fal deploy 远程构建与回滚
- machine_type 回退与 keep_alive
- Prometheus 与 log drains
相关推荐
相关推荐
3 收录条目
RunPod
RunPod 在 docs.runpod.io 提供无服务器 GPU 平台:用 Runpod SDK 编写 handler、Docker 部署,经 api.runpod.ai/v2/{ENDPOINT_ID}/runsync 调用,Bearer RUNPOD_API_KEY 鉴权;含 Pods 持久 GPU 与 REST API。
Modal
Modal 在 modal.com 文档化无服务器云:工程师用 Python 运行算力密集型任务而无需配置基础设施,可部署 OpenAI 兼容 LLM 服务、批处理工作流、任务队列、GPU 训练/微调,以及大规模隔离 Sandbox 执行 Agent 生成代码。官方指南通过 @app.function、modal.Image 与代码内 GPU 类型定义环境。按秒计费 serverless,并在多家云之间池化容量;除 Python 外还可经 JavaScript/Go 客户端调用。
Baseten
Baseten 在 docs.baseten.co 文档化训练与推理平台:团队可通过开源 Truss 框架部署模型,或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎;truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。