将 LiteLLM 路由文档转化为上线前清单:核对主/备部署、重试与负载策略;经 Proxy 时验证虚拟密钥与费用;通过可控主路故障演练确认回退触发;若用 MCP Gateway 则检查 store_model_in_db 与 SEP-986 命名。
使用场景
- 新助手上线需扛限流
- 迁移到多厂商 Router
- 启用 MCP Gateway 前评审
- 季度灾备演练
- 成本优化加备模型
主要功能
- 盘点 model_name 与主备角色
- 记录重试/超时/冷却配置
- 演练主部署故障观察 fallback
- 核对 Proxy 预算与护栏
- 检查 MCP 持久化与命名合规
- 填写 sign-off 表
相关推荐
相关推荐
3 收录条目
示例 SLO 文档起草
依据 Google SRE Workbook 附录《Example SLO Document》,把示范性「游戏服务 API / HTTP / 分数管道」的写法抽象为可落地的文档模板:先写清用户旅程与数据来源,再选定滚动观测窗口(示例为四周),为每一条 SLI(可用性剔除 5xx、延迟阈值、读取新鲜度、探针正确性、批任务完整性等)写清分子与分母的统计口径并给出目标百分比,解释目标选取与取整惯例,分项计算误差预算并与《示例错误预算策略》联动,最后用 clarifications/caveats 记录 ELB/SYN 探测等盲点。套用模板时需替换为你们自己的业务指标与数据来源。
错误预算策略起草
依据 Google SRE Workbook 附录示例,把错误预算写成可执行的治理文档:界定目标与非目标、滚动窗口内的冻结与放行规则、事故占用预算阈值对应的复盘与整改要求,以及预算口径争议时的升级路径,便于产品与研发对「可靠性 vs 迭代速度」达成共识。
生产故障应急响应
从检测到解决的生产故障处理结构化流程——涵盖严重性评估、团队协调、沟通模板和事后分析要求。