在标准化 AI 编码栈前核查:SCM 状态页 incident、主备 Agent(Copilot/Cursor/Claude Code 等)、Braintrust 等 tracing 基线,以及托管与 Agent API 双故障演练;引用公开计费与 outage 报道。
使用场景
- GitHub 多次故障后选默认 Agent
- Copilot 按量计费后评估保留
- SCM 与 Agent 独立故障 DR
- 季度竞品份额评审
- 大规模 onboarding 低容忍中断
主要功能
- 拉取 90 天 SCM incident
- 记录主备 Agent 与功能对等
- 附加 tracing/评测基线
- 联合演练 SCM/Agent 故障
- 与财务复核许可与用量
- 发布 failover 就绪备忘录
相关推荐
相关推荐
3 收录条目
多区域 LLM 提供商就绪度核查
将出口管制与多厂商路由整理为规划清单:记录主/备路(含 Helicone、LiteLLM Router)、量化区域封锁敞口,并在管理层对某市场「零预期」时与财务口径一致;含法务会签、故障演练与上线前证据。
LiteLLM Router 回退就绪度核查
将 LiteLLM 路由文档转化为上线前清单:核对主/备部署、重试与负载策略;经 Proxy 时验证虚拟密钥与费用;通过可控主路故障演练确认回退触发;若用 MCP Gateway 则检查 store_model_in_db 与 SEP-986 命名。
示例 SLO 文档起草
依据 Google SRE Workbook 附录《Example SLO Document》,把示范性「游戏服务 API / HTTP / 分数管道」的写法抽象为可落地的文档模板:先写清用户旅程与数据来源,再选定滚动观测窗口(示例为四周),为每一条 SLI(可用性剔除 5xx、延迟阈值、读取新鲜度、探针正确性、批任务完整性等)写清分子与分母的统计口径并给出目标百分比,解释目标选取与取整惯例,分项计算误差预算并与《示例错误预算策略》联动,最后用 clarifications/caveats 记录 ELB/SYN 探测等盲点。套用模板时需替换为你们自己的业务指标与数据来源。