Skill Entry

评测与基准

构建评测套件:带基准答案的自动化评分与回归检测,让团队在模型或提示词变更上线前就知道效果有没有提升,而不是靠感觉。

分类 运营
平台 Codex / Claude Code
发布时间 2026-04-20
evaluationtestingquality

使用场景

  • 模型对比
  • 提示词 A/B 测试
  • 回归检测

主要功能

  • 定义任务级指标
  • 整理评测数据集
  • 在 CI 里跑自动化评分

相关推荐

相关推荐

3 收录条目