五、【考核篇】拒绝盲盒
——如何给你的数字员工做绩效考核 (Evals)?
1. 告别“体感测试”
很多开发者靠“自己聊几句”觉得“味道对了”就上线。这是非常危险的。你需要一套自动化、数字化的考试系统。
2. LLM-as-a-Judge —— 请个“老教授”来阅卷
谁来阅卷?请 100 个人类专家太贵。
行业标准做法是:用更强的 AI,来给现在的 AI 打分。
考核流程:
1. 出题: “公司客服电话是多少?”
2. 答题: 你的 AI (实习生) 回答:“400-123-4567。”
3. 阅卷: 系统把题目、回答和标准答案交给 GPT-4 (老教授)。
4. 打分: 老教授分析:“标准答案是 400-888-8888,回答错误。打分:0分。”
3. 考核什么?(Key Metrics)
准确性 (Correctness): 事实对不对?
#### 忠实度 (Faithfulness): 有没有瞎编(幻觉)? #### 安全与语气 (Safety & Tone): 有没有骂人?有没有泄密?

