一、总体目标与定位
- 目标:在现有 CLI + PostgreSQL + Pipeline YAML 能力基础上,演进为:
-
面向「上层 Agent 平台」与「模型平台」的 统一评估服务层 -
提供 登录 / 权限管理 / 多租户 能力 -
提供 稳定可控的 API 接口,支持对话评估、RAG/Agent 流水线评估、批量评测 - 核心原则
-
可观察、可追溯:评测过程与版本有完整记录 -
可扩展、可插拔:模型、Judge、RAG 组件随时可替换 -
生产可用:权限、安全、成本与配额可控
二、阶段性开发 Roadmap
阶段 1 平台基础与服务化改造
-
登录与基础权限模型(用户 / 管理员) -
简单的多租户/项目空间概念(可先在数据上区分) -
对外暴露统一 评估 REST API(与当前 CLI 功能对齐) -
为模型调用统一管理基础参数(含 temperature,预留top_p/top_k等字段) -
Token 使用数据的基础埋点与统计
关键输出:
-
Web 登录页 + 基础用户表 -
简单评估 API(提交评测任务、查询结果) -
Token 统计表结构与记录逻辑
-
API 层支持多轮对话会话 ID,评测对象从「单 Q/A」扩展为「对话 session」 -
数据库中对 chat_history做更清晰的 Session 结构和查询接口
-
引入可配置的 RAG 组件(检索 / 重排 / 合并摘要)和 Agent 步骤(工具调用、计划执行等) -
在 Pipeline YAML 中加入 RAG 与 Agent 步骤定义(如: retriever、tool_calls、reranker)
-
Judge 失败(超时、响应无效)时支持 重试策略(固定次数 + 回退模型) -
对重要评测支持双判/抽样重评,统计 Judge 一致性
-
自动更新/标记对应 Pipeline 或数据集版本 -
在后续评测中自动剔除训练样本 -
当任务由 Training→非 Training(或反向)时:
-
Pipeline 配置每次变更产生新版本(保存 YAML 或差异快照) -
数据集引入 行级版本: -
删除行、批量删除时自动生成新版本号 -
支持根据特定版本进行评测,以避免行错位 -
为 Pipeline / Judge / 数据集引入真实的版本记录
-
为上层平台签发 API Key / Token -
支持按租户或项目限流、配额计数(调用次数 / token 使用)
关键输出:
-
扩展后的 Pipeline 配置格式(支持 RAG/Agent 步骤 + 版本号) -
Judge 重试与回退机制 -
数据集与任务行级版本表结构及查询接口
阶段 3:质量提升、成本治理与自动化评测
- 回复质量迭代
-
Prompt 模板版本管理:支持对同一任务用不同 Prompt 版本进行 A/B 测试 -
支持轻量 Prompt Tuning 工作流:基于错误样本与低分样本,半自动生成新模板 -
预留微调(Fine-tuning/SFT/LoRA)入口:可将标注后的高质量样本导出为训练集 - 推理参数策略
-
在 Pipeline/模型层统一管理: temperature、top_p、top_k、min_p等默认值与可调范围 -
为 API 提供参数模板 ID 或策略 ID(例如「高确定性」、「创意模式」)供上层平台调用 - 成本优化
-
接入 统一入口,简化多模型接入与计费 -
在 Token 统计中增加「成本估算」维度(按模型单价)和「调用方」维度 - 自动化回归评测
-
支持对多个版本(模型版本 / Pipeline 版本 / Prompt 版本)进行批量评测对比 -
生成对比报告:平均分、通过率、显著性差异、高风险样本列表等
关键输出:
-
参数策略与模板化配置 -
成本/Token 仪表板基础视图 -
回归评测对比报告(可视化或导出)
阶段 4:生态扩展与内置数据集完善
- 内置评估数据集
-
安全 / 对齐 -
事实性 / RAG -
工具 / Agent -
代码 / 推理 -
指令遵从 / 格式 - 多租户与工作区模式
-
支持团队级/项目级隔离,设置不同数据与配额范围 - 插件化与市场化生态
-
新 Judge 模型包 -
新 RAG 知识库连接器 -
新工具/Agent 节点 -
针对外部用户开放: - 策略实验平台(AutoEval)
-
支持按策略自动拉取新数据、周期性运行评测、推送结果 -
与上层 CI/CD 或模型发布流程集成
三、功能模块设计
1. 身份认证与权限管理模块
-
用户登录(邮箱+密码 / SSO 预留) -
角色:普通用户 / 项目管理员 / 平台管理员 -
多租户 / 项目空间:数据与配额隔离 -
审计日志:登录、评测创建、配置变更记录
2. 评估 API 层(Evaluation Service API)
-
提供 REST 风格(后续可扩展 gRPC)的评估 API: -
创建评测作业(单次 / 批量 / 对话) -
查询评测状态与结果 -
取消评测 -
对接现有 CLI 能力(评估数据集、查看结果)并封装为 API -
请求参数校验与默认参数注入(含 top_p/top_k/min_p等) -
API Key 鉴权与限流
3. 对话化评估与会话管理模块
-
支持基于 session_id的多轮对话评估 API -
配置对话历史截断策略(基于 token / 回合数 / 重要性) -
数据库中优化会话结构和索引,支持按: -
用户 / 模型 / Pipeline / 时间范围 查询
4. RAG / Agent 流水线模块
-
在 Pipeline 中定义: -
检索器(retriever):如基于向量数据库的检索 -
重排与摘要步骤 -
Agent 节点:调用工具(搜索、数据库、API)、执行计划等 -
为 RAG/Agent 流程提供评估维度: -
文档相关性 -
引用准确性(答案引用文档的正确性) -
工具调用成功率 / 冗余调用率
5. 模型参数与推理策略管理模块
-
统一管理模型调用参数: temperature、 top_p、top_k、min_p、max_tokens等-
定义策略模板(例如「保守模式」、「创意模式」、「高精度模式」) -
针对不同模型与场景限制参数范围(防止误用)
6. Judge 评估模块与重试机制
-
Judge Pipeline 配置与版本管理 -
Judge 调用失败时的重试策略: -
固定次数重试 -
切换备用 Judge 模型 -
一致性与稳定性机制: -
抽样双判、三判 -
评估 Judge 间一致性指标
7. 流水线与版本管理模块
-
对 Pipeline / Judge Pipeline 的每次变更生成版本记录: -
版本号、创建人、变更说明、完整配置快照 -
评测运行时,保存所用版本的快照 ID -
支持查看历史版本与回滚
8. 数据集与行级版本管理模块
-
数据集整体版本号 -
行级(任务级)版本记录: -
新增 / 修改 / 删除 都产生版本记录 -
支持批量删除任务时自动提升版本号 -
评测运行与数据集版本绑定,防止行错位 -
当任务从 Training→非 Training 时自动更新相关 Pipeline 或数据集版本
9. 质量迭代与优化模块(Prompt / Fine-tuning)
-
Prompt 模板管理与版本对比 -
基于评测结果自动归集「失败样本」与「边界样本」 -
提供 Prompt Tuning 工作流: -
根据失败样本调整 System/Instruction -
启动 A/B 实验验证改动效果 -
提供 SFT / LoRA 训练数据导出能力,便于轻量微调
10. Token 与成本观测模块
-
记录每次调用的 token 使用情况: -
prompt / completion / total tokens -
模型名称、调用方、评测任务 ID / 运行 ID -
按模型单价估算成本,汇总到: -
模型维度 -
租户 / 项目维度 -
数据集 / 评测运行维度 -
与 OpenRouter 结合,支持多模型聚合与统一计费视图
11. 内置评估数据集模块
-
安全 / 对齐 越狱攻击、敏感信息泄露、违法违规内容生成等 可重点覆盖中文场景
-
事实性 / RAG 新闻 / 百科 / 企业知识问答 对答案中引用的文档进行正确性评估
-
工具 / Agent:工单处理、日程助手、检索+总结、函数调用稳定性
-
代码 / 推理:数学推理、逻辑推理、代码修复与解释 -
指令遵从 / 格式:输出格式对齐、拒答场景、冗长度控制等
12. 观测与运维模块
-
指标 / 日志 / Trace 集成(可使用 OpenTelemetry) -
健康检查、告警(API 错误率 / 延迟 / 队列积压) -
定期备份数据库与配置快照,支持恢复
13. 安全与合规模块
-
数据脱敏与分级(如用户标识、业务敏感字段) -
审计日志(谁在什么时间对什么数据做了什么操作) -
内容安全策略(可与内置安全评估数据集联动)

