大数跨境
0
0

评估平台开发路线图与功能模块设计

评估平台开发路线图与功能模块设计 天开方舟智能
2025-12-05
1
导读:本平台面向大模型、RAG与智能体的统一评估与治理,支持单轮、多轮及Agent全链路评测,提供多阶段可观测、自动归因、版本管理与Token成本统计,确保结果可追溯、可复现、可管控,支持多租户与私有化部署

一、总体目标与定位

  • 目标:在现有 CLI + PostgreSQL + Pipeline YAML 能力基础上,演进为:
    • 面向「上层 Agent 平台」与「模型平台」的 统一评估服务
    • 提供 登录 / 权限管理 / 多租户 能力
    • 提供 稳定可控的 API 接口,支持对话评估、RAG/Agent 流水线评估、批量评测
  • 核心原则
    • 可观察、可追溯:评测过程与版本有完整记录
    • 可扩展、可插拔:模型、Judge、RAG 组件随时可替换
    • 生产可用:权限、安全、成本与配额可控

二、阶段性开发 Roadmap

阶段 1 平台基础与服务化改造

在现有之上,完成:
    • 登录与基础权限模型(用户 / 管理员)
    • 简单的多租户/项目空间概念(可先在数据上区分)
    • 对外暴露统一 评估 REST API(与当前 CLI 功能对齐)
    • 为模型调用统一管理基础参数(含 temperature,预留 top_p/top_k 等字段)
    • Token 使用数据的基础埋点与统计

关键输出

  • Web 登录页 + 基础用户表
  • 简单评估 API(提交评测任务、查询结果)
  • Token 统计表结构与记录逻辑
阶段 2:对话化 / RAG / 版本管理与 Judge 稳定性
对话化评估
    • API 层支持多轮对话会话 ID,评测对象从「单 Q/A」扩展为「对话 session」
    • 数据库中对 chat_history 做更清晰的 Session 结构和查询接口
RAG / Agent 评估链
    • 引入可配置的 RAG 组件(检索 / 重排 / 合并摘要)和 Agent 步骤(工具调用、计划执行等)
    • 在 Pipeline YAML 中加入 RAG 与 Agent 步骤定义(如:retrievertool_callsreranker
Judge 稳定性
    • Judge 失败(超时、响应无效)时支持 重试策略(固定次数 + 回退模型)
    • 对重要评测支持双判/抽样重评,统计 Judge 一致性
训练样本标记同步
    • 自动更新/标记对应 Pipeline 或数据集版本
    • 在后续评测中自动剔除训练样本
    • 当任务由 Training→非 Training(或反向)时:
版本化
    • Pipeline 配置每次变更产生新版本(保存 YAML 或差异快照)
    • 数据集引入 行级版本
    • 删除行、批量删除时自动生成新版本号
    • 支持根据特定版本进行评测,以避免行错位
    • 为 Pipeline / Judge / 数据集引入真实的版本记录
API 鉴权与配额
    • 为上层平台签发 API Key / Token
    • 支持按租户或项目限流、配额计数(调用次数 / token 使用)

关键输出

  • 扩展后的 Pipeline 配置格式(支持 RAG/Agent 步骤 + 版本号)
  • Judge 重试与回退机制
  • 数据集与任务行级版本表结构及查询接口

阶段 3:质量提升、成本治理与自动化评测

  • 回复质量迭代
    • Prompt 模板版本管理:支持对同一任务用不同 Prompt 版本进行 A/B 测试
    • 支持轻量 Prompt Tuning 工作流:基于错误样本与低分样本,半自动生成新模板
    • 预留微调(Fine-tuning/SFT/LoRA)入口:可将标注后的高质量样本导出为训练集
  • 推理参数策略
    • 在 Pipeline/模型层统一管理:temperaturetop_ptop_kmin_p 等默认值与可调范围
    • 为 API 提供参数模板 ID 或策略 ID(例如「高确定性」、「创意模式」)供上层平台调用
  • 成本优化
    • 接入 统一入口,简化多模型接入与计费
    • 在 Token 统计中增加「成本估算」维度(按模型单价)和「调用方」维度
  • 自动化回归评测
    • 支持对多个版本(模型版本 / Pipeline 版本 / Prompt 版本)进行批量评测对比
    • 生成对比报告:平均分、通过率、显著性差异、高风险样本列表等

关键输出

  • 参数策略与模板化配置
  • 成本/Token 仪表板基础视图
  • 回归评测对比报告(可视化或导出)

阶段 4:生态扩展与内置数据集完善

  • 内置评估数据集
    • 安全 / 对齐
    • 事实性 / RAG
    • 工具 / Agent
    • 代码 / 推理
    • 指令遵从 / 格式
  • 多租户与工作区模式
    • 支持团队级/项目级隔离,设置不同数据与配额范围
  • 插件化与市场化生态
    • 新 Judge 模型包
    • 新 RAG 知识库连接器
    • 新工具/Agent 节点
    • 针对外部用户开放:
  • 策略实验平台(AutoEval)
    • 支持按策略自动拉取新数据、周期性运行评测、推送结果
    • 与上层 CI/CD 或模型发布流程集成

三、功能模块设计

1. 身份认证与权限管理模块

    • 用户登录(邮箱+密码 / SSO 预留)
    • 角色:普通用户 / 项目管理员 / 平台管理员
    • 多租户 / 项目空间:数据与配额隔离
    • 审计日志:登录、评测创建、配置变更记录

    2. 评估 API 层(Evaluation Service API)

    • 提供 REST 风格(后续可扩展 gRPC)的评估 API:
      • 创建评测作业(单次 / 批量 / 对话)
      • 查询评测状态与结果
      • 取消评测
    • 对接现有 CLI 能力(评估数据集、查看结果)并封装为 API
    • 请求参数校验与默认参数注入(含 top_p/top_k/min_p 等)
    • API Key 鉴权与限流

    3. 对话化评估与会话管理模块

    • 支持基于 session_id 的多轮对话评估 API
    • 配置对话历史截断策略(基于 token / 回合数 / 重要性)
    • 数据库中优化会话结构和索引,支持按:
      • 用户 / 模型 / Pipeline / 时间范围 查询

      4. RAG / Agent 流水线模块

      • 在 Pipeline 中定义:
        • 检索器(retriever):如基于向量数据库的检索
        • 重排与摘要步骤
        • Agent 节点:调用工具(搜索、数据库、API)、执行计划等
      • 为 RAG/Agent 流程提供评估维度:
        • 文档相关性
        • 引用准确性(答案引用文档的正确性)
        • 工具调用成功率 / 冗余调用率

        5. 模型参数与推理策略管理模块

        • 统一管理模型调用参数:
          • temperature
            top_ptop_kmin_pmax_tokens 等
        • 定义策略模板(例如「保守模式」、「创意模式」、「高精度模式」)
        • 针对不同模型与场景限制参数范围(防止误用)

        6. Judge 评估模块与重试机制

        • Judge Pipeline 配置与版本管理
        • Judge 调用失败时的重试策略:
          • 固定次数重试
          • 切换备用 Judge 模型
        • 一致性与稳定性机制:
          • 抽样双判、三判
          • 评估 Judge 间一致性指标

          7. 流水线与版本管理模块

          • 对 Pipeline / Judge Pipeline 的每次变更生成版本记录:
            • 版本号、创建人、变更说明、完整配置快照
          • 评测运行时,保存所用版本的快照 ID
          • 支持查看历史版本与回滚

            8. 数据集与行级版本管理模块

            • 数据集整体版本号
            • 行级(任务级)版本记录:
              • 新增 / 修改 / 删除 都产生版本记录
            • 支持批量删除任务时自动提升版本号
            • 评测运行与数据集版本绑定,防止行错位
            • 当任务从 Training→非 Training 时自动更新相关 Pipeline 或数据集版本

              9. 质量迭代与优化模块(Prompt / Fine-tuning)

              • Prompt 模板管理与版本对比
              • 基于评测结果自动归集「失败样本」与「边界样本」
              • 提供 Prompt Tuning 工作流:
                • 根据失败样本调整 System/Instruction
                • 启动 A/B 实验验证改动效果
              • 提供 SFT / LoRA 训练数据导出能力,便于轻量微调

                10. Token 与成本观测模块

                • 记录每次调用的 token 使用情况:
                  • prompt / completion / total tokens
                  • 模型名称、调用方、评测任务 ID / 运行 ID
                • 按模型单价估算成本,汇总到:
                  • 模型维度
                  • 租户 / 项目维度
                  • 数据集 / 评测运行维度
                • 与 OpenRouter 结合,支持多模型聚合与统一计费视图

                  11. 内置评估数据集模块

                  • 安全 / 对齐
                          越狱攻击、敏感信息泄露、违法违规内容生成等
                          可重点覆盖中文场景
                  • 事实性 / RAG
                    新闻 / 百科 / 企业知识问答
                    对答案中引用的文档进行正确性评估
                  • 工具 / Agent:工单处理、日程助手、检索+总结、函数调用稳定性
                  • 代码 / 推理:数学推理、逻辑推理、代码修复与解释
                  • 指令遵从 / 格式:输出格式对齐、拒答场景、冗长度控制等

                  12. 观测与运维模块

                    • 指标 / 日志 / Trace 集成(可使用 OpenTelemetry)
                    • 健康检查、告警(API 错误率 / 延迟 / 队列积压)
                    • 定期备份数据库与配置快照,支持恢复

                  13. 安全与合规模块

                    • 数据脱敏与分级(如用户标识、业务敏感字段)
                    • 审计日志(谁在什么时间对什么数据做了什么操作)
                    • 内容安全策略(可与内置安全评估数据集联动)


                  【声明】内容源于网络
                  0
                  0
                  天开方舟智能
                  AI赋能企业智能化
                  内容 2
                  粉丝 0
                  天开方舟智能 AI赋能企业智能化
                  总阅读0
                  粉丝0
                  内容2