在人工智能蓬勃发展的今天,大模型的应用和优化成为了行业关注的焦点。为了推动这一领域的进步,打造一个公开、公正的大模型评测环境,模速空间模型评测服务平台(http://mcbench.opensmc.com)正式上线,为大模型的评测与发展注入了新的动力。
模速空间模型评测服务平台共包含八大功能:
评测任务管理:
认证用户可自行选择待评测模型,创建评测任务、查看评测任务进度及结果
评测环境及工具:
用户可选择不同的评测工具执行评测任务
测试数据集:
提供多维度的测试集,包含推理、知识、代码、理解、数学、语言、安全、合规等不同类别
自动化评测:
支持定时定期的自动化评测并自动化生成评测结果
评测报告:
对完成评测的评测任务会自动生成包含评分的模型评测报告
模型比武:
用户可自选或匿名方式选择不同的大模型,并根据与大模型的真实对话体验进行投票
评测榜单:
支持不同模型的多维度评测榜单展示,包括不同维度测试集的模型榜单展示,比武结果榜单展示等
用户认证管理:
面向所有用户开放模型比武场体验,模速空间企业认证用户可直接登录评测服务平台

