大数跨境
0
0

当大模型遇上中文评估套件,效率翻翻翻!

当大模型遇上中文评估套件,效率翻翻翻! 软积木
2023-06-27
0

孵化的明星项目ChatU.AI 产品可免费申请试用,作为企业级AIGC,支持企业私有部署,多引擎的AIGC操作系统,安全稳定,关注下方软积木AIGC公众号,一键体验!(试用链接:m.chatu.pro)

关于 C-Eval


C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。


数据


数据可以直接从Huggingface数据集下载。请参考GitHub了解如何读取和使用数据。
Huggingface数据集:
https://huggingface.co/datasets/ceval/ceval-exam
GitHub:
https://github.com/SJTU-LIT/ceval#data

引用

@article{huang2023ceval,title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian},journal={arXiv preprint arXiv:2305.08322},year={2023}}

论文下载地址:
https://arxiv.org/abs/2305.08322

GitHub:
https://github.com/SJTU-LIT/ceval

排行榜 - C-Eval


不同科目和平均的测试结果展示如下。 以下结果代表zero-shot或者few-shot测试 ---- 注意few-shot不一定比zero-shot效果好, 例如在团队自己的测试中发现许多经过指令微调之后的模型在zero-shot下更好。团队自己测试的很多模型同时有zero-shot和few-shot的结果,下面在排行榜中显示了总平均分更好的那个设置。(模型描述包括prompt形式可点进模型查看)


大家可以向C-Eval提交模型的测试结果(zero-shot或者few-shot的结果都可以),点击开始提交(默认情况下你的提交结果只对你自己可见,并不会公开在排行榜上,你可以在提交界面请求公开)。


提交地址:

https://cevalbenchmark.com/index.html


(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)



大模型的发展极大的便利了我们的生活,在前面的介绍中,我向大家推荐了一个可以多层次的多学科的中文评估套件,这种模型具备强大的学习和处理能力,可以帮助我们快速的产出。


同样,小编还搜集了其他的大语言模型,如ChatU.AI ,该大模型不仅支持与人互动,可进行文本创作、图片制作等,还可以进行企业私有数据训练等,帮助客户高效便捷地获取信息、提升效率。


淘汰人类的不是AI,可能是不会使用AI的人。拥抱AI,提升效率!体验链接:m.chatu.pro


END


PS:ChatU.AI 全国代理商招募活动开始了,更优秀的产品、更丰厚的市场回报,扫描下方二维码,期待与优秀者同行!


免责声明:

由于传播、利用本公众号软积木所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,公众号软积木及作者不为此承担任何责任,一旦造成后果请自行承担!如有侵权烦请告知,我们会立即删除并致歉。谢谢!


【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读92
粉丝0
内容157