大数跨境
0
0

中科闻歌YAYI2-30B Base 模型开源!超 2 万亿 Tokens 预训练语料!

中科闻歌YAYI2-30B Base 模型开源!超 2 万亿 Tokens 预训练语料! 软积木
2023-12-27
2
导读:YAYI 2 是中科闻歌研发的新一代开源大语言模型,包括 Base 和 Chat 版本,参数规模为 30B。
YAYI 2 是中科闻歌研发的新一代开源大语言模型,包括 Base 和 Chat 版本,参数规模为 30B。
YAYI2-30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。
Github
Github地址:
https://github.com/wenge-research/YAYI2
中科闻歌在多个基准数据集上进行了评测:包括 C-Eval、MMLU、 CMMLU、AGIEval、GAOKAO-Bench、GSM8K、MATH、BBH、HumanEval 以及 MBPP。
模型在语言理解、学科知识、数学推理、逻辑推理以及代码生成方面的表现良好。
YAY12 Base 和 Chat 模型训练过程

数据集地址

https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data

模型地址

https://huggingface.co/wenge-research/yayi2-30b

在预训练阶段,中科闻歌使用了互联网数据来训练模型的语言能力,添加了通用精选数据和领域数据,以增强模型的专业技能。

 数据&语言分布

其构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。

共收集了 240TB 原始数据,预处理后剩 10.6TB 高质量数据。

END 


ChatU.AI可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!


【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读14
粉丝0
内容157