数据集地址
模型地址
在预训练阶段,中科闻歌使用了互联网数据来训练模型的语言能力,添加了通用精选数据和领域数据,以增强模型的专业技能。
数据&语言分布
其构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。
共收集了 240TB 原始数据,预处理后剩 10.6TB 高质量数据。
软积木
数据集地址
模型地址
在预训练阶段,中科闻歌使用了互联网数据来训练模型的语言能力,添加了通用精选数据和领域数据,以增强模型的专业技能。
数据&语言分布
其构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。
共收集了 240TB 原始数据,预处理后剩 10.6TB 高质量数据。