

中文互联网基础语料3.0上线，为AI大模型提供120GB可信数据

北京无限迭代科技有限公司

2025-09-24

导读：近日中文互联网基础语料3.0正式发布！这一新版本的数据量达到了惊人的 120GB，旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

近日在昆明召开的 2025 年国家网络安全宣传周人工智能安全治理分论坛上，中文互联网基础语料3.0正式发布！这一新版本的数据量达到了惊人的 120GB，旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

在中央网信办相关部门指导下，中国网络空间安全协会会同国家互联网应急中心等单位，在前期发布中文互联网基础语料1.0和2.0的基础上，持续发挥企业、高校和科研单位协同优势，依托“共建－共享”机制，汇聚一批新的高质量可信数据，经过信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等一系列严格、细致、规范的数据处理步骤，形成了高质量的中文互联网基础语料3.0，数据量120GB。

该语料库主要的清洗过滤处理如下：

▪ 信源筛选：

为了保证语料数据的安全合规，中文互联网基础语料3.0精选国内优秀中文网站作为数据源。通过对数据来源的严格筛选，提升数据的合法性、真实性、准确性和客观性等，支撑形成积极健康、向上向善的优质内容。

▪ 违法不良信息过滤：

根据《生成式人工智能服务管理暂行办法》等法律法规要求，通过规则和模型等技术手段，清洗过滤违反社会主义核心价值观等违法不良信息和个人隐私数据。

▪ 低质内容过滤：

通过规则等技术手段，过滤格式混乱、语句不通等低质量文本数据。

▪ 数据去重：

通过主流去重算法移除重复的数据。