大数跨境
0
0

中文互联网基础语料3.0上线,为AI大模型提供120GB可信数据

中文互联网基础语料3.0上线,为AI大模型提供120GB可信数据 北京无限迭代科技有限公司
2025-09-24
1
导读:近日中文互联网基础语料3.0正式发布!这一新版本的数据量达到了惊人的 120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

近日在昆明召开的 2025 年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布!这一新版本的数据量达到了惊人的 120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

在中央网信办相关部门指导下,中国网络空间安全协会会同国家互联网应急中心等单位,在前期发布中文互联网基础语料1.0和2.0的基础上,持续发挥企业、高校和科研单位协同优势,依托“共建-共享”机制,汇聚一批新的高质量可信数据,经过信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等一系列严格、细致、规范的数据处理步骤,形成了高质量的中文互联网基础语料3.0,数据量120GB

该语料库主要的清洗过滤处理如下:


▪ 信源筛选:

为了保证语料数据的安全合规,中文互联网基础语料3.0精选国内优秀中文网站作为数据源。通过对数据来源的严格筛选,提升数据的合法性、真实性、准确性和客观性等,支撑形成积极健康、向上向善的优质内容。


▪ 违法不良信息过滤:

根据《生成式人工智能服务管理暂行办法》等法律法规要求,通过规则和模型等技术手段,清洗过滤违反社会主义核心价值观等违法不良信息和个人隐私数据。


▪ 低质内容过滤:

通过规则等技术手段,过滤格式混乱、语句不通等低质量文本数据。


▪ 数据去重:

通过主流去重算法移除重复的数据。

用户可以通过 “中文互联网语料资源平台(https://corpus.cybersac.cn” 链接,注册并认证后下载相关语料。


相关负责人表示,中文互联网基础语料 3.0 的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设为人工智能技术创新和产业发展提供有力支撑和保障。


更多精彩内容





点击关注 get更多“无限迭代”最新资讯

 
 

【声明】内容源于网络
0
0
北京无限迭代科技有限公司
专注AI大模型训练语料与数据合成
内容 11
粉丝 0
北京无限迭代科技有限公司 专注AI大模型训练语料与数据合成
总阅读1
粉丝0
内容11