
该语料库主要的清洗过滤处理如下:
▪ 信源筛选:
为了保证语料数据的安全合规,中文互联网基础语料3.0精选国内优秀中文网站作为数据源。通过对数据来源的严格筛选,提升数据的合法性、真实性、准确性和客观性等,支撑形成积极健康、向上向善的优质内容。
▪ 违法不良信息过滤:
根据《生成式人工智能服务管理暂行办法》等法律法规要求,通过规则和模型等技术手段,清洗过滤违反社会主义核心价值观等违法不良信息和个人隐私数据。
▪ 低质内容过滤:
通过规则等技术手段,过滤格式混乱、语句不通等低质量文本数据。
▪ 数据去重:
通过主流去重算法移除重复的数据。
用户可以通过 “中文互联网语料资源平台(https://corpus.cybersac.cn)” 链接,注册并认证后下载相关语料。
相关负责人表示,中文互联网基础语料 3.0 的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设,为人工智能技术创新和产业发展提供有力支撑和保障。
更多精彩内容

