
【数据寻源】多语言通用合集需求一则
北京国际大数据交易所是贯彻北京市"国家服务业扩大开放综合示范区"和"中国(北京)自由贸易试验区"建设的标杆性重点项目。
北京国际大数据交易所探索建立集数据登记、评估、共享、交易、应用、服务于一体的数据流通机制,推动建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范,引导数据资源要素汇聚和融合利用,促进数据资源要素规范化整合、合理化配置、市场化交易、长效化发展。
现发布一则多语言通用合集需求信息,欢迎相关数据源方与我们联系。
多语言通用合集需求信息
【需求概述】
高质量且内容多样的小语种文本资源集合,需要长文本与短句样本;
【数据要求】
格式要求:文本类型的纯文本,编码格式utf-8;
数量要求:每种语言不低于5000万条,每条语料纯文本大小不低于512个字符;
语言要求:包括但不限于阿拉伯语、俄语、韩语、捷克语、塞尔维亚语、泰语、匈牙利语、越语等8种语言;
【应用场景简述】
用于AI大模型训练使用。
【数据提交通道】
若您有适配以上需求的相关数据或其他行业或领域的高质量数据资源,请点击阅读原文或在北京国际大数据交易所官网和公众号上找到需求大厅并认领对应需求,共同促进优质数据的合规交易流通。
END


