

【数据寻源】翻译语料多语言数据需求一则

北京国际大数据交易所是贯彻北京市"国家服务业扩大开放综合示范区"和"中国(北京)自由贸易试验区"建设的标杆性重点项目。
北京国际大数据交易所探索建立集数据登记、评估、共享、交易、应用、服务于一体的数据流通机制,推动建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范,引导数据资源要素汇聚和融合利用,促进数据资源要素规范化整合、合理化配置、市场化交易、长效化发展。
现发布一则翻译语料多语言数据需求信息,欢迎相关数据源方与我们联系。

翻译语料多语言数据需求信息

【需求概述】
高质量多样性的平行语料集合,内容涉及小语种语国家新闻、政府文件、特色文化等,平行语料包括一对中文转小语种文本;
【数据要求】
格式要求:文本类型的纯文本,编码格式utf-8;
数量要求:每种语言不低于100万条;
语言要求:阿拉伯语、俄语、韩语、泰语、越语5种语言;
【应用场景简述】
用于AI大模型训练使用。
【数据提交通道】
若您有适配以上需求的相关数据或其他行业或领域的高质量数据资源,请点击阅读原文或在北京国际大数据交易所官网和公众号上找到需求大厅并认领对应需求,共同促进优质数据的合规交易流通。
END


