近日,全球多语信息处理解决方案提供商——上海佑译信息科技有限公司(简称UTH国际)推出的 “语料库建设及科研协作云平台”(http://tools.utranshub.com)正式发布上线。平台从语料大数据基础建设、单语 / 双语语料处理和质检审核等底层方面做了进一步优化,确保了数据结构的完善与质量的提升。

语料库建设及科研协作云平台界面
语料库建设及科研协作云平台(以下简称 语料库建设与科研平台),是UTH国际在多年建设大数据语料的技术和经验基础上,经过调研高校、科研单位基本需求之下研发的平台,兼具语料库建设和科研的双重价值。
在语料库建设部分,平台提供双语语料对齐、元数据标注、领域划分、检索类型以及TMX记忆库语料的元数据标注、领域划分、检索类型归类等模块。

语料元数据标注
同时,语料库建设与科研平台为建设对齐后的语料数据设置了语料评分环节和敏感词过滤环节,意在对语料的质量进行评估,同时删除敏感词汇,从而更好地对语料进行管理。而对已经入库且需要修正的语料,平台提供拼写词替换模块等功能,进行入库前的数据维护。

语料评分界面
平台科研功能体现在语料查询和元数据标注模块,通过在检索框中输入中文或英文关键词来检索已评分入库的合格语料数据;查询模块支持高级检索(如逻辑规则、正则查询等);查询结果以关键词词频降序排列,也可将关键词居中显示。
根据不同的项目需求,查询功能呈多样化。可补充词性标注,按领域/作者/时间/语种筛选后进行单语/平行语料的搭配查询。

关键词内容居中显示
通过关键词查询结果及展现形式,为高校及科研单位语言学研究人员科研论题提供数据案例支撑及交叉验证。平台检索结果以句对的形式展现,并缩略展示语料的领域、质量、数据来源等信息,点击句对后可看到句对的元数据信息、文本难度信息、相似句对、翻译点评、难词集锦等数据。

语料元数据信息展示界面
佑译语料库建设及科研协作云平台与以往的语料库对齐工具最大的亮点在于部署云平台和协作分工,在高效大批量协作建库的同时,确保了建库数据的存储安全、访问的便利性、大数据计算处理快捷与易维护且成本低等的优点,后期可针对用户的需求进行深度迭代开发,增加高频词查询,词块查询,话轮标注等功能,旨在提升用户的体验度,令其更加便利、精确地查询到所需的语料文本。
此外,UTH国际还将继续研发团队管理模式的语料库建设后台,支持高校师生、科研人员建立自己的语料处理团队——跟踪团队成员的语料处理情况;跟进项目完成情况;自定义标注语料信息,更多地考虑到用户的自主性元素和个体适用性。
大数据信息化时代下,语料库建设及科研协作云平台的发展紧跟时代步伐、来日可期!

掌握语言核心科技
推动世界无限沟通

长按二维码 关注我们


