大数跨境
0
0

DWPI是如何炼成的系列之翻译篇——聊聊“中文机器翻译人工辅助系统”

DWPI是如何炼成的系列之翻译篇——聊聊“中文机器翻译人工辅助系统” 科睿唯安
2017-06-20
0
导读:当柯洁中盘面对阿尔法狗(Alphago)潸然泪下的时候,人工智能的力量,让这位世界围棋排名第一的棋手心中,五味杂陈。

当柯洁中盘面对阿尔法狗(Alphago)潸然泪下的时候,人工智能的力量,让这位世界围棋排名第一的棋手心中,五味杂陈。



蒙蒂·海姆斯(Monty Hyams)先生靠着敏锐的商业眼光在50多年前创建了德温特世界专利索引(Derwent World Patents Index, 简称DWPI)。在他的有生之年,亲眼见证了具有学习能力的翻译引擎应用于曾经靠他东奔西走、誊抄改写而造就的DWPI上。


早在2011年,前身还是汤森路透知识产权与科技事业部的科睿唯安就开始使用机器翻译人工辅助的方式提供快速、准确的中国专利数据英文翻译文本。


这个汇聚了科睿唯安无数人心血的中文机器翻译人工辅助系统,就是CN MAT (Chinese Machine Assisted Translation)

 

俗话说,名师出高徒。CN MAT和它的“万国师傅团”,正是将处于科技浪潮之巅的自然语言处理技术与汇聚人类智慧的人工辅助翻译相结合。

 

CN MAT 远非一个仅靠系统内嵌的海量语料库和逻辑算法“单打独斗”的翻译机器。在它身后,是来自中国、英国、美国、德国等国家的万国师傅团六年如一日的悉心教导、不断优化;是针对翻译引擎数以万计的专业词汇查证与更新;是针对数以百万的经过专业人员人工翻译的专利文本的深度学习。


 

覆盖更专业、更新潮的词汇

仅2017年5月15日至5月31日的半个月时间,就有超过2800个经过审核、查证的词条被CN MAT 中国支持团队提交入库,用于日后的机器翻译。这个数字,相当于9个月撰写一本577页的商务印书馆出版的牛津中阶英汉双解词典(第4版)。



然而,这些被人工审核的词条,远非“中阶”词汇这么简单。它们有些颇为专业,有些晦涩难懂,有些极其新潮,并不能从哪本字典中轻松查到的。CN MAT支持团队往往需要查阅大量的国内外资料才能确定翻译版本,其工作量与背后的艰辛远不止将一般的纸质词典直接搬入CN MAT。

 

比如红遍大江南北的中国网络热词直播、打赏、弹幕,就早早被师傅们教给了CN MAT系统,用于日后的翻译。


(给大家一张人工审核提交的词条截图,请随意感受一下)



 

使用更地道的专利语言

专利翻译,并不是简单的词汇堆积。专利语言中深奥的技术背景、超长的句式、多个并列的形容词和限定词以及复杂的从属关系往往会让一般的翻译引擎手足无措,而依靠简单堆积词汇的翻译方式更会让翻译文本惨不忍睹。

 

每一天,CN MAT支持团队都会对系统中各技术领域的翻译文本进行认真检查,特别是针对翻译难度较高的特定技术领域进行重点核查,并对有瑕疵的机器翻译译文进行人工修正

 

这些经过专业人员人工翻译的高质量翻译文本都会被存入CN MAT系统中,除了作为翻译范本直接应用在日后中文文本类似的翻译中,也会像‘错题本’一样提供给CN MAT 翻译引擎进行后期学习、校正。


Publication Number: CN106634080A Publication Date: 2017-05-10

纯机器翻译版本



经过支持团队人工辅助后的翻译版本



 

定期的全面质量评估与系统升级

每隔一段时间,CN MAT的支持团队会针对中文文本翻译情况和机器翻译的短板做出全面、细致的质量分析报告,并针对CN MAT系统现有的翻译短板进行系统维护与更新。

 

当然,在每一次系统更新包被正式推送到系统之前,CN MAT中国支持团队会针对现有的CN MAT 翻译文本和更新后的CN MAT 翻译文本进行翻译质量对比测试。为保证数据的准确性,只有在确认更新版的系统翻译质量更强之后,科睿唯安才会将更新正式推送到CN MAT系统中。

 

2016年9月,CN MAT系统迎来了软件与硬件的大规模升级。除了内嵌在质与量上都全面升级的新版语料库,更新了更贴近中文专利翻译需求的算法,机器翻译速度也迎来了大范围提高。

 

更重要的是,8位不同学科背景的Content Specialist 加入科睿唯安大中华区大家庭,为中文文本翻译质量控制保驾护航。


精准、快速的机器翻译人工辅助文本对后期DWPI数据深加工的准确与时效有着重要意义,更为全球其他国家的人士深入了解中文专利内容提供了有力的支持。语言,在Derwent Innovation中,不再是获取专利信息的障碍。


DWPI 中文机器翻译人工辅助系统CN MAT,正是人类智慧与科学技术的结晶。更是科睿唯安的后辈们站在蒙蒂·海姆斯(Monty Hyams)先生等先驱的肩膀上,借助科技浪潮之巅的机器翻译技术革命,又一次扬帆起航。


本文作者:许喆

Content Specialist Team Lead - Chinese Content

科睿唯安(原汤森路透知识产权与科技事业部)



欢迎关注微信公众号:“企业国际化智库。期待与企事业单位从事国际业务的人员,以及“商标”、“域名”、“标准”、“品牌保护”“专利”等领域的人员共同交流。


本文作者对本文的全部内容以及可能附带的全部资料拥有全部知识产权,并受法律保护。网络转载请注明作者及内容来源,商业使用请联系:victoria.wang@clarivate.com




【声明】内容源于网络
0
0
科睿唯安
科睿唯安是专业信息服务的全球领先企业,致力于提供值得信赖的数据与深入的分析,助力客户加速创新步伐。官网:clarivate.com.cn
内容 1636
粉丝 0
科睿唯安 科睿唯安是专业信息服务的全球领先企业,致力于提供值得信赖的数据与深入的分析,助力客户加速创新步伐。官网:clarivate.com.cn
总阅读512
粉丝0
内容1.6k