有一个神奇的平台,可以做多格式双语语料的检索、上传、下载和分享,并可查询和下载欧美近1000所高校的学位论文和部分期刊论文,可以用它生成教学案例、课下作业案例、考试题目……
这款神奇的平台就是UTH国际的拳头产品之一——多功能语料库与教学、科研大数据云平台(芝麻搜索)

www.zhimasousuo.com
双语内容搜索与分享平台
多语言的知识文库
多语言大数据和学术资源检索中心
语料对齐、标注和多功能应用的催化剂
集教学、科研、学科建设于一体的一站式服务中心
学科英语和学术英语能力提升的加速器
2017年上线伊始,芝麻搜索主要以超大规模平行语料库引起众多高校的关注。其后,芝麻搜索在平台功能上不断迭代,现已成为集双语检索与分享、多语言大数据和学术资源检索、语料对齐与应用等多功能于一体的大数据云平台,为教学、科研提供极高的价值。目前,该平台已顺利获得国家数字出版物正式出版号,并已应用于国内外30多所高校的教学、科研和学科建设中。2018年伊始,平台功能再升级。
一、语料格式多样,覆盖学科领域不断丰富
UTH语料覆盖法律、生命科学、旅游休闲、交通运输等15个语言服务热点行业,并细分为电子信息工程、土木工程、国际经济与贸易、电子商务等178个高校学科,很好地连接了语言服务行业与高校教学。UTH语料目前已支持“一带一路”沿线国家官方语言中的 33 种,包括:泰语、老挝语、高棉语、阿拉伯语、保加利亚语、捷克语、爱沙尼亚语、匈牙利语、罗马尼亚、波兰语、斯洛文尼亚语、俄语等。

UTH国际与全球上万家机构、组织和个人建立有合作伙伴关系,其中包括多家双语杂志、全球性报刊和大中型出版社、全球数百家翻译公司、上万名资深专业译者、近百家语言服务购买方、国际顶级大数据行业机构以及国内外多家高校和科研机构。UTH国际80%的语料来源于全球采购,20%由 UTH 国际专职信息工程师和语料专员,通过对开源数据的技术加工获得。目前UTH共有约400名语料专员严格把控语料来源、入口检查、语料去噪、降噪、脱敏等环节,保证语料质量和分类科学合理。
平行文本/语篇等来源于中国和欧美大量出版级内容(杂志、期刊等),充分照顾了语料来源的平衡性

目前UTH的语料已经达到数十万篇平行文档(parallel articles, 有完整的标题和篇章上下文),超过150亿句对(parallel segments),数千万条术语(terms),总字符数在6千亿以上,并且每日都在增长中。
二、在线科研功能加强 - 语料精标注、多格式语料交互检索和对比分析、学术资源分享
平台支持双语文本/语篇、翻译记忆库文件(句对)、术语的同步、复合和交互检索,首创了双语内容搜索、分享和在语料格式转化和生成上的人机交互。
同时,平台提供了与搜狗、百度、必应三大搜索引擎的集成和一站式搜索解决方案,为师生提供常规语料库搜索之外的相关知识检索,从而丰富了用户的搜索体验和增强了外语、翻译搜索上的立体性和全面性。
搜索结果页展示(点击查看大图)
1、平台所有的平行文本均标注有作者、译者、译者的语言背景(和部分个人信息)、发表/发布日期、发表/发布地点等元数据;
2、多领域交叉检索;
3、显示平行文档的字数(主要包含:句子数、段落数、篇幅字数),且自动统计文章内字数
点击查看大图
1、搜索关键词在文章中高亮显示;
2、平台提供可供参考的大数据分析统计功能,例如对文章进行词频统计;
3、支持在教研组/课题组/学习组内自行分享科研或教学资源
点击查看大图
三、语料对齐与多格式语料的定制化管理
在线对齐工具
在线对齐芝麻搜索的特色对齐功能模块既是平台多功能语料应用的有机组成部分,又可以作为语料对齐工具为用户提供额外的集成和应用。借助于平台上所集成的多项专利技术和多个应用程序,用户在该平台上可以实现平行文本/语篇、句对、术语等不同形态平行语料的有机转化与自动生成。
点击查看大图
通过在线对齐工具加工处理后,语料可以 tmx、xlsx、xliff、txt 等多种格式导出,实现与CAT工具以及其他翻译产品的无缝衔接。对于普遍缺少语料的高校CAT语言实验室而言,这是不可多得的优质资源。
此外,对于打算自己创建语料库和从事语料库教学与研究的用户而言,这个平台基础上的应用是您最佳的帮手!不信,试试看!
语料上传和管理
平台支持平行文本/语篇、翻译记忆库文件(句对)、术语等多格式语料的上传和管理,并结合用户“保密”或“分享”的个性化需求,提供了私有云和公有云两种存储模式供用户自由选择。同时,最新版中,新增了语料多领域分类及批量上传功能。
增加文档属性(点击查看大图)
批量上传(点击查看大图)
(点击查看大图)
四、“好友/群组”功能设置
对于大多数的翻译专业教师而言,布置给学生的练习、作业和考试等教学过程中的素材,往往都是以传统email方式予以提交,提交后则往往堆在教师的电脑中成为既往的资料。教师的打分和评价也往往是通过邮件形式单向传递给对应的学生。过程是线性的、封闭的,而资料和信息也没有变成有价值的“数据”。
芝麻搜索的“好友”功能针对这些痛点,可以有效做到:
平台支持按学期 、班级/年级分组,将翻译范本,以及学生提交的作业、练习和考试等翻译内容通过系统内置的工具上传到平台, 并以左右对照形式呈现, 师生均可借此更好的管理自己的翻译作品并可因此而更好的相互学习、评阅、鉴赏;
教师可借此作多个层面的对照分析,追踪学生成长轨迹,并撰写视角独特的论文,以及进行教学成果创新;
不同班级、不同学校之间,根据“权限”和“申请”,数据共享,在教学资源和教学方法上协同创新和发展。


(点击查看大图)
即将上线功能:
一、论文检索与下载
芝麻搜索即将上线一个论文库功能,师生可查询、下载欧美近1000所高校的学位论文和部分期刊论文。对于已购置此款平台的高校,也可以采用插件形式使用。
二、在线教学——生成教学案例
平台包含大量基于市场各行业真实运作项目的平行语料,可为教师备课、课堂教学、布置作业提供素材和案例支持。
同时,为了让课堂互动起来,让语料更好的利用起来,后续版本中芝麻搜索平台将与芝麻翻译(基于学科化超大规模平行语料库的翻译教学与实训平台)有机结合起来。
(点击查看大图)
芝麻搜索平台寻找课题→芝麻翻译平台翻译实训→平行文档(实训结果)导入到芝麻搜索平台
教师可以选择一句、一段或者一篇内容上传,一键导入到芝麻翻译平台,供学生翻译练习。实训完成后,教师可以将双语文档一键导回至芝麻搜索平台,形成语料素材。
点击"阅读原文",了解“芝麻翻译平台”
www.uthzmfy.com
芝麻搜索简介:
官网链接:www.zhimasousuo.com
该平台是一个创新型双语内容搜索与分享平台,亦是多语言的知识文库,更是一个功能强大的多语言大数据和学术资源检索中心。平台创新性地提出多语言大数据垂直领域精确划分概念,15个一级领域、41个二级行业领域和 178个三级细分领域的划分从大数据底层架构的角度打通了产学研的通道,可精准匹配高校师生的教、学需求。此外,平台可直接检索和下载欧美近1000所高校的论文,可为高校师生开展科研工作提供强大的学术资源支持。
目前,该平台已应用于国内30多所高校的教学和科研实践中,并于2017年11月初获得国家正式的出版号,由上海外语音像出版社作为国家正规的数字化出版物出版发行。


