在准备申请经费或发表论文时,要去哪里寻找新想法呢?你可以向同行咨询、去PubMed和Web of Science上搜索相关文献,也可以求助于谷歌。但是这些方式都很难超出特定的专业领域之外,没有机会去挖掘跨学科的交叉领域,除非你知道自己要找的是什么。本文作者Jeffrey Perkel表示,现在的一款新的文档搜索引擎的开发者希望让这样的知识飞跃变得更容易。
根据该公司CEO和联合创始人Brian Sager的说法,Omnity是一个可以利用文档中所有文本内容的匹配引擎,或者更确切地说,是用文档中一些最罕见单词的表示作为搜索词汇。(相比之下,谷歌的搜索查询词数上限为32词。)Omnity声称,通过将该表示与数百万个文档的表示进行比较,可能返回不大可能出现的匹配结果。
2016年5月推出的Omnity于2016年12月13日对搜索工具进行了更新,支持最多达100种语言的多语言文档搜索,包括日语、汉语、西班牙语和阿拉伯语。用户只需上传任何一种语言的机器可读文档,搜索引擎就会以英语返回结果。
Sager解释说,英语语言中包含大约70万单词。其中,前100个单词占出版物中词汇的50%,前7000个单词占据所有词汇的90%,包括“几乎所有动词和大多数形容词”。剩下的就是“一大串很少使用的词”,即Sager所称的“专家词汇”,像“纳米球”和“信息学”这样的词语,它们的意思就是词汇本身决定的,而与文献的写作语言和主题无关。这些罕见词产生了一种信号,Sager称之为“语义信号”。
Sager补充说:“我们建立了一个分布在文档中的罕见词汇的统计模式的数学方程,并扫描了数以亿计的其他文档,也为每个文档创建了数学方程。然后我们开始寻找匹配,类似的统计分布模式表示文档中的主题或话题的模式相类似。我们发现,在测试过的每一个知识领域,情况都是如此。
用户使用时的具体情况可能有所不同。在笔者自己有限的测试中,Omnity返回了一些奇怪的结果,没有找到我认为的关键资源。根据Sager的说法,这可能是由于残留的语义“噪声”导致的,用户可以通过在文档中提取的罕见术语的“词云”中添加或删除搜索词语,过滤掉某些类别的匹配结果(例如专利),并通过点击结果中的特别相关结果来缩小搜索范围。
在默认设置下,Omnity包括大约15T字节的联邦文件,包括科学论文、拨款申请、专利,FDA和SEC的裁定、法律判决,和精选网络内容等。学术用户最多可以免费添加10个自定义文档,并根据需要对这部分文档进行替换。付费用户可以每页约0.05美元的价格无限添加自定义文档。
Sager称,该公司的搜索策略避免了通常在智能文档搜索中出现的困难,因为该策略将文档缩减为其中一些孤立的单词,而不是去试图弄清文档中的语法或意思。并且系统可以在几秒内对这些文档之间进行数百万次成对比较。
要使用这项服务,只需注册一个帐户,然后将文档拖放到搜索窗口中即可。 Omnity会“摄取”查询文档并“提炼”出(作为一个受过训练的生物化学家、辅修过双语课程的人,Sager更喜欢用“纯化”一词)其中最不寻常的词语。然后,它将该信号转换为数学表示,产生查询结果。最终向用户呈现的是一张跨越多个领域的最高相似度文档的距离图,其中包括“NIH科学论文”、美国专利、维基百科内容、Answers.com上的内容和企业资料等。还可以使用其他可视化方式,包括按时间和位置显示文档。
Sager表示,准备申请研究经费的研究人员可以上传项目介绍,以便找到相关的职位和可能的合作人。出版方可以使用该系统来为已提交的论文寻找可能的同行评议人,专利律师可以通过数据挖掘来识别现有技术。
对《自然》的读者来说,也许最重要的一点是,研究人员可能能够使用此款工具迈出他们熟知的领域。Sager表示,一个寻求跨越血脑屏障方法的公司客户就在利用Omnity在所有领域内寻求电池研究中的潜在领先技术。
“神经科学家永远不会去看电池的研究文献,研究电池文献的人也很少会去看大脑的研究文献。”他说。“但在上面的例子中,我们实际上正在考察这些文件中的所有单词,并将注意力集中在其中罕见词上,这让我们找到了横向观察的可能性。如果一个人只拘泥于自己的专业领域内,这种观察形式是不可能实现的。”
原文链接:http://blogs.nature.com/naturejobs/2017/01/12/omnity-opens-multilingual-semantic-searches-up-to-academia/

