向量检索是 AI 时代的产物,突破了传统文献检索背后对打标签的依赖,其技术原理在于深度学习神经网络技术对非结构化数据语义的捕捉,并将其转化到高维向量。与传统文献检索方式相比,向量检索的优势主要有:
01
语义理解能力更强
向量检索能够捕捉词语、句子或文档的深层语义信息,而非仅依赖字面匹配。
例如,搜索“苹果公司新品”时,传统检索可能因字面匹配到“水果苹果种植技术”,而向量检索能识别“苹果”在不同语境下的语义差异,关联到科技产品信息。
02
对模糊表达和拼写错误的容错性
传统检索对拼写错误或模糊表达(如“首部星球大战电影”中的“首部”误写为“首步”)敏感,而向量检索通过计算向量相似度,能够容忍一定程度的拼写偏差或模糊描述,返回语义相关的结果。
例如,查询“下雨前蚂蚁搬家原因”,即使文档中未出现“蚂蚁搬家”,向量检索仍能关联“昆虫感知气压变化”的科普内容。
爱思唯尔旗下化学专业数据库Reaxys将于近期正式上线向量检索(Semantic Search)功能。下面我们就以其例来演示向量检索如何变革文献检索的方式。
检索案例:聚合物的配方
通常我们在检索聚合物的配方时,会使用该聚合物的英文名称再加上“composition”这两个关键词来检索获得相关的文献。因此我们先看传统的关键词检索的结果,以“Polycarbonate Composition”作为检索输入词。
我们发现一共获得了148,279条文献记录,其中排序靠前的几条都与我们的检索目的不相关。这就是传统检索方式的弊端,由于目前文献量的爆炸式增长,在检索结果中通常都会存在大量仅仅是词条匹配的噪音文献,需要我们花费比较多的精力去进行筛选。
下面我们再来看利用向量检索获得的结果:
由于检索结果的相关性更高,向量检索只会先呈现出100个结果。可以看出前几个检索结果在语义上的匹配程度相比传统检索方式高出很多,这就是向量检索一个最重要的优势。
如果我们向检索聚合物合成类的文献,我们一样也可以在聚合物的英文名称加上“synthesis”,甚至如果我们对目标化合物的性能也有要求,那么可以加上对期望性能的描述,如“high thermal conductivity” “高导热性”。
比如:如何开发高导热、低应力的新型聚合物配方?我们通过问句的形式进行提问。
截取部分检索结果,回答了我们提出的问题。这也是向量检索的一大特征,能够识别检索式的语义。
目前Reaxys的向量检索功能正处于最终的测试阶段。如果想抢先体验,也可以联系我们开通测试版本。在数据库功能导航栏中选择Semantic Search即可进入向量检索功能。
如想体验测试版本,请发邮件至
csmchina@elsevier.com
6月科研热讯
环境科学领域前沿速览
科研热讯基于爱思唯尔旗下ScienceDirect、SciVal、Scopus等多项科研工具与数据库,分享当下热点研究方向、Top机构、学者、发文与学术书籍,为研究人员及科研管理人员速递学科热门动态。每期将选择一个学科,随每月产品服务资讯进行介绍。本期邀您速览环境科学领域科研热讯。
END

