大数跨境
0
0

如何轻松提取图片中的化学结构?

如何轻松提取图片中的化学结构? 康昱盛
2017-06-23
1
导读:世界上最遥远的距离,不是飞鸟与鱼,而是化学结构在你面前,你却不能编辑!
导读

大家在药物研发工作中经常需要阅读大量的文档,例如各种期刊杂志发表的文章、专利等。这些文档包含了很多化合物结构的信息,并且通常会以图片的形式显示。这种图形化的化学结构方便大家浏览,但是却不能直接编辑。

当我们看到感兴趣的化合物时,就希望能将这些化学结构提取出来,便于我们使用。当然我们可以依照图片中的化学结构,在化学编辑中绘制出来。但是这种人工提取的方式实在是太费时费力,而且还容易出错,化学结构数量多的话就更不可行了。实际上,也不需要这样做,在信息化快速发展的今天,已经有很多的工具可以帮助我们从图片中提取化学结构。很多人应该都听说过OCR(光学字符识别技术),这些工具就是利用OCR技术识别图片中的化学结构。所以不管是各种类型的图片、PDF、扫描版的文档等,都可以交给它们来处理,极大地节省了用户的时间

接下来,小编就给大家介绍几个常见工具……


CLiDE Pro

CLiDE是一款商业软件,也是目前小编测试下来功能最全面的图片化学结构提取工具.

CLiDE的界面类似于Acrobat Reader,它提供了一个文档页面的缩略视图。CLiDE提取的化学结构会显示在另一个平行的视图,并且化学结构的位置对应原文档中的位置,方便用户浏览。

CLiDE是几款软件中支持文档类型最多的,除了常见的图片以及PDF格式,CLiDE还可以直接处理DOC, DOCX, HTML等。提取的化学结构也可以导出成多种化学文件类型,例如SDF, MOL, CDX, MRV等。

CLiDE可以处理Markush结构以及R基团,所以如果要分析化合物专利,CLiDE将是最好选择。

在提取化学结构时,用户可以自定义需要提取化学结构的文档范围,例如只需要提取PDF文档中当前显示的页面。CLiDE会自动检查化学结构的正确性,用户可以对提取的结构进行结构编辑。可以根据用户需求选择使用Chemdraw, MarvinSketch, Accelrys Draw等化学结构编辑器。用户也可以选择需要导出的化学结构。

另外,CLiDE还提供了专门的版本(CLiDE Batch)用来批量处理化学文档,并且可以整合到其它程序中。

ChemOCR

ChemOCR是由Fraunhofer SCAI开发的一款商业软件。

ChemOCR可以处理BMP, PNG, TIF等图片格式以及PDF文档。除了SDF格式的文档,ChemOCR可以将提取的化学结构导出成SMILES。

ChemOCR结合了模式识别技术及基于专家系统的化学规则,对提取的化学结构进行结构修正及重构。ChemOCR可以识别反应式符号,可以将反应完整提取出来。但是不能处理Markush结构,所以不太适合用于专利的化学结构提取。

OSRA

OSRA是由NCI开发的一款开源的化学结构提取工具。除了命令行及GUI界面外,OSRA还提供了一个网络服务,在线处理用户提交的文档,用户不需要注册即可使用,非常方便。

OSRA在线地址:https://cactus.nci.nih.gov/cgi-bin/osra/index.cgi


OSRA可以处理超过90种图片格式,对于图片的分辨率、色彩深度、字体等都没有任何的限制。除此之外也可以处理PDF格式文档。提取的化学结构可以直接转换成SMILES格式或者SDF。

OSRA可以识别一些常见的基团缩写、虚线或楔形键等,但是不能识别电荷、同位素等。

文档处理之后就可以看到提取的化合物结构以及原文档中的结构图片,并且提供了JMSE化学结构编辑器,可以随时编辑化学结构。

对于提取的化学结构,可以直接使用一些其它的NCI在线服务,例如通过Chemical Structure Lookup Service查找化合物包括超过100个数据库7400多万个化学结构;通过Online SMILES Translator将SMILES格式进行转换。

Imago

Imago是由GGA Software Services开发的一款开源化学结构提取软件。

Imago提供了命令行以及GUI界面,界面简介,功能简单。原文档及提取的化学结构分开的视图,但是不能同时浏览两个视图。

Imago支持PNG, JPEG, BMP等多种图片格式及PDF。提取的化学结构只支持保存成MOL格式文件。用户也可以选择将结构复制到剪贴板,或者用化学结构编辑器打开。

用户可以在原文档中选择需要提取的化学结构,但是在提取结果中不能任意选择导出。Imago可以识别多种化学键的类型包括虚线或楔形键、原子标签、下表、同位素和电荷。Imago还可以识别超原子及缩写基团,利用字典可以将识别的缩写基团展开。


以上这些工具都能够将图片格式的化学结构提取出来,为用户节省时间。当然仅仅是图片也许并不足够,因为化学结构还有各种名称及标识符,它们都是以字符的形式保存在文档中,所以如果需要将文档中所有的化学结构信息提取出来,就需要更全面的工具,小编依然记得以前给大家介绍过一款工具,不仅可以将文本形式的化学结构提取出来,也可以整合CLiDE, OSRA等这些工具提取文档中图片形式的化学结构,不知大伙儿是否还记得它的名字?没错,它就是ChemCurator!

ChemCurator--计算机辅助的文档化学信息提取和分析

相关网络活动

下周,我们将通过网络分享课为大家推荐一款可以“整合光学结构识别的工具,帮助用户快速查找包含特定化学结构的文档”新软件ChemLocator,名额有限,机会不容错过,赶快点击下方链接报名喽!!!

【网络分享课】快速查找包含特定化学结构的文档:ChemLocator


如果觉得有用,记得分享和点赞哦。今天是周五,康昱盛信息科技有限公司祝大家都能高效工作,按时下班!


联系我们

Tel: 021-54975000

E-mail: marketing@cloudscientific.com


关于我们

上海康昱盛信息科技有限公司是一家专门提供生物制药领域科学信息整体解决方案的公司。我们拥有一支一流的技术服务团队和资深的专家咨询团队,针对生物医药领域的各种公司、学术机构以及政府部门,提供从生物信息学、化学信息学、药物设计、毒性预测到临床前、临床的数据分析以及管理等一系列国际领先的科研软件产品、平台以及成熟的科学信息解决方案。


END


敬请关注我们 
【声明】内容源于网络
0
0
康昱盛
生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
内容 254
粉丝 0
康昱盛 生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
总阅读163
粉丝0
内容254