大数跨境

基于AI大模型和电子实验记录本,鹰谷正在重构人类化学和生物的科研知识库

基于AI大模型和电子实验记录本,鹰谷正在重构人类化学和生物的科研知识库 广东省数字化学会
2024-12-28
0
导读:第四届工业软件创新应用大赛作品巡礼(5)





第四次工业革命以数字技术为驱动的革命。数字技术,包括物联网、大数据、人工智能等,是推动这次革命的核心技术。

上海鹰谷信息科技有限公司,基于其国际领先的化学结构式和反应式图像识别技术、中英文命名和结构式互转技术、生物基因序列编辑、电子实验记录、仪器数据采集等技术,结合AI大模型强大的数据采集分析和挖掘能力,文献结构化系统InPaper能够自动化、高精度提取文献中的知识点数据,为企业用电子实验记录本记录的实验数据释放AI潜力,助力企业构建生物医药、化工、新材料、新能源等领域的人类底座知识库。在第四届工业软件创新应用大赛中,以作品《基于AI大模型和电子实验记录本,鹰谷正在重构人类化学和生物的科研知识库》获得工业AI应用场景创新奖。


鹰谷助力构建人类科研底座知识库

化学和生物是人类最基础的学科,占世界科学研究经费的60%以上,决定着生物医药、化工、材料、能源、农业、化妆品等各领域的底座技术,是这一切发展的根基。当前,中国科学家要进行科学研究,强烈依赖国外的数据库和知识库,如Scifinder, Reaxys, PubMed, NCBI等。可以说,如果中国不能使用Scifinder, 中国的医药、化工、材料等领域的研发进展要倒退10-20年。

鹰谷数智化科研产品如结构式编辑器InDraw、电子实验记录本InELN、生物序列编辑器InSequence等,是专为生物医药、化工、新材料、新能源等领域的科学家们设计,协助企业有效沉淀大量的内部数据,掌握数据的主动权。同时,鹰谷通过AI大模型技术,基于InPaper深度挖掘公开的专利和期刊文献,对文献中的化学结构式、反应式、物质名称、构效关系、基因序列等数据进行结构化,构建知识库,助力企业构建强大的外部科研数据库。并赋能企业,帮助企业将内部数据和外部数据进行有效整合,从而协助企业构建全面、高效的科研知识库,挖掘全人类科研知识的潜力,大大促进研发生产力的提升。


智能生成实验方案和报告,节省工作时间

鹰谷客户通过InPaper构建的外部知识库,结合鹰谷电子实验记录本中录入企业内部数据,客户自行基于AI智能大模型训练,自动提炼科研实验数据,基于独特的大量真实世界的失败数据,有望帮助企业训练出具备思考能力的科学家大模型,以此提供化学合成路线、生物合成路线、分析实验方法,为科学家们智能生成实验方案。鹰谷客户自行训练出的AI大模型,可以高效地整合并分析海量科研数据,依此精准地根据科学家们需求智能生成高质量的报告、专利论文、eCTD文档及各类深度研究报告,如市场分析报告、技术可行性报告、风险评估报告、质量检测报告、阶段进度总结、人员效能分析等,全方位赋能研发、流程优化与科研创新,为企业的研发战略决策与资源配置提供有力的数据支撑。

同时,通过问答式交互,革新科研软件的交互模式,帮助科研人员快速获取所需数据,有效规避重复性劳动,显著提高科研效率,预计每年可为每位科研人员节省至少3个月的时间成本。


AI和大模型应用于文献数据的提取

基于AI大模型强大的数据采集分析和挖掘能力,文献结构化系统InPaper能够自动化、高精度提取文献中的知识点数据,批量识别化学名称、获得结构式、反应式和活性数据,智能组合为化合物SAR构效关系表,形成构效关系数据库,对AI制药、配方AI筛选等,形成巨大助力。

技术优势:InPaper可以提取图片或纯文本格式的中英文化学名称自动转换为结构式。其中,将中文化学名称自动转化为结构式、化学反应式图片识别和数据提取等功能,为鹰谷全球独家技术能力。在AI化学结构式图像识别的精准度上,经第三方评测,鹰谷基于AI大模型的图像识别能力,在国际上处于领先水平。这些都是实现文献大数据有效提到的关键核心技术,只有具备这些AI能力,才能有效将文献数据库,转变为知识库,形成对Scifinder等人工整理的数据库的降维竞争力。


用户受益:科研加速,效益倍增

通过AI智能图像识别、挖掘与结构化,科学家获取数据的效率大大提升,知识和经验的传承效率不再损失,能减少70%重复工作的时间。同时,鹰谷软件支持与物联网、支持国际化,以零代码平台适配各个行业的科研工作,科学家能有效降低30%的科研成本,减少向上级信息传递丢包率44%,实现更高的ROI。基于数据AI分析、记录规范和合规化,助力科学家们能做出更加科学、精准的决策,加速科研成果的转化和应用。


优势显著,领先国际

鹰谷文献结构化InPaper的图像识别准确率已远超同类国际产品如PatCID、Chemaxon D2S等。Nature Communications2024年发表了PatCID的研究进展(PatCID: an open-access dataset of chemical structures in patent documents),这是一个用AI挖掘专利文献中化学结构的数据库技术,已经挖掘了8100万个化学结构图像和1400万个化学结构。在随机样本测试中,PatCID检索到的分子比例为56.0%,高于自动创建的数据库Google Patents(41.5%)和SureChEMBL(23.5%),以及Reaxys(53.5%)和SciFinder(49.5%)。即使是PatCID采用的MolGrapher仍面临图像识别准确率低、文本转换反应式不准确等技术难题,准确度仅在57-63%之间。这些方面,正是鹰谷InPaper有巨大超越之处,在各类测试集上,均有优秀的测试成绩。

PatCID采用的MolGrapher在公开测试集的测试数据


InDraw在公开测试集上的测试数据


鹰谷的智能反应式识别技术在全球范围内独树一帜,尚未有其他产品公开类似成果。此外,InPaper还能将文献中的中文化学名称转化为结构式的独特功能,在全球范围内亦属鹰谷独家所有。

鹰谷文献结构化系统InPaper、结构式编辑器InDraw、电子实验记录本InELN等是专为科学家们精心打造的一批集全面功能、便捷操作、高精准度的高品质软件和工具。鹰谷深耕硬科技领域,坚持自主研发,持续推动产品功能的迭代升级,以满足科学家们日益增长的多元化需求,提供更智能、流畅的编辑体验。


500+客户的选择,广受好评

众多知名企业如中国最大的制药企业扬子江,科创板首家上市的医药企业微芯生物,中国最大的疫苗企业中国生物,中国最大的医疗器械企业迈瑞医疗,以及科技巨头代表华为、抗肿瘤药物研发先锋企业艾力斯、AI制药第一股晶泰科技等众多知名企业都已经成功使用鹰谷数智化科研产品,提高实验记录的效率,实现了实验核心数据的结构化,提高研发创新率。此外,鹰谷在本领域是国内首家完成出海,成功将产品拓展至美国、韩国、新加坡等多个海外国家。





团队有话说:

于鹰谷数智化产品矩阵中,我们笃信科技创新的潜能无限,通过构建全人类科研底座知识库,足以加速全球新药研发的进程,推动新材料的发展,改善人类生活质量。我们诚挚邀请各位行业精英与我们并肩同行,共同探索科技,共迎美好时代。

联系方式:您只需访问鹰谷官网integle.com,即可注册免费使用InDraw、InSequence等工具,申请即可享受14天的InELN与InPaper的免费试用。或扫码添加下方的小鹰客服联系我们。






关于大赛及栏目

第四届工业软件创新应用大赛(人工智能+方向)于2024年9月线上启动,刚发布即获得产业界高度关注,最终来自全国共98家团队报名参与。大赛涌现了非常多在“AI+工业软件”进行创新与实践的优秀团队,产生技术创新奖13名,应用场景创新奖13名,玉兰奖3名,优秀奖12名。特设大赛作品巡礼栏目,集中展示大赛创新成果,共同探索新一代工业软件发展路径。




微信号广东省数字化学会

关注我们|大赛作品持续更新

戳“阅读原文”,查看大赛获奖名单

【声明】内容源于网络
0
0
广东省数字化学会
帮助企业数字化转型,让数据成为生产力
内容 0
粉丝 0
广东省数字化学会 帮助企业数字化转型,让数据成为生产力
总阅读0
粉丝0
内容0