
“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”要怎么断句?世界人工智能大会期间,一篇镌刻在西周青铜鼎面的钟鼎文难倒了不少参观者,最先“解题”成功的是合合信息推出的智能文字识别AI(人工智能)系统。在无人工干预的状态下,钟鼎文从内凹状态被拉平,并被转译成简体字,原本连在一起的文字经过“AI断句”功能自动处理后被正确区分开来。现场观众纷纷评价:这届AI实在太“卷”,竟然能读懂古文。

今年是世界人工智能大会举办的第五年,“科技风向标、产业加速器”是这场全球AI领域的行业盛会对参展技术与产品的期许。针对图像处理及内容识别中,文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等全球性难题,合合信息重点展示了智能文字识别技术的创新成果及产业应用示范,用科技探索产研融合新方向。
AI“读懂”钟鼎文:
向智能文字识别应用的山顶“冲锋”
合合信息智能文字识别技术主要由以“弯曲矫正”为代表的智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。智能图像处理技术可对曲面、阴影、摩尔纹等复杂场景下的文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术主要利用手写印刷混排识别,抗强干扰识别,扭曲文字识别等一系列深度学习技术进行文字提取及识别,并结合领先的NLP技术,对识别出的结果进行语义理解。

本次展示的钟鼎文识别项目,是继去年的甲骨文识别之后,合合信息向古文字识别发起的又一次冲锋。大会现场还可使用公司旗下产品“扫描全能王APP”,用“拍图识字”功能一键识别竖排的繁体古籍《桃花源记》,将其转化为易于阅读的横排、简体版本。
《亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题》

