精准识别文字信息:通用文本识别算法整理
通用文字识别(OCR)目前有很多火热的应用,比如身份证识别可以自动地从图片中定位和识别出身份信息。通用高精版识别,可以单字识别并返回单字坐标,表格识别可以识别文档上所有表格里面的信息内容。增值税发票识别,可以识别发票代码、号码、日期、校验码、税额、受票方名称等15个常见字段,带给人们更多的便利。通用文字识别具体应用见: https://www.quickconn.net.cn/experience/charrecog.html
图1 通用文字识别
下面介绍几种较新、效果较好的通用文本识别算法。
What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels
场景文本识别(STR)任务有一个共同的做法:所有最先进的STR模型都在大量的合成数据上进行训练。与此相反,当必须在没有合成数据的情况下训练STR模型时,只在较少的真实标签上训练STR模型(STR with fewer labels)是很重要的:对于难以合成的手写或艺术文本,以及对于英语以外的语言,不一定有合成数据。然而,由于真实数据不足,在真实数据上训练STR模型几乎是不可能的,这是一个隐含的常识。
Jeonghun Baek和Yusuke Matsui等人认为这一常识阻碍了对具有较少标签的STR的研究。在这项工作中,希望通过反驳这一常识来重新激活少标签的STR。整合了最近积累的公共真实数据,并表明只能用真实的标签数据来训练STR模型,才能令人满意。随后,找到了简单的数据增强方法来充分地利用真实数据。此外,通过收集未标记的数据和引入半监督和自监督的方法来改进模型。
图2 Pseudo-Label和Mean Teacher标签的说明
为了公平比较,列出了只使用MJ和ST进行训练的方法,并且使用了6个基准数据集: IIIT, SVT, IC13-1015, IC15-2077, SP, and CT。
图3 STR模型在六个数据集上的准确度
研究表明,公共真实数据已经积累了很多年。虽然积累的真实数据只占合成数据的1.7%,但可以通过使用它来充分训练STR模型。通过使用简单的数据增量和引入半监督和自监督的方法,利用数百万真实的无标签数据,进一步提高了性能。
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter
文本识别任务本身仍被限制在解决阅读裁剪过的线条文本图像的问题上,并作为光学字符识别(OCR)系统的一个子任务。因此,最终的文本识别结果受限于文本检测器的性能。在本文中,Tianwei Wang和Yuanzhi Zhu提出了一个简单、优雅和有效的范式,称为隐式特征对齐(IFA),它可以很容易地集成到当前的文本识别器中,从而形成一个新颖的推理机制,称为IFA推理。这使得普通的文本识别器能够处理多行文本,从而使文本检测能够完全解放出来。
图4 文本识别的发展
具体来说,将IFA整合到两个最普遍的文本识别流中(基于注意力和基于CTC),并提出注意力引导的密集预测(ADP)和扩展CTC(ExCTC)。此外,还提出了基于Wasserstein的空心聚集交叉熵(WH-ACE)来抑制负面预测,以帮助训练ADP和ExCTC。通过实验证明,IFA在端到端文档识别任务中实现了最先进的性能,同时保持了最快的速度,而ADP和ExCTC在不同的应用场景中相互补充。
图5 ADP训练、传统的注意力推理、从ADP得出IFA-推断
与以前的研究相比,在本研究中,IFA首先统一了文本识别和文本识别的形。IFAinference可以在单行和多行图像上工作,从而形成一个更简单的OCR系统。虽然IFA可以直接进行无检测的文本点选,但目前的版本仍然需要基于规则的后处理来从密集的预测中生成文本,其通用性很低。在未来,将探索一种更好的连接策略,以取代目前基于规则的后处理,并将该方法扩展到场景-文本发现任务。
图6 从行式文本识别转换为多行式识别
Sequence-to-Sequence Contrastive Learning for Text Recognition
Aviad Aberdam和Ron Litman等人提出了一个视觉表征的序列-序列对比学习(SeqCLR)框架,并将其应用于文本识别。为了说明序列到序列的结构,每个特征图被划分为不同的实例,在这些实例上计算对比损失。这种操作能够在子词层面上进行对比,从每个图像中提取几个正面的配对和多个负面的例子。为了产生有效的文本识别视觉表征,进一步提出了新的增强启发式方法、不同的编码器架构和自定义投影头。
图7 实例映射功能
在手写文本和场景文本上的实验表明,当文本解码器在所学到的表征上进行训练时,方法比非序列对比方法的表现更好。此外,当监督量减少时,与监督训练相比,SeqCLR明显提高了性能,而当用100%的标签进行五次调整时,方法在标准手写文本识别基准上取得了最先进的结果。
图8 词的错误率与标记数据的函数-数量的对数尺度
通用文字识别(OCR)可精准检测出不同场景图片中的文本, 实现快速定位识别,能提供多场景、多语种、高精度文字检测和识别服务。随着一些算法进一步改进,通用文字识别将更好的为人类提供便利。
“本文为“AI购-快联科技让每个企业都能愉悦地连接AI”出品,转载请注明”
https://quickconn.net.cn/