需求反馈 需求反馈
需求反馈
请留下您的需求和问题,我们会尽快与您联系
姓名 电话 公司    邮箱 请描述您的需求和问题
当前位置:

文字识别应用场景拓展:手写文字识别算法

文字识别应用场景拓展:手写文字识别算法

快联科技 | 2023-02-06 17:43:18

手写文字识别可以识别图片中的手写文字,并且一定程度上能对不规则的手写字体进行特殊优化,其应用场景可以包括智能阅卷,自动识别学生日常作业和试卷的手写内容,促进教学管理的数字化和智能化;电子书摘要和笔记:自动识别手写的图书摘要、读书笔记等,提高内容管理效率;电子手写表单:对纸质形式的信息进行统计整理,以降低人工录入的成本,方便登记信息。手写文字识别算法请见:https://www.quickconn.net.cn/market/sxwzsb-v1.html


c5f22d5d-d5c2-4544-91c1-0a021703ffd9.jpg

图1 手写文字识别


然而,之前的手写文字识别研究通常是有数量有限的风格,其中大部分已经被现有的数据集捕获,下面给大家介绍一下两种最新的主流手写文字识别的算法。

Sequence-to-Sequence Contrastive Learning for Text Recognition

Aviad Aberdam和Ron Litman提出了一个视觉表征的序列对比学习-SeqCLR,并将其应用于手写文本识别。研究者为了说明序列对序列的结构,每个特征图被划分为不同的实例,在这些实例上计算对比损失。

5bbbc989-502b-4925-8394-598fa45d0274.jpg

图2 SeqCLR流程图


这种操作使模型能够在子词层面上进行对比,从每个图像中提取几个正面的配对和多个负面的样本。为了产生有效的文本识别视觉表征,Aviad Aberdam和Ron Litman等人进一步提出了新的增强启发式方法、不同的encoder架构和自定义投影头。

e06e1288-2798-408b-95d7-38550aa80d17.jpg

图3 半监督的结果


从实验结果来看,SeqCLR的性能得到了明显的提升,100%标签的情况下进行微调时,SeqCLR在标准手写文本识别基准上取得了最先进的结果。此外,他们的方法在手写方面取得了最先进的性能——与文献中最好的方法相比,SeqCLR在IAM和RIMES两个标准基准数据集上分别降低了9.5%和20.8%的单词错误率。

MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition

在本研究中,Ayan Kumar Bhunia和Shuvozit Ghose等人采取了一个完全不同的观点-接触到新的风格,模型就有了最好的适应机会,而少数样本的性质使得它可以实际执行。研究者发现并利用了一个重要的观点,即每个作家中存在少数关键人物,其风格差异相对较大,他们还提出了元学习实例的具体权重,用于字符上的交叉熵损失,它是专门为处理文本数据的顺序性而设计的。作者自适应的MetaHTR框架可以很容易地在大多数最先进的HTR模型的基础上实现。

3ac2f9d8-d4e2-4ff9-b0a9-27c3896335d9.jpg

图4 MetaHTR框架涉及一个双层面的优化过程


研究者在两个流行的拉丁文本数据集IAM和RIMES上评估了作家自适应MetaHTR的性能。IAM包含由657个不同作者书写的总共115320个英文手写单词图像,而RIMES包含1300个不同作者的66982个法语单词图像。这两个数据集都包含了带有注释的作家信息的单词样本,因此能够对作家特定的特征采样,以进行情节性训练。对于RIMES,使用来自375个作家的子数据集的样本,这通常也被用于作家识别任务。接下来,使用训练、验证和测试使用与IAM相同的分区,而ICDAR 2011发布的分区则用于RIMES,比赛的分区则用于RIM。实验表明,通过比对很少的新数据,模型就可以获得5-7%的平均性能提升。

c046099a-a292-400c-8610-2b3e8db56d23.jpg

图5 MetaHTR的无约束WRA与不同的适应集大小(k)和适应步骤(放大后看效果最佳)


到目前为止,手写文字识别(HTR)仍然是一个具有挑战性的问题,主要是由于之间存在着不同的书写风格。希望HTR在智能阅卷,电子书摘要和笔记,电子手写表单甚至其他领域能有更大的发展和进步,为人类的学习和工作带来更大的方便。