计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (6): 128-133.DOI: 10.3778/j.issn.1002-8331.2009-0459
陈佐瓒,徐兵,丁小军,甘井中
CHEN Zuozan, XU Bing, DING Xiaojun, GAN Jingzhong
摘要: 针对复杂的自然场景下文本较难识别的情况,特别是对不规则文本的识别仍很具挑战性,提出了一种具有注意机制的双监督网络。考虑到在现实世界中阅读单词时通常不会在脑海中纠正他,而是调整焦点和视觉范围。在特征提取过程中利用几何结构可调的可变形卷积层结合文本注意模块,强制模型专注于文本区域,无需对不规则的文本进行位置纠正。该文的总体框架有两个分支监督,一个监督分支来自上下文级别建模,另一个监督分支来自一个额外的监督增强分支,旨在处理角色级别的不明确的语义信息。这两个监督可以相互促进,并产生更好的性能。所提出的方法可以识别任意长度的文本,并且不需要任何预定义的词典。实验表明,与对比方法相比,提出的方法在场景文本基准数据集上的识别精度有明显提升。