河北大学学报(自然科学版) ›› 2021, Vol. 41 ›› Issue (5): 623-632.DOI: 10.3969/j.issn.1000-1565.2021.05.019

• • 上一篇    

融合空间及通道注意网络的古籍汉字图像检索

田学东1,2,杨琼1,2,杨芳1,2   

  • 收稿日期:2021-05-07 出版日期:2021-09-25 发布日期:2021-09-28
  • 作者简介:田学东(1963—),男,天津人,河北大学教授,博士生导师,主要从事信息检索、模式识别方向研究.
    E-mail:xuedong_tian@126.com
  • 基金资助:
    河北省自然科学基金资助项目(F2019201329)

Ancient Chinese character image retrieval based on space and channel attention fusion network

TIAN Xuedong1,2, YANG Qiong1,2, YANG Fang1,2   

  1. 1. School of Cyber Security and Computer, Hebei University, Baoding 071002, China; 2.Institute of Intelligent Image and Document Information Processing, Hebei University, Baoding 071002, China
  • Received:2021-05-07 Online:2021-09-25 Published:2021-09-28

摘要: 古籍汉字图像检索是古籍汉字研究的有效工具.然而,古籍汉字字形复杂、书写风格多变的特点导致传统文字图像检索技术在应用于古籍汉字图像时效果欠佳.针对现有方法在古籍汉字图像特征提取时存在的字形结构细节信息和低层视觉特征提取问题,设计了一种融合空间注意力和通道注意力网络高低层特征的古籍汉字图像检索模型.首先,融合空间注意力的低维特征和通道注意力的高维特征,捕捉古籍汉字空间结构间的依赖关系,提取更丰富的古籍汉字语义特征信息;其次,构建inception残差结构模块,丰富古籍汉字图像特征的感受野,使网络模型更易优化,保留足够的古籍汉字细节信息;最后,运用加权交叉熵损失函数,解决数据集中存在的正负样本不平衡问题,增强检索模型的鲁棒性.在上下、左右、包围和独体结构古籍汉字图像数据集上检索实验的MAP(mean average precision)值分别为77.89%、79.89%、78.21%、80.75%,表明了方法的有效性.

关键词: 古籍汉字, 图像检索, 空间注意力, 通道注意力, 加权交叉熵

Abstract: The image retrieval of ancient Chinese characters is an effective auxiliary tool for the research- DOI:10.3969/j.issn.1000-1565.2021.05.019融合空间及通道注意网络的古籍汉字图像检索田学东1,2,杨琼1,2,杨芳1,2(1. 河北大学 网络空间安全与计算机学院,河北 保定 071002;2. 河北大学 智能图文信息处理研究所,河北 保定 071002)田学东 河北大学教授,博士生导师,中国中文信息学会理事,中国计算机学会高级会员,河北省人工智能学会理事.主要从事文字识别、数学信息检索、中文信息处理等方面的研究工作和计算机专业的教学工作.主持国家自然科学基金项目2项,河北省自然科学基金项目4项,其他省部级项目4项.获河北省科技进步三等奖3项,河北省教育厅高校科技成果一等奖1项,授权国家发明专利2项,发表论文30余篇.主要讲授电路分析基础、电子线路基础、数字电路与逻辑设计、软件工程、微机原理与汇编语言等本科课程和模式识别、文字识别工程、计算语言学等研究生课程.摘 要:古籍汉字图像检索是古籍汉字研究的有效工具.然而,古籍汉字字形复杂、书写风格多变的特点导致传统文字图像检索技术在应用于古籍汉字图像时效果欠佳.针对现有方法在古籍汉字图像特征提取时存在的字形结构细节信息和低层视觉特征提取问题,设计了一种融合空间注意力和通道注意力网络高低层特征的古籍汉字图像检索模型.首先,融合空间注意力的低维特征和通道注意力的高维特征,捕捉古籍汉字空间结构间的依赖关系,提取更丰富的古籍汉字语义特征信息;其次,构建inception残差结构模块,丰富古籍汉字图像特征的感受野,使网络模型更易优化,保留足够的古籍汉字细节信息;最后,运用加权交叉熵损失函数,解决数据集中存在的正负样本不平衡问题,增强检索模型的鲁棒性.在上下、左右、包围和独体结构古籍汉字图像数据集上检索实验的MAP(mean average precision)值分别为77.89%、79.89%、78.21%、80.75%,表明了方法的有效性.关键词:古籍汉字;图像检索;空间注意力;通道注意力;加权交叉熵 中图分类号:TP391.43 文献标志码:A 文章编号:1000-1565(2021)05-0623-10Ancient Chinese character image retrieval based on space and channel attention fusion networkTIAN Xuedong1,2, YANG Qiong1,2, YANG Fang1,2(1. School of Cyber Security and Computer, Hebei University, Baoding 071002, China;2.Institute of Intelligent Image and Document Information Processing,Hebei University,Baoding 071002,China)Abstract: The image retrieval of ancient Chinese characters is an effective auxiliary tool for the research- 收稿日期:2021-05-07 基金项目:河北省自然科学基金资助项目(F2019201329) 第一作者:田学东(1963—),男,天津人,河北大学教授,博士生导师,主要从事信息检索、模式识别方向研究. E-mail:xuedong_tian@126.com第5期田学东等:融合空间及通道注意网络的古籍汉字图像检索of ancient Chinese characters. However, the complex shape of ancient Chinese characters and the variety of writing styles have led to poor performance of traditional text image retrieval techniques when applied to ancient Chinese character images. Aiming at the problems in extracting the detailed information of the glyph structure and the low-level visual features in the extraction of the image features of ancient Chinese characters in the existing methods, an ancient Chinese character image retrieval model is designed that combines the high and low-level features of the spatial attention and channel attention network. Firstly, this model integrates the low-dimensional features of spatial attention and the high-dimensional features of channel attention, capture the dependence of the spatial structure of ancient Chinese characters, and extract richer semantic feature information of ancient Chinese characters. Secondly, this model constructs the inception residual structure module to enrich the receptive field of the image features of ancient Chinese characters, make the network model easier to optimize, and retains enough detailed information of the ancient Chinese characters. Finally, the weighted cross-entropy loss function is used to solve the imbalance positive and negative samples in the data set and enhance the robustness of the retrieval model. The MAP values of the retrieval experiment on the ancient Chinese character image data sets with up and down, left and right, enclosing and single-body structures are 77.89%, 79.89%, 78.21%, and 80.75%, respectively, indicating the effectiveness of the method.

Key words: ancient Chinese character, image retrieval, spatial attention, channel attention, weighted cross entropy

中图分类号: