摘要:
全球各地目前使用很多种相似的文种,相似文种的识别是模式识别领域内难点并迫切需要解决的问题之一.然而,针对中亚文种文本文档和少数民族文种也就是相似文种分类识别方面的文献报道几乎没有.首先建立了两个多文种文档图像数据库,分别有1600幅和2200幅纯文本整篇文档图像,包含英文,汉文,俄文,蒙文,阿拉伯文,藏文,维吾尔文,土耳其文,乌兹别克文,塔吉克文和哈萨克文等共有11种文档图像.其次分别提取文档图像的均值,标准差,熵,一致性,三阶矩,平滑度等六个纹理特征,利用不同7种分类器分类.在找到各个特征对多文种文本文档图像的灵敏度的基础上,采用加权特征融合方法提取融合特征,确定了适合中亚多文种文档图像识别的最佳权值.最后用不同分类器分类识别,通过多特征以系数加权融合之后,以建立的两个数据库基础下获得平均的识别率分别为99.38%和95.69%.实验结果表明,提取的纹理特征和加权融合的纹理特征能较好地描述文档图像特征,并且它们可以有效地分类以上所述的11个文种.