基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正.
推荐文章
基于OCR的纵向文字校对的研究与实现
OCR
文字处理
纵向校对
一种DOA估计新方法
波达方向估计
观测矩阵
压缩传感
随机采样
一种计算大数模逆运算的新方法
RSA算法
椭圆密码算法
模逆
RSA协处理器
Montgomery模乘
Montgomery模逆
基于散焦图像深度测量的一种新方法
散焦图像
深度测量
信息融合
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于Google的OCR结果校对新方法
来源期刊 计算机学报 学科 工学
关键词 OCR 校对 语料库 Google 纠错
年,卷(期) 2014,(6) 所属期刊栏目 图形图像与虚拟现实
研究方向 页码范围 1261-1267
页数 7页 分类号 TP301
字数 5030字 语种 中文
DOI 10.3724/SP.J.1016.2014.01261
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 高新波 西安电子科技大学电子工程学院 176 3425 27.0 52.0
2 颜建强 西安电子科技大学电子工程学院 3 23 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (44)
参考文献  (9)
节点文献
引证文献  (15)
同被引文献  (21)
二级引证文献  (1)
1980(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(6)
  • 参考文献(0)
  • 二级参考文献(6)
1998(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(10)
  • 参考文献(2)
  • 二级参考文献(8)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(5)
  • 引证文献(5)
  • 二级引证文献(0)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
研究主题发展历程
节点文献
OCR
校对
语料库
Google
纠错
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
论文1v1指导