基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在文档版面分析中,采用一些数值化参数定义文本行和文本区域(如字符与字符的间隔和行与行的间隔),但只有在形成文本行和文本区域后才能确定这些参数的值。这类似先有鸡还是先有鸡蛋的问题,可以通过自适应重组策略解决。这个策略大致分为三步:第一步,根据最初的参数值将一些基本图像成分分组,组成预备的文本行和文本区域;第二步,根据已分好的小组推敲对参数值的评估;第三步,根据重新确定的参数值拆分或合并已存在的分组,形成新的分组。本文运用上述策略分析时,同时存在水平文本行和垂直文本行的中文文档。使用这种方法可以成功地获得结果。对一千多篇具有不同文档版面结构的文档图像进行测试,结果显示,这种方法识别文本行和文本区域的准确率在98%以上。
推荐文章
基于词平台的中文文档实验系统的构建
中文信息处理
汉字编码
词平台
自动分词
基于加权复杂网络的中文文档关键短语抽取
关键短语抽取
加权复杂网络
网络分离
加权点度中心度
边界节点
介数
基于多模板匹配和可信度分析的中文文档图像关键词过滤方法
关键词识别
多模板匹配
Boyer-Moore算法
可信度分析
基于SVM区域构造的复杂中文版面分析
种子连通区
支持向量机
区域构造
投影
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于自适应重组策略的中文文档版面分析
来源期刊 图象识别与自动化 学科 工学
关键词 版面分析 中文文档 组策略 自适应 参数值 参数定义 策略分析 文档图像 文本 数值化 分组 面结构 准确率 间隔 字符
年,卷(期) txsbyzdh_2005,(1) 所属期刊栏目
研究方向 页码范围 1-11
页数 11页 分类号 TP391
字数 语种
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
版面分析
中文文档
组策略
自适应
参数值
参数定义
策略分析
文档图像
文本
数值化
分组
面结构
准确率
间隔
字符
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
图象识别与自动化
半年刊
上海中山北路3185号
出版文献量(篇)
298
总下载数(次)
1
论文1v1指导