作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有的基于游程的表格框线检测算法检测速度快,但对于复杂表格框线检测质量不高,甚至出现大量错误.提出一种基于游程层次聚类的表格框线检测算法.首先,把可能属于同一条横线或纵线的游程划分到一个游程组,定义了两条框之间的相似度;然后以这组游程为初始原子类,通过层次聚类迭代地选择相似度最大的两条横线或纵线合并为一条框线.当相似度最大的两条框线相似度小于预先设定的一个阈值或仅剩下一条框线时迭代停止.针对图像中的标题和说明段等文字信息形成的线条,提出亲属表格线的概念,删除不包含两条亲属表格线的线段,最后对提取的框线进行二次提取.为了对算法加速,提出对各游程组并行聚类.实验结果表明,该算法相比现有算法对一些复杂表格的框线识别率提高了50%以上.
推荐文章
基于 WSRFCM 聚类的局部离群点检测算法
特征加权
阴影集
阴影粗糙模糊聚类
局部离群度
离群点检测
基于聚类划分的两阶段离群点检测算法
层次聚类
K-均值
信息熵
距离和
离群点检测
一种基于聚类的异常流量检测算法
异常检测
Chameleon算法
异常流量
聚类
一种改进的基于密度聚类的入侵检测算法
入侵检测
密度聚类
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于游程聚类的表格框线检测算法
来源期刊 计算机应用 学科 工学
关键词 表格识别 框线检测 表格线游程 层次聚类
年,卷(期) 2018,(z1) 所属期刊栏目 虚拟现实与多媒体技术
研究方向 页码范围 179-182
页数 4页 分类号 TP391.41
字数 5107字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 白伟 中国科学院成都计算机应用研究所 4 108 3.0 4.0
5 崔喆 中国科学院成都计算机应用研究所 21 133 7.0 11.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (8)
共引文献  (20)
参考文献  (5)
节点文献
引证文献  (3)
同被引文献  (5)
二级引证文献  (1)
1981(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(3)
  • 参考文献(1)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
表格识别
框线检测
表格线游程
层次聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
总被引数(次)
209512
论文1v1指导