作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前各种PDF转化工具中,将PDF元素抽取后还原顺序的方法是根据每个文字元素的坐标---由左到右,由上到下的顺序重排元素。这种重排方式无法正确还原多栏或者多区域的PDF文档。文章提出了一种页面分块算法。所提算法将页面划分为不同的区域,在分区基础上重排,有效的提高了多栏或者多区域的PDF文档文本顺序还原的正确性。
推荐文章
恶意PDF文档检测技术研究进展
PDF
文档检测
静态分析
动态分析
基于纠错码的PDF文档数字水印算法
数字水印
信息隐藏
纠错编码
鲁棒性
有效HTML文本信息抽取方法的研究
网页
信息抽取
机器学习
统计
中文语音合成中文档结构和文本规范化研究
文本分析
语音合成
规范化
算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 PDF文档HTML化中文本重排问题研究
来源期刊 电脑与信息技术 学科 工学
关键词 页面分块 多栏PDF文档 文本重排
年,卷(期) 2014,(3) 所属期刊栏目 数据库与软件技术
研究方向 页码范围 27-30
页数 4页 分类号 TP391
字数 3258字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李健 北京工业大学计算机科学与技术系 73 248 9.0 12.0
2 林青 北京工业大学计算机科学与技术系 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (25)
参考文献  (6)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(6)
  • 参考文献(1)
  • 二级参考文献(5)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
页面分块
多栏PDF文档
文本重排
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑与信息技术
双月刊
1005-1228
43-1202/TP
大16开
长沙市解放东路53号
42-113
1993
chi
出版文献量(篇)
2678
总下载数(次)
14
论文1v1指导