基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统.首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照文档的权重值进行排序;最后,进行系统与功能的验证,证明了本文PDF文档管理系统内容查询具有更高准确性,为企业级智能文档管理平台提供有效和实用的方案.
推荐文章
基于网络发行的PDF文档版权保护系统的设计与实现
数字版权管理
PDF文档保护
Acrobat插件开发
机器指纹
文档管理系统的设计与实现
文档管理
数据库
Web服务
Internet
文本信息检索系统的设计与实现
信息检索
算法介绍
倒排索引
检索系统构建
快速注册
快速检索
基于纠错码的PDF文档数字水印算法
数字水印
信息隐藏
纠错编码
鲁棒性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本信息的PDF文档管理系统设计与实现
来源期刊 燕山大学学报 学科 工学
关键词 文本信息 文件解析 文档检索 权重值
年,卷(期) 2020,(6) 所属期刊栏目 信息与计算机技术
研究方向 页码范围 603-608
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1007-791X.2020.06.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李英伟 50 228 9.0 12.0
2 南赛 2 2 1.0 1.0
3 王春伟 1 0 0.0 0.0
4 侯方 1 0 0.0 0.0
5 申升 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (6)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(4)
  • 参考文献(0)
  • 二级参考文献(4)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(1)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本信息
文件解析
文档检索
权重值
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
燕山大学学报
双月刊
1007-791X
13-1219/N
大16开
河北省秦皇岛市河北大街西段438号
18-73
1963
chi
出版文献量(篇)
2254
总下载数(次)
2
总被引数(次)
12529
论文1v1指导