基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了使全文检索系统支持多种文件格式的检索,必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题,文章设计了一种基于插件的支持多格式的文本抽取系统,该系统采用文件后缀名和魔数(magic number)结合的方式自动识别文件类型,以统一接口调用已存在的针对单一类型文件的抽取插件,对得到的纯文本进行编码转换以使得最终的输出编码统一,系统还针对目录输入设计了多进程并行优化以利用CPU多核优势,使用贪心算法优化任务分配以使总运行时间尽可能短。该系统易于扩展,编程接口简单。实验结果表明,该系统能正常抽取文本内容和元数据,且其抽取效率高于Apache的Tika等开源文本抽取系统。
推荐文章
基于插件技术的测井软件系统的设计与实现
测井软件
插件设计
DLL
实现
基于Eclipse的RBAC通用插件的设计与实现
Eclipse
OSGI
Bundle
RBAC
角色
插件
PDE
基于插件技术的双船实时状态观测系统设计与实现
地震勘探
双船作业
实时状态观测
插件
距离控制模型
高并发汉英信息抽取系统的设计与实现
大数据
高并发
信息抽取
TextRank
uWSGI
Nginx
Django
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于插件的文本抽取系统的设计与实现
来源期刊 电子技术 学科
关键词 文本抽取 多格式 插件 文件类型识别 编码转换 多进程 任务分配算法
年,卷(期) 2014,(8) 所属期刊栏目 电子技术设计与应用
研究方向 页码范围 32-36
页数 5页 分类号
字数 3910字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴刚 中国科学技术大学自动化系 217 3774 29.0 54.0
2 凌青 中国科学技术大学自动化系 18 108 7.0 9.0
3 苏宇 中国科学技术大学自动化系 14 116 5.0 10.0
4 石春 中国科学技术大学自动化系 44 296 9.0 15.0
5 戴上静 中国科学技术大学自动化系 3 18 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (22)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本抽取
多格式
插件
文件类型识别
编码转换
多进程
任务分配算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子技术
月刊
1000-0755
31-1323/TN
大16开
上海市长宁区泉口路274号
4-141
1963
chi
出版文献量(篇)
5480
总下载数(次)
19
论文1v1指导