作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Heritrix是由Java开发的开源Web网络爬虫,HTMLParser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题.文章探讨了基于Heritrix和HTMLParser构建Web信息收集系统的设计和实现.
推荐文章
面向Web的信息收集工具的设计与开发
页面收集
信息处理
网络爬虫
万维网(WWW)
Web智能信息服务系统的设计与实现
信息服务
关键词提取
信息分类
信息检索
Web信息采集系统的设计与实现
信息资源
Web信息采集
网页特征
基于仪表管理的Web信息共享系统设计与实现
Web
仪表管理信息系统
B/S结构
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 专用Web信息收集系统的设计和实现
来源期刊 煤炭技术 学科 工学
关键词 Heritrix HTMLParser Web
年,卷(期) 2011,(8) 所属期刊栏目 信息技术
研究方向 页码范围 190-191
页数 分类号 TP393
字数 1703字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱雪莲 新疆艺术学院基础部 18 26 4.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (30)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Heritrix
HTMLParser
Web
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
煤炭技术
月刊
1008-8725
23-1393/TD
大16开
哈尔滨市香坊区古香街30号
14-252
1982
chi
出版文献量(篇)
23677
总下载数(次)
45
论文1v1指导