作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源.
推荐文章
Heritrix在电子信息垂直搜索平台中的应用
Heritrix
ELFHash算法
多线程
电子信息
垂直搜索引擎
基于HTMLParser信息提取的网络爬虫设计
网络爬虫
垂直搜索
HTMLParser
基于Heritrix的网络爬虫研究与应用
网络爬虫
主题搜索引擎
Heritrix
URL地址去重
BKDRHash算法
网络商品信息元搜索技术研究与应用
Web 信息抽取
元搜索
提取模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Heritrix的商品信息搜索的网络爬虫系统的设计
来源期刊 电脑编程技巧与维护 学科
关键词 Heritrix 网络爬虫 爬虫 商品信息采集
年,卷(期) 2012,(22) 所属期刊栏目 网络与通信
研究方向 页码范围 74,81
页数 2页 分类号
字数 1308字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 袁小洁 贵州大学计算机科学与信息学院 5 9 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (4)
同被引文献  (5)
二级引证文献  (15)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(5)
  • 引证文献(1)
  • 二级引证文献(4)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(5)
  • 引证文献(2)
  • 二级引证文献(3)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
Heritrix
网络爬虫
爬虫
商品信息采集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑编程技巧与维护
月刊
1006-4052
11-3411/TP
大16开
北京市海淀区长春桥路5号六号楼1209室
82-715
1994
chi
出版文献量(篇)
14554
总下载数(次)
80
总被引数(次)
25630
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导