基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术.采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示.运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据.通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性.通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫.
推荐文章
分布式主题爬虫的设计与实现
主题爬虫
分布式
遗传算法
搜索引擎
广域网分布式爬虫中的Agent协同与Web划分研究
分布式Web爬虫
Agent协同
Web划分
顾问服务
基于Hadoop的广域网分布式主题爬虫系统框架
分布式爬虫
Hadoop
爬虫框架
模板匹配
主题爬虫
基于H adoop的分布式主题网络爬虫研究
Hadoop
MapReduce
分布式架构
主题网络爬虫
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 分布式爬虫的研究与实现
来源期刊 计算机技术与发展 学科 工学
关键词 分布式集群 Nutch Solr 企业官网
年,卷(期) 2020,(2) 所属期刊栏目 应用开发研究
研究方向 页码范围 192-196
页数 5页 分类号 TP391
字数 4811字 语种 中文
DOI 10.3969/j.issn.1673-629X.2020.02.037
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 冯锡炜 辽宁石油化工大学计算机与通信工程学院 35 236 9.0 13.0
2 朱睿 辽宁石油化工大学计算机与通信工程学院 5 18 2.0 4.0
3 马蕾 辽宁石油化工大学计算机与通信工程学院 2 1 1.0 1.0
4 窦予梓 辽宁石油化工大学计算机与通信工程学院 2 1 1.0 1.0
5 高天铸 辽宁石油化工大学计算机与通信工程学院 2 1 1.0 1.0
6 吴衍兵 辽宁石油化工大学计算机与通信工程学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (71)
共引文献  (51)
参考文献  (19)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(9)
  • 参考文献(1)
  • 二级参考文献(8)
2011(12)
  • 参考文献(0)
  • 二级参考文献(12)
2012(10)
  • 参考文献(2)
  • 二级参考文献(8)
2013(6)
  • 参考文献(0)
  • 二级参考文献(6)
2014(10)
  • 参考文献(3)
  • 二级参考文献(7)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(7)
  • 参考文献(6)
  • 二级参考文献(1)
2017(5)
  • 参考文献(4)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分布式集群
Nutch
Solr
企业官网
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导