基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复杂度上。论文提出一种面向大规模网页去重的三层分布式架构,其利用本地缓存、分布式缓存及分布式索引高效地判断重复网页,特别适用于网页内容更新频繁需要反复爬取的应用场景。实验分析结果表明论文提出的三层分布式架构可以支持分布式网络爬虫环境下大规模的网页去重需求,并且具有较好的可扩展性。
推荐文章
基于DCOM技术的三层分布式网络的实现
COM/DCOM
三层分布式网络
C/S结构
GPS系统
基于三层植物模型的大规模植物模拟方法
虚拟现实
3D可视化
植物模拟
动态调度
基于三层B/S模式的分布式系统设计
B/S模式
分布式系统
设计模式
分布式三层结构应用系统的设计与实现
分布式
基于组件
UML
管理信息系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向大规模网页去重的三层分布式架构
来源期刊 计算机与数字工程 学科
关键词 网页去重 网络爬虫 分布式架构
年,卷(期) 2015,(10) 所属期刊栏目 专栏 ? Web 信息系统及应用
研究方向 页码范围 1751-1755
页数 5页 分类号
字数 3327字 语种 中文
DOI 10.3969/j.issn.1672-9722.2015.10.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 贲兴龙 1 1 1.0 1.0
2 贾大文 2 14 1.0 2.0
3 袁林 8 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (55)
共引文献  (51)
参考文献  (9)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(11)
  • 参考文献(0)
  • 二级参考文献(11)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(19)
  • 参考文献(2)
  • 二级参考文献(17)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页去重
网络爬虫
分布式架构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
总被引数(次)
47579
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导