原文服务方: 计算机应用研究       
摘要:
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式.在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构.在执行结构模式下,实现了增量爬虫算法.仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势.因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性.
推荐文章
基于关联规则挖掘的社区网络数据爬虫算法
关联规则挖掘
社区网络
数据爬虫
推荐
面向增量同生主题的维吾尔文爬虫的研究
网络爬虫
网页分类
IC主题模型
锚文本
维吾尔文
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
基于WebKit的网络爬虫
网络爬虫
浏览器引擎
WebKit
JavaScript
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分层结构保留的增量网络爬虫算法
来源期刊 计算机应用研究 学科
关键词 网络爬虫 URL过滤器 层次结构保存 频率模型
年,卷(期) 2013,(8) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2381-2385
页数 5页 分类号 TP301.6
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2013.08.035
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄翰 华南理工大学软件学院 50 526 11.0 21.0
2 胡廉民 乐山师范学院物理与电子工程学院 20 97 6.0 9.0
4 李英 乐山师范学院数学与信息科学学院 5 23 3.0 4.0
7 徐威迪 华南理工大学软件学院 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (35)
共引文献  (23)
参考文献  (4)
节点文献
引证文献  (14)
同被引文献  (17)
二级引证文献  (20)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(10)
  • 参考文献(0)
  • 二级参考文献(10)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2016(8)
  • 引证文献(4)
  • 二级引证文献(4)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(7)
  • 引证文献(2)
  • 二级引证文献(5)
2019(6)
  • 引证文献(1)
  • 二级引证文献(5)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
网络爬虫
URL过滤器
层次结构保存
频率模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导