基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对“二次爬行”过程进行改进.在传统的主题网络爬虫流程中增加一份“经验树”,将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的“经验”,实现对后续爬行的指导.实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升.
推荐文章
一种新的主题爬行算法
主题爬行
Web分析
超链分析
搜索引擎
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
一种新的网络爬虫带宽控制策略
网络爬虫
限定带宽
礼貌爬行
一种新的面向主题的爬行算法
爬行器
主题
面向主题
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的主题网络爬虫爬行策略
来源期刊 计算机应用与软件 学科 工学
关键词 主题网络爬虫 爬行策略 二次爬行 相关度分析
年,卷(期) 2011,(11) 所属期刊栏目 应用技术研究
研究方向 页码范围 264-267,293
页数 分类号 TP311
字数 5738字 语种 中文
DOI 10.3969/j.issn.1000-386X.2011.11.067
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘晓然 海军指挥学院信息战研究系 18 93 5.0 9.0
2 钱海俊 海军指挥学院信息战研究系 4 41 2.0 4.0
3 宋海洋 海军指挥学院信息战研究系 2 34 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (38)
参考文献  (6)
节点文献
引证文献  (34)
同被引文献  (66)
二级引证文献  (235)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(3)
  • 引证文献(3)
  • 二级引证文献(0)
2014(7)
  • 引证文献(4)
  • 二级引证文献(3)
2015(38)
  • 引证文献(10)
  • 二级引证文献(28)
2016(44)
  • 引证文献(5)
  • 二级引证文献(39)
2017(57)
  • 引证文献(5)
  • 二级引证文献(52)
2018(59)
  • 引证文献(3)
  • 二级引证文献(56)
2019(46)
  • 引证文献(1)
  • 二级引证文献(45)
2020(13)
  • 引证文献(1)
  • 二级引证文献(12)
研究主题发展历程
节点文献
主题网络爬虫
爬行策略
二次爬行
相关度分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导