原文服务方: 计算机应用研究       
摘要:
虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足.主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接.结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法.
推荐文章
一种新的主题爬行算法
主题爬行
Web分析
超链分析
搜索引擎
面向主题网络爬行的智能隧道穿越算法研究
主题网络爬虫
爬行策略
隧道
在线学习
马尔可夫
一种基于状态转换图的Ajax爬行算法
Ajax爬虫
状态转换图
Web爬虫
Deep Web
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的面向主题的爬行算法
来源期刊 计算机应用研究 学科
关键词 爬行器 主题 面向主题
年,卷(期) 2009,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1663-1666
页数 4页 分类号 TP301.6|TP393
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.05.017
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵铁军 哈尔滨工业大学计算机科学与技术学院 123 1278 19.0 32.0
2 李卫疆 昆明理工大学云南省计算机应用重点实验室 18 106 4.0 10.0
3 朴星海 哈尔滨工业大学计算机科学与技术学院 2 13 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (22)
参考文献  (5)
节点文献
引证文献  (11)
同被引文献  (25)
二级引证文献  (28)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(2)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(4)
  • 引证文献(3)
  • 二级引证文献(1)
2013(2)
  • 引证文献(0)
  • 二级引证文献(2)
2014(4)
  • 引证文献(2)
  • 二级引证文献(2)
2015(7)
  • 引证文献(1)
  • 二级引证文献(6)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(6)
  • 引证文献(0)
  • 二级引证文献(6)
2018(6)
  • 引证文献(0)
  • 二级引证文献(6)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
爬行器
主题
面向主题
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导