基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战.对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页.为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究.至今,聚焦爬虫已成为有关万维网的研究热点之一.文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析.在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,Web数据清洗,以及搜索空间的扩展等.
推荐文章
基于维吾尔文的聚焦策略爬虫技术研究
网络爬虫
维吾尔文聚焦策略
维吾尔文搜索引擎
主题爬虫技术研究综述
网络爬虫
主题爬虫
相似度
网页内容
链接分析
基于网络的信息获取技术浅析
聚焦爬虫
信息检索
链接分析
文本检索
数据抽取
协作抓取
Web爬虫检测技术综述
爬虫检测
智能爬虫
恶意爬虫
反爬虫
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 聚焦爬虫技术研究综述
来源期刊 计算机应用 学科 工学
关键词 聚焦爬虫 信息检索 链接分析 文本检索 数据抽取 协作抓取 本体描述 元搜索
年,卷(期) 2005,(9) 所属期刊栏目 Web与数据库
研究方向 页码范围 1965-1969
页数 5页 分类号 TP311.13
字数 6562字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周立柱 清华大学计算机科学与技术系 69 3313 19.0 57.0
2 林玲 清华大学计算机科学与技术系 3 417 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (405)
同被引文献  (199)
二级引证文献  (651)
1998(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(4)
  • 引证文献(3)
  • 二级引证文献(1)
2007(22)
  • 引证文献(22)
  • 二级引证文献(0)
2008(36)
  • 引证文献(32)
  • 二级引证文献(4)
2009(57)
  • 引证文献(39)
  • 二级引证文献(18)
2010(59)
  • 引证文献(37)
  • 二级引证文献(22)
2011(59)
  • 引证文献(33)
  • 二级引证文献(26)
2012(77)
  • 引证文献(39)
  • 二级引证文献(38)
2013(73)
  • 引证文献(31)
  • 二级引证文献(42)
2014(86)
  • 引证文献(40)
  • 二级引证文献(46)
2015(125)
  • 引证文献(35)
  • 二级引证文献(90)
2016(119)
  • 引证文献(28)
  • 二级引证文献(91)
2017(113)
  • 引证文献(28)
  • 二级引证文献(85)
2018(106)
  • 引证文献(21)
  • 二级引证文献(85)
2019(88)
  • 引证文献(13)
  • 二级引证文献(75)
2020(32)
  • 引证文献(4)
  • 二级引证文献(28)
研究主题发展历程
节点文献
聚焦爬虫
信息检索
链接分析
文本检索
数据抽取
协作抓取
本体描述
元搜索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
总被引数(次)
209512
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导