作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.
推荐文章
基于网络爬虫技术的数字资源检测软件的设计与实现
数字资源
自动监测
网络爬虫
日志文件
正则解析
检测软件
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
基于WebKit的网络爬虫
网络爬虫
浏览器引擎
WebKit
JavaScript
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网络爬虫软件的研究与开发
来源期刊 软件导刊 学科 工学
关键词 主题爬虫 向量空间模型 主题相关度 爬虫阻止协议
年,卷(期) 2011,(5) 所属期刊栏目 网络技术
研究方向 页码范围 142-144
页数 分类号 TP319
字数 4438字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (1)
参考文献  (1)
节点文献
引证文献  (5)
同被引文献  (11)
二级引证文献  (10)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2016(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
主题爬虫
向量空间模型
主题相关度
爬虫阻止协议
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
总被引数(次)
30383
论文1v1指导