作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面.在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足.实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率.
推荐文章
主题爬虫技术研究综述
网络爬虫
主题爬虫
相似度
网页内容
链接分析
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
基于网络日志分析的混合策略主题爬虫
主题爬虫
网络日志
主题群落
用户兴趣
混合策略
面向增量同生主题的维吾尔文爬虫的研究
网络爬虫
网页分类
IC主题模型
锚文本
维吾尔文
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向主题搜索的网络爬虫信息采集策略研究
来源期刊 软件导刊 学科 工学
关键词 搜索引擎 主题爬虫 信息采集
年,卷(期) 2015,(11) 所属期刊栏目 算法与语言
研究方向 页码范围 68-70
页数 3页 分类号 TP312
字数 2817字 语种 中文
DOI 10.11907/rjdk.151856
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (45)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(2)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
搜索引擎
主题爬虫
信息采集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
总被引数(次)
30383
论文1v1指导