原文服务方: 计算机应用研究       
摘要:
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫.爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级.实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率.
推荐文章
基于LDA扩展主题词库的主题爬虫研究
LDA主题模型
主题爬虫
word2vec
相似度计算
基于主题语义 URL 的信息搜索方法研究
主题树
URL
语义
搜索引擎
主题-URL
映射
基于贝叶斯分类器的主题爬虫研究
贝叶斯
分类器
主题爬虫
主题相关度
基于概率模型的主题爬虫的研究和实现
主题爬虫
概率模型
URL过滤
URL排序
优先值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于URL模式集的主题爬虫
来源期刊 计算机应用研究 学科
关键词 主题爬虫 URL模式 URL前缀树 模式关系图 URL模式重要性
年,卷(期) 2018,(3) 所属期刊栏目 算法研究探讨
研究方向 页码范围 694-699,726
页数 7页 分类号 TP311.52
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2018.03.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李石君 武汉大学计算机学院 88 753 16.0 22.0
2 胡萍瑞 武汉大学计算机学院 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (13)
参考文献  (8)
节点文献
引证文献  (14)
同被引文献  (61)
二级引证文献  (34)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(10)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(6)
  • 二级引证文献(4)
2018(10)
  • 引证文献(6)
  • 二级引证文献(4)
2019(25)
  • 引证文献(5)
  • 二级引证文献(20)
2020(13)
  • 引证文献(3)
  • 二级引证文献(10)
研究主题发展历程
节点文献
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导