作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现存主题爬虫算法在抓取主题网页方面,其准确性不是很高.本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法.首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡.新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高.
推荐文章
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
基于内容和链接分析的主题爬虫策略
主题爬虫
爬行策略
Web挖掘
论文评估
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于内容与链接分析的主题爬虫研究与设计
来源期刊 计算机与现代化 学科 工学
关键词 主题爬虫 主题相关度 主题网页
年,卷(期) 2014,(4) 所属期刊栏目 算法设计与分析
研究方向 页码范围 77-80
页数 4页 分类号 TP393
字数 4587字 语种 中文
DOI 10.3969/j.issn.1006-2475.2014.04.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 尹珂 安徽理工大学计算机科学与工程学院 3 8 2.0 2.0
2 舒奔 安徽理工大学计算机科学与工程学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (30)
参考文献  (9)
节点文献
引证文献  (6)
同被引文献  (14)
二级引证文献  (0)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
主题爬虫
主题相关度
主题网页
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导