基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导致当搜索位置距离主题团较远时容易迷失搜索方向.在最好优先搜索算法基础上,引入了本体帮助主题爬虫识别那些"未来回报"的链接,对抛弃的主题无关链接再基于领域本体进行一次其他主题相关度的判断实验.实验结果表明,基于本体的主题爬虫能够抓取大量主题相关度高的网页,提高了主题资源覆盖率,有效解决了传统算法无法穿过隧道的问题.
推荐文章
主题爬虫技术研究综述
网络爬虫
主题爬虫
相似度
网页内容
链接分析
基于贝叶斯分类器的主题爬虫研究
贝叶斯
分类器
主题爬虫
主题相关度
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于本体的主题爬虫技术研究
来源期刊 计算机仿真 学科 工学
关键词 主题爬虫 本体 主题相关度 最好优先算法
年,卷(期) 2009,(10) 所属期刊栏目 网络与互连技术
研究方向 页码范围 123-126,133
页数 5页 分类号 TP393
字数 5102字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (38)
参考文献  (3)
节点文献
引证文献  (6)
同被引文献  (11)
二级引证文献  (4)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(3)
  • 引证文献(2)
  • 二级引证文献(1)
2018(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
主题爬虫
本体
主题相关度
最好优先算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机仿真
月刊
1006-9348
11-3724/TP
大16开
北京海淀阜成路14号
82-773
1984
chi
出版文献量(篇)
20896
总下载数(次)
43
总被引数(次)
127174
论文1v1指导