作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
聚焦网络爬虫的两大重要目标就是寻找主题相关的网页,并优先下载主题相关度高的网页.首先,读取并分析网页的有效HTML元素,并根据高准确率来预测和抽取每个未被访问的网页的主题内容.然后,根据T-Graph来计算URLs的主题相关度,并按照相关度大小进行排序.本文提出的基于T-Graph的算法综合了多方面的元素,通过实验得到了较高的查准率和查全率,因此,该算法具有重要的意义.
推荐文章
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
基于量子行为进化算法的聚焦爬虫搜索策略
聚焦爬虫
主题相关度
立即价值
未来价值
量子进化算法
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
基于内容评价的爬虫搜索策略研究
信息安全
内容安全
内容评价
网络爬虫
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于T-Graph算法的链接和内容相结合的聚焦爬虫模型
来源期刊 电子世界 学科
关键词 聚焦网络爬虫 T-Graph HTML元素 信息检索 搜索引擎
年,卷(期) 2016,(6) 所属期刊栏目 技术交流
研究方向 页码范围 190-191
页数 2页 分类号
字数 1296字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周萍 7 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (5)
参考文献  (2)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚焦网络爬虫
T-Graph
HTML元素
信息检索
搜索引擎
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子世界
半月刊
1003-0522
11-2086/TN
大16开
北京市
2-892
1979
chi
出版文献量(篇)
36164
总下载数(次)
96
总被引数(次)
46655
论文1v1指导