基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键.针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题.
推荐文章
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
融合链接文本的增量联合主题模型
主题模型
增量学习
链接—概率隐含语义分析
自适应非对称学习
自适应增量链接—概率隐含语义分析
利用链接分析技术提高搜索引擎查找质量的研究
链接分析
搜索引擎
PageRank算法
Web图
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 引入主题链接块因子的候选链接搜索策略研究
来源期刊 计算机与数字工程 学科 工学
关键词 网页分块 Shark-search算法 链接结构 主题链接块
年,卷(期) 2018,(5) 所属期刊栏目 算法与分析
研究方向 页码范围 874-878
页数 5页 分类号 TP391
字数 4337字 语种 中文
DOI 10.3969/j.issn.1672-9722.2018.05.006
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘乃文 3 4 2.0 2.0
2 周雪 山东师范大学信息科学与工程学院 4 5 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (56)
共引文献  (54)
参考文献  (12)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(8)
  • 参考文献(0)
  • 二级参考文献(8)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(9)
  • 参考文献(1)
  • 二级参考文献(8)
2008(9)
  • 参考文献(0)
  • 二级参考文献(9)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(6)
  • 参考文献(2)
  • 二级参考文献(4)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(4)
  • 参考文献(1)
  • 二级参考文献(3)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页分块
Shark-search算法
链接结构
主题链接块
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
总被引数(次)
47579
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导