基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制.实验结果表明,利用改进后的新算法在限定时间内能够发现更多主题相关的链接,有效提高了主题爬虫的效率.
推荐文章
基于Shark-Search和Hits算法的主题爬虫研究
主题爬虫
爬行策略
垂直搜索引擎
一种改进Shark-Search的主题爬虫算法
主题爬虫
Shark-Search算法
PageRank算法
垂直搜索
一种改进Shark-Search的多媒体主题搜索算法
Fish-Search算法
Shark-Search算法
主题搜索
改进的Shark-search算法在网络采集中的应用
Shark-search算法
网页分块
Web信息搜集
链接价值
主题漂移
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 词向量聚类加权Shark-Search的主题爬虫策略研究
来源期刊 计算机与数字工程 学科 工学
关键词 主题爬虫 Shark-Search 词向量聚类
年,卷(期) 2018,(1) 所属期刊栏目 信息处理与网络安全
研究方向 页码范围 144-148
页数 5页 分类号 TP301
字数 3383字 语种 中文
DOI 10.3969/j.issn.1672-9722.2018.01.031
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程光 东南大学计算机科学与工程学院 59 1001 16.0 31.0
2 廖闻剑 8 54 3.0 7.0
6 程元堃 2 11 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (39)
共引文献  (141)
参考文献  (12)
节点文献
引证文献  (3)
同被引文献  (10)
二级引证文献  (2)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(5)
  • 参考文献(2)
  • 二级参考文献(3)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(4)
  • 参考文献(3)
  • 二级参考文献(1)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(4)
  • 引证文献(2)
  • 二级引证文献(2)
研究主题发展历程
节点文献
主题爬虫
Shark-Search
词向量聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
总被引数(次)
47579
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导