基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行.为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行.通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫.通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate).
推荐文章
基于主题定制的专利网络爬虫的设计与实现
可定制关键词
网络爬虫
NET
基于Heritrix主题爬虫的定制与实现
主题爬虫
定制与实现
可定制的聚焦网络爬虫
信息收集
搜索引擎
网络爬虫
主题爬虫的设计与实现
主题爬虫
HITS算法
主题相关度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 用户定制主题聚焦爬虫的设计与实现
来源期刊 计算机工程与设计 学科 工学
关键词 聚焦爬虫 k-means best-first策略 自适应主题模型 用户定制主题爬虫
年,卷(期) 2015,(1) 所属期刊栏目 网络与通信技术
研究方向 页码范围 17-21
页数 5页 分类号 TP311
字数 4060字 语种 中文
DOI 10.16208/j.issn1000-7024.2015.01.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄永峰 清华大学电子工程系信息认知与智能系统研究所 97 583 13.0 16.0
5 闵钰麟 清华大学电子工程系信息认知与智能系统研究所 1 13 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (13)
同被引文献  (53)
二级引证文献  (36)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(7)
  • 引证文献(2)
  • 二级引证文献(5)
2018(15)
  • 引证文献(5)
  • 二级引证文献(10)
2019(14)
  • 引证文献(2)
  • 二级引证文献(12)
2020(10)
  • 引证文献(1)
  • 二级引证文献(9)
研究主题发展历程
节点文献
聚焦爬虫
k-means
best-first策略
自适应主题模型
用户定制主题爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与设计
月刊
1000-7024
11-1775/TP
大16开
北京142信箱37分箱
82-425
1980
chi
出版文献量(篇)
18818
总下载数(次)
45
总被引数(次)
161677
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导