基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级.对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上, 提出基于上述方法的主题爬取算法.实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
推荐文章
面向优先级用户的移动边缘计算任务调度策略
边缘计算
优先级用户
任务调度策略
多优先级业务流多通道并行传输
多优先级
多通道并行传输
平均队长
平均等待时间
网格工作流中基于优先级的调度方法研究
工作流
网格
优先级
调度算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向主题爬取的多粒度URLs优先级计算方法
来源期刊 中文信息学报 学科 工学
关键词 计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算
年,卷(期) 2009,(3) 所属期刊栏目
研究方向 页码范围 31-38
页数 8页 分类号 TP391
字数 7209字 语种 中文
DOI 10.3969/j.issn.1003-0077.2009.03.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马军 山东大学计算机科学与技术学院 74 980 15.0 29.0
2 雷景生 海南大学信息科学技术学院 35 368 10.0 17.0
3 陈竹敏 山东大学计算机科学与技术学院 14 377 9.0 14.0
4 韩晓晖 山东大学计算机科学与技术学院 5 115 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (7)
同被引文献  (6)
二级引证文献  (11)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(1)
  • 引证文献(0)
  • 二级引证文献(1)
2013(2)
  • 引证文献(1)
  • 二级引证文献(1)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(6)
  • 引证文献(2)
  • 二级引证文献(4)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
计算机应用
中文信息处理
主题爬取
优先级计算
网页分块
相关度计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
海南省自然科学基金
英文译名:
官方网址:
项目类型:
学科类型:
高等学校博士学科点专项科研基金
英文译名:
官方网址:http://std.nankai.edu.cn/kyjh-bsd/1.htm
项目类型:面上课题
学科类型:
论文1v1指导