基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容.针对特定领域信息的获取,目前主要采用聚焦爬虫策略.该策略只爬取与主题相关的页面,忽略不相关页面.但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足.因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统.该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源.实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%.
推荐文章
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
基于改进SVM算法的聚焦爬虫设计与实现?
聚焦爬虫
特征提取
UM
SVM
速率
基于Web的网络爬虫的设计与实现
搜索引擎
网络爬虫
信息检索
页面索引
基于量子行为进化算法的聚焦爬虫搜索策略
聚焦爬虫
主题相关度
立即价值
未来价值
量子进化算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向大学领域的聚焦爬虫设计与实现
来源期刊 山西大学学报(自然科学版) 学科 工学
关键词 特定领域 聚焦爬虫 大学领域 Context Graphs 支持向量机
年,卷(期) 2015,(2) 所属期刊栏目 第二十届全国信息检索学术会议(CCIR 2014)论文选登
研究方向 页码范围 223-234
页数 分类号 TP391
字数 语种 中文
DOI 10.13451/j.cnki.shanxi.univ(nat.sci.).2015.02.006
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡婕 湖北大学计算机与信息工程学院 18 101 7.0 9.0
2 刘梦赤 武汉大学计算机学院软件工程国家重点实验室 14 59 5.0 6.0
3 甘国华 武汉大学计算机学院软件工程国家重点实验室 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (9)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (22)
二级引证文献  (10)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(3)
  • 引证文献(1)
  • 二级引证文献(2)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(6)
  • 引证文献(1)
  • 二级引证文献(5)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
特定领域
聚焦爬虫
大学领域
Context Graphs
支持向量机
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
山西大学学报(自然科学版)
季刊
0253-2395
14-1105/N
大16开
太原市坞城路92号
22-42
1960
chi
出版文献量(篇)
2646
总下载数(次)
7
总被引数(次)
12039
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导