基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法.从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理.实践证明,该爬虫具有较好的性能.
推荐文章
基于遗传算法的聚焦爬虫搜索策略
聚焦爬虫
遗传算法
小生境
主题相关度
基于改进遗传算法的离散变量优化设计方法
混合离散变量
改进遗传算法
程序设计
优化设计
基于改进遗传算法的最优交会控制器设计
改进遗传算法
交会控制器
线性二次型最优控制
基于改进遗传算法的波导缝隙阵天线设计方法
毫米波
波导缝隙阵天线
泰勒分布
遗传算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进遗传算法的聚焦爬虫设计
来源期刊 计算机工程与科学 学科 工学
关键词 聚焦爬虫 爬行控制器 主题相关度 数据抽取
年,卷(期) 2010,(5) 所属期刊栏目 智能信息处理
研究方向 页码范围 126-129
页数 分类号 TP391.3
字数 4279字 语种 中文
DOI 10.3969/j.issn.1007-130X.2010.05.034
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 范会联 长江师范学院数学与计算机学院 24 148 7.0 11.0
2 李献礼 长江师范学院网络信息中心 11 58 5.0 7.0
3 曾广朴 长江师范学院数学与计算机学院 17 61 5.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (118)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (10)
二级引证文献  (3)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(6)
  • 参考文献(1)
  • 二级参考文献(5)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(6)
  • 参考文献(1)
  • 二级参考文献(5)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚焦爬虫
爬行控制器
主题相关度
数据抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导