基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.
推荐文章
一种基于增量式SVR学习的在线自适应建模方法
支持向量回归
在线建模
样本相似度
熔融指数
可在线增量自学习的聚焦爬行方法
资源发现
聚焦爬行
在线学习
半监督学习
基于量子行为进化算法的聚焦爬虫搜索策略
聚焦爬虫
主题相关度
立即价值
未来价值
量子进化算法
基于Hadoop的分布式并行增量爬虫技术研究
Hadoop集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于在线增量学习的自适应聚焦爬虫研究
来源期刊 计算机应用与软件 学科 工学
关键词 在线增量学习 TopicalRank 聚焦爬虫 农业领域
年,卷(期) 2009,(5) 所属期刊栏目 基金项目论文
研究方向 页码范围 25-27,33
页数 4页 分类号 TP3
字数 4574字 语种 中文
DOI 10.3969/j.issn.1000-386X.2009.05.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 滕桂法 河北农业大学信息科学与技术学院 82 386 11.0 15.0
2 朱婷 河北农业大学信息科学与技术学院 2 11 2.0 2.0
6 陆浩 中科院自动化所复杂系统与智能科学实验室 1 8 1.0 1.0
7 张长利 中科院自动化所复杂系统与智能科学实验室 1 8 1.0 1.0
8 曾大军 中科院自动化所复杂系统与智能科学实验室 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (115)
参考文献  (3)
节点文献
引证文献  (8)
同被引文献  (8)
二级引证文献  (7)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(1)
  • 二级引证文献(2)
2017(4)
  • 引证文献(1)
  • 二级引证文献(3)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
在线增量学习
TopicalRank
聚焦爬虫
农业领域
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导