基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和U RL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
一种新的网络爬虫带宽控制策略
网络爬虫
限定带宽
礼貌爬行
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种主题知识自增长的聚焦网络爬虫
来源期刊 计算机应用与软件 学科 工学
关键词 聚焦网络爬虫 无监督学习 知识扩展 主题相关度
年,卷(期) 2014,(5) 所属期刊栏目 数据库技术
研究方向 页码范围 29-33,88
页数 6页 分类号 TP316
字数 7552字 语种 中文
DOI 10.3969/j.issn.1000-386x.2014.05.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 廖晓兰 湖南农业大学植物保护学院 133 1890 24.0 39.0
2 李东晖 湖南农业大学信息科学与技术学院 20 95 4.0 9.0
3 陈雪刚 湘南学院计算机科学系 27 90 6.0 8.0
4 范辅桥 1 14 1.0 1.0
5 黄九鸣 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (16)
参考文献  (8)
节点文献
引证文献  (14)
同被引文献  (24)
二级引证文献  (32)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1983(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(1)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(8)
  • 引证文献(3)
  • 二级引证文献(5)
2017(6)
  • 引证文献(4)
  • 二级引证文献(2)
2018(15)
  • 引证文献(3)
  • 二级引证文献(12)
2019(11)
  • 引证文献(1)
  • 二级引证文献(10)
2020(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
聚焦网络爬虫
无监督学习
知识扩展
主题相关度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导