基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取.为此,提出一种Deep Web爬虫爬行策略.用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件.实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
一种新的网络爬虫带宽控制策略
网络爬虫
限定带宽
礼貌爬行
一种Deep Web数据源质量评估模型
DeepWeb
Web数据库
Web服务器
质量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种Deep Web爬虫爬行策略
来源期刊 计算机工程 学科 工学
关键词 Deep Web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
年,卷(期) 2012,(11) 所属期刊栏目 开发研究与设计技术
研究方向 页码范围 284-286
页数 分类号 TP393
字数 3738字 语种 中文
DOI 10.3969/j.issn.1000-3428.2012.11.086
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 余建桥 西南大学计算机与信息科学学院 49 316 9.0 15.0
2 黄宽娜 乐山师范学院数学与信息科学学院 18 96 4.0 9.0
3 刘徽 乐山师范学院数学与信息科学学院 18 98 4.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (100)
参考文献  (3)
节点文献
引证文献  (16)
同被引文献  (18)
二级引证文献  (4)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(3)
  • 引证文献(3)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2016(6)
  • 引证文献(5)
  • 二级引证文献(1)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Deep Web页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导