基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集.由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面.然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值.这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面.由于Deep Web惟一"入口点"是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询.这里提出一种针对查询接口查询自动产生问题的理论框架.通过在实际Deep Web站点上的实验证明了此方法是非常有效的.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
一种Deep Web爬虫爬行策略
Deep Web页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
基于关键词相关度的Deep Web爬虫爬行策略
Deep Web页面
爬行策略
关键词选择
相关度权重
覆盖率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Deep Web爬虫爬行策略研究
来源期刊 计算机工程与设计 学科 工学
关键词 Deep Web Deep Web爬虫 查询选择 查询效能 适应性爬行算法
年,卷(期) 2006,(17) 所属期刊栏目 基金项目论文
研究方向 页码范围 3154-3158
页数 5页 分类号 TP393
字数 6679字 语种 中文
DOI 10.3969/j.issn.1000-7024.2006.17.015
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 崔志明 苏州大学智能信息处理及应用研究所 169 2304 25.0 38.0
2 郑冬冬 苏州大学智能信息处理及应用研究所 8 238 6.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (63)
同被引文献  (11)
二级引证文献  (178)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(4)
  • 引证文献(4)
  • 二级引证文献(0)
2008(13)
  • 引证文献(10)
  • 二级引证文献(3)
2009(22)
  • 引证文献(11)
  • 二级引证文献(11)
2010(28)
  • 引证文献(10)
  • 二级引证文献(18)
2011(21)
  • 引证文献(6)
  • 二级引证文献(15)
2012(22)
  • 引证文献(5)
  • 二级引证文献(17)
2013(22)
  • 引证文献(5)
  • 二级引证文献(17)
2014(14)
  • 引证文献(1)
  • 二级引证文献(13)
2015(24)
  • 引证文献(1)
  • 二级引证文献(23)
2016(29)
  • 引证文献(7)
  • 二级引证文献(22)
2017(19)
  • 引证文献(1)
  • 二级引证文献(18)
2018(10)
  • 引证文献(1)
  • 二级引证文献(9)
2019(10)
  • 引证文献(1)
  • 二级引证文献(9)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
Deep Web
Deep Web爬虫
查询选择
查询效能
适应性爬行算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与设计
月刊
1000-7024
11-1775/TP
大16开
北京142信箱37分箱
82-425
1980
chi
出版文献量(篇)
18818
总下载数(次)
45
总被引数(次)
161677
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导