基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
一种Deep Web数据源质量评估模型
DeepWeb
Web数据库
Web服务器
质量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种Deep Web爬虫的设计与实现
来源期刊 计算机与现代化 学科 工学
关键词 Deep Web Web爬虫 表单
年,卷(期) 2009,(3) 所属期刊栏目 网络与通信
研究方向 页码范围 31-34
页数 4页 分类号 TP393
字数 3219字 语种 中文
DOI 10.3969/j.issn.1006-2475.2009.03.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张化祥 山东师范大学信息科学与工程学院 73 576 14.0 19.0
2 荣光 山东师范大学信息科学与工程学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (23)
参考文献  (4)
节点文献
引证文献  (8)
同被引文献  (22)
二级引证文献  (48)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(2)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(3)
  • 引证文献(1)
  • 二级引证文献(2)
2013(3)
  • 引证文献(1)
  • 二级引证文献(2)
2014(6)
  • 引证文献(1)
  • 二级引证文献(5)
2015(2)
  • 引证文献(0)
  • 二级引证文献(2)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(14)
  • 引证文献(0)
  • 二级引证文献(14)
2019(15)
  • 引证文献(1)
  • 二级引证文献(14)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
Deep Web
Web爬虫
表单
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导