基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。
推荐文章
Deep web接口查询能力估计
查询接口
查询能力
Deep Web数据集成系统中的查询效率优化
Deep
Web
统一查询接口
查询效率
基于演化版本的 Deep Web 查询接口维护方法
Deep Web
查询接口
演化版本
接口维护
基于查询接口特征的Deep Web数据源自动分类
Deep Web
自动分类
机器学习
数据集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Deep Web数据采集查询构造方法研究
来源期刊 计算机科学与探索 学科 工学
关键词 Deep Web 查询接口 查询构造 网络爬虫
年,卷(期) 2015,(9) 所属期刊栏目 学术研究
研究方向 页码范围 1025-1033
页数 9页 分类号 TP319
字数 6980字 语种 中文
DOI 10.3778/j.issn.1673-9418.1409021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学旗 中国科学院计算技术研究所网络数据科学与技术重点实验室 160 4858 31.0 67.0
2 熊锦华 中国科学院计算技术研究所网络数据科学与技术重点实验室 11 78 5.0 8.0
3 贾岩涛 中国科学院计算技术研究所网络数据科学与技术重点实验室 9 35 4.0 5.0
4 王元卓 中国科学院计算技术研究所网络数据科学与技术重点实验室 31 1884 10.0 31.0
5 杨晓刚 3 6 2.0 2.0
6 林海伦 中国科学院计算技术研究所网络数据科学与技术重点实验室 9 29 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (38)
共引文献  (2153)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (21)
二级引证文献  (7)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(5)
  • 参考文献(1)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(2)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Deep Web
查询接口
查询构造
网络爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导