原文服务方: 科技与创新       
摘要:
高质量、结构化的数据对很多应用来说其价值是无穷的.然而这些数据往往都隐藏在查询表单背后的深度web数据库中.深度web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据.最近的研究主要针时以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源.一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题.本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果.
推荐文章
师范生顶岗实习支教“一页纸”管理的探索
师范生
顶岗实习支教
“一页纸”项目管理
组织管理
相关主题的最具权威的Web页搜索
信息检索
搜索引擎
权威值
World Wide Web
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 深度搜索中下一页链接获取策略的研究
来源期刊 科技与创新 学科
关键词 下一页 深度搜索
年,卷(期) 2007,(33) 所属期刊栏目 软件时空
研究方向 页码范围 183-184,176
页数 3页 分类号 TP393
字数 语种 中文
DOI 10.3969/j.issn.1008-0570.2007.33.072
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈鹏 北京北京航空航天大学计算机学院 3 29 3.0 3.0
2 李涛 北京北京航空航天大学计算机学院 2 24 2.0 2.0
3 李哲 北京北京航空航天大学计算机学院 2 24 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (4)
参考文献  (2)
节点文献
引证文献  (5)
同被引文献  (4)
二级引证文献  (6)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(0)
  • 二级引证文献(1)
2013(5)
  • 引证文献(2)
  • 二级引证文献(3)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
下一页
深度搜索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导