基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集.由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面.该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面.由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询.实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
一种Deep Web爬虫爬行策略
Deep Web页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
关键词抽取策略研究
关键词抽取
词频
间距
词性
重要度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于关键词相关度的Deep Web爬虫爬行策略
来源期刊 计算机工程 学科 工学
关键词 Deep Web页面 爬行策略 关键词选择 相关度权重 覆盖率
年,卷(期) 2008,(15) 所属期刊栏目 人工智能及识别技术
研究方向 页码范围 220-222
页数 3页 分类号 TP18
字数 3646字 语种 中文
DOI 10.3969/j.issn.1000-3428.2008.15.079
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 丁岳伟 上海理工大学计算机工程学院 57 340 11.0 15.0
2 田野 上海理工大学计算机工程学院 1 9 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (9)
同被引文献  (16)
二级引证文献  (8)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(3)
  • 引证文献(3)
  • 二级引证文献(0)
2011(3)
  • 引证文献(1)
  • 二级引证文献(2)
2012(3)
  • 引证文献(2)
  • 二级引证文献(1)
2014(2)
  • 引证文献(0)
  • 二级引证文献(2)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Deep Web页面
爬行策略
关键词选择
相关度权重
覆盖率
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导