作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
一种Deep Web数据源质量评估模型
DeepWeb
Web数据库
Web服务器
质量
基于本体的Deep Web数据源聚焦搜索系统研究
本体
Deep Web数据源
聚焦搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种Deep Web聚焦爬虫
来源期刊 电脑与电信 学科 工学
关键词 聚焦爬虫 Deep Web PageRank 网站结构图剪枝 页面判断
年,卷(期) 2011,(3) 所属期刊栏目 基金项目
研究方向 页码范围 30-31,37
页数 分类号 TP3
字数 1584字 语种 中文
DOI 10.3969/j.issn.1008-6609.2011.03.020
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄昊晶 5 25 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚焦爬虫
Deep Web
PageRank
网站结构图剪枝
页面判断
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑与电信
月刊
1008-6609
44-1606/TN
大16开
广州市连新路171号国际科技中心B108室
1995
chi
出版文献量(篇)
8962
总下载数(次)
13
总被引数(次)
9565
论文1v1指导