基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式信息检索是面向海量WEB信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIBCA)来对网页数据进行划分,并采用BloomFilter优化LIBCA算法的计算效率,在检索过程中采用CORI集合选择算法和OKAPI BM25检索算法.基于最近3年的TREC WEB实验数据集,对比集中式检索、基于随机划分的分布式检索,实验结果表明,本文方法在P@10的指标上可达到甚至超过集中式检索的效果.效率方面的实验表明利用BloomFilter的LIBCA算法具有较高的划分效率,适合海量数据的处理.
推荐文章
分布式计算在Web信息检索中的应用
Web信息检索
个性化信息模型
用户模型
兴趣偏好
兴趣类别管理
分布式技术
基于LDAP的分布式异构信息检索模型研究
异构信息
元数据
LDAP
目录服务
分布式信息检索
基于Web的分布式计算
分布式对象技术
CORBA
面向对象数据库
Java
基于索引量大小的分布式检索
分布式检索
索引量
节点选择
结构化网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于链接划分的分布式WEB信息检索
来源期刊 模式识别与人工智能 学科 工学
关键词 网页链接 聚类 分布式信息检索
年,卷(期) 2007,(4) 所属期刊栏目 研究与应用
研究方向 页码范围 519-524
页数 6页 分类号 TP391
字数 5223字 语种 中文
DOI 10.3969/j.issn.1003-6059.2007.04.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王斌 中国科学院计算技术研究所软件室 325 6645 42.0 69.0
2 张刚 中国科学院计算技术研究所软件室 42 886 15.0 29.0
6 吴丽辉 中国科学院计算技术研究所软件室 7 84 3.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (2)
同被引文献  (1)
二级引证文献  (1)
1963(1)
  • 参考文献(1)
  • 二级参考文献(0)
1970(1)
  • 参考文献(1)
  • 二级参考文献(0)
1973(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网页链接
聚类
分布式信息检索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
相关基金
国家重点基础研究发展计划(973计划)
英文译名:National Basic Research Program of China
官方网址:http://www.973.gov.cn/
项目类型:
学科类型:农业
论文1v1指导