基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
倒排索引的构建可以通过离线方式高效地完成,但是仅当整个数据集索引完毕后方可提供检索服务.在线索引可以在构建倒排索引的同时提供检索服务,新加入的文档即刻可供检索.提出了一种基于动态平衡树的在线索引更新策略,利用动态平衡树控制索引合并过程,使索引合并总是在大小相近的子索引之间进行,以减少索引合并代价,同时可以调节索引和检索之间的性能平衡.该方法提供了一个基于合并的在线索引更新框架,与已有方法相比具有更好的通用性、更高的性能和更好的规模可扩展性.在由4000万张网页构成的270 GB Web数据集上运行的实验表明,该方法在实际系统中是高效的,将索引更新的性能提高了92.28%,而检索性能仅下降4.79%,大幅度降低了在线索引构建的代价.
推荐文章
移动商务的自适应资源调用动态平衡策略
资源调用
动态平衡
中间组件
自适应
状态检测
一种基于文本分类的知识树自动构建方法
概率潜在语义分析
潜在语义空间
知识管理
知识树
基于Huffman树的密文索引构建方案
云存储
密文检索
Huffman树
密文索引
索引结构
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于动态平衡树的在线索引快速构建方法
来源期刊 计算机研究与发展 学科 工学
关键词 信息检索 在线索引 索引性能 检索性能 动态平衡树
年,卷(期) 2008,(10) 所属期刊栏目 信息检索
研究方向 页码范围 1769-1775
页数 7页 分类号 TP391.3
字数 6599字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王斌 中国科学院计算技术研究所 325 6645 42.0 69.0
2 程学旗 中国科学院计算技术研究所 160 4858 31.0 67.0
3 许洪波 中国科学院计算技术研究所 42 988 14.0 31.0
4 丁国栋 中国科学院计算技术研究所 6 240 5.0 6.0
5 郭瑞杰 中国科学院计算技术研究所 2 46 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (11)
同被引文献  (8)
二级引证文献  (26)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(3)
  • 引证文献(3)
  • 二级引证文献(0)
2011(3)
  • 引证文献(2)
  • 二级引证文献(1)
2012(5)
  • 引证文献(3)
  • 二级引证文献(2)
2013(3)
  • 引证文献(0)
  • 二级引证文献(3)
2014(5)
  • 引证文献(0)
  • 二级引证文献(5)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(9)
  • 引证文献(1)
  • 二级引证文献(8)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
信息检索
在线索引
索引性能
检索性能
动态平衡树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导