作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法———内存磁盘索引( RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引( FS-Directory)、内存索引( RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。
推荐文章
关于Lucene索引工具的性能优化研究
搜索引擎
Lucene
索引
Hits
Lucene索引段合并优化策略
Lucene
索引段合并
负载系数
索引段相似度
最优合并索引段
云计算环境下大数据分布规律的结构优化设计
云计算
大数据
分布规律
相似矩阵
加密环境下大数据特征集并行存储方法研究
大数据特征集
并行存储
MMSE算法
Hash索引
结果分析
映射处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大数据环境下Lucene性能优化方法研究
来源期刊 南京理工大学学报(自然科学版) 学科 工学
关键词 大数据 Lucene 内存计算 批量更新 倒排索引 倒排表 缓存 内存索引 磁盘索引 多分块倒排结构
年,卷(期) 2015,(3) 所属期刊栏目
研究方向 页码范围 260-265
页数 6页 分类号 TP392
字数 2582字 语种 中文
DOI 10.14177/j.cnki.32-1397n.2015.39.03.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 蔡冰 国家计算机网络应急技术处理协调中心江苏分中心 9 16 3.0 3.0
2 马旸 国家计算机网络应急技术处理协调中心江苏分中心 4 14 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (17)
参考文献  (5)
节点文献
引证文献  (6)
同被引文献  (12)
二级引证文献  (0)
1996(3)
  • 参考文献(2)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
Lucene
内存计算
批量更新
倒排索引
倒排表
缓存
内存索引
磁盘索引
多分块倒排结构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南京理工大学学报(自然科学版)
双月刊
1005-9830
32-1397/N
南京孝陵卫200号
chi
出版文献量(篇)
3510
总下载数(次)
7
总被引数(次)
33414
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导