基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统 HDFS 。然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性。本文结合统计工作,提出了一种小文件存储的优化策略,在 HDFS之上增加小文件预处理模块将文件进行分类,合并成M apfile ,并建立全局索引,另外该策略引入了索引预取机制和缓存机制。实验证明,该方法能有效提高大批量小文件的存取性能。
推荐文章
基于Hadoop的小文件存储优化方案
Hadoop
索引机制
关联关系
小文件存储
一种面向HDFS中海量小文件的存取优化方法
海量小文件
文件相关性
合并
预取
海量样本数据集中小文件的存取优化研究
Hadoop分布式文件系统(HDFS)
小文件
样本数据集
缓存预取
分布式数据库
HBase
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop的海量统计小文件存取优化方案
来源期刊 聊城大学学报(自然科学版) 学科 工学
关键词 HDFS 小文件 预处理模块 索引预取 缓存机制
年,卷(期) 2016,(1) 所属期刊栏目 应用科学研究
研究方向 页码范围 102-106
页数 5页 分类号 TP311.5
字数 2901字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姜华 聊城大学计算机学院 30 149 8.0 10.0
2 张怀锋 山东省统计局数据管理中心 5 7 2.0 2.0
3 付红阁 聊城大学计算机学院 2 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (74)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (9)
二级引证文献  (0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(7)
  • 参考文献(2)
  • 二级参考文献(5)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
HDFS
小文件
预处理模块
索引预取
缓存机制
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
聊城大学学报(自然科学版)
双月刊
1672-6634
37-1418/N
大16开
山东省聊城市文化路34号
1988
chi
出版文献量(篇)
2314
总下载数(次)
9
总被引数(次)
6322
论文1v1指导