基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型.该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同.该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数.对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高.
推荐文章
MapReduce编程模型在网络I/O密集型程序中的应用研究
Hadoop
MapReduce
分布式
网络I/O密集型
基于Hadoop的贝叶斯过滤MapReduce模型
云计算
MapReduce模型
Hadoop架构
贝叶斯算法
垃圾邮件
反垃圾邮件过滤
油罐容积表导入数据库的方法及编程
油罐计量
容积表
Visual Basic
Hadoop云平台MapReduce模型优化研究
Hadoop
MapReduce
OpenMP
分布式
并行
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的Hadoop大表导入编程模型
来源期刊 计算机应用 学科 工学
关键词 编程模型 Hadoop MapReduce Hadoop分布式文件系统 Sqoop
年,卷(期) 2013,(9) 所属期刊栏目 数据库技术
研究方向 页码范围 2486-2489,2561
页数 5页 分类号 TP311.1|TP311.5
字数 4674字 语种 中文
DOI 10.11772/j.issn.1001-9081.2013.09.2486
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 乐嘉锦 东华大学计算机科学与技术学院 131 1480 20.0 32.0
2 陈吉荣 东华大学计算机科学与技术学院 4 237 4.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (702)
参考文献  (2)
节点文献
引证文献  (21)
同被引文献  (69)
二级引证文献  (65)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(4)
  • 引证文献(3)
  • 二级引证文献(1)
2015(12)
  • 引证文献(6)
  • 二级引证文献(6)
2016(16)
  • 引证文献(4)
  • 二级引证文献(12)
2017(15)
  • 引证文献(6)
  • 二级引证文献(9)
2018(19)
  • 引证文献(2)
  • 二级引证文献(17)
2019(17)
  • 引证文献(0)
  • 二级引证文献(17)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
编程模型
Hadoop
MapReduce
Hadoop分布式文件系统
Sqoop
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导