基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.
推荐文章
云计算下非结构化大数据存储系统设计
云计算
非结构化
大数据
均衡控制
运行流程
存储系统设计
支持事务的非结构化数据聚合存储系统GSL
非结构化数据
聚合
事务
存储
基于对象-关系-属性数据模型的空间半结构化数据存储管理研究
对象-关系-属性数据模型
空间半结构化数据
嵌套关系
关系型数据库
面向结构化数据集的敏感属性识别与分级算法
隐私保护
敏感属性识别与分级
最大熵
关联规则
互信息
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向日志结构化数据存储的高效数据加载
来源期刊 华东师范大学学报(自然科学版) 学科 工学
关键词 数据加载 负载均衡 容错 日志结构
年,卷(期) 2019,(5) 所属期刊栏目 新时期数据管理技术
研究方向 页码范围 143-158
页数 16页 分类号 TP392
字数 11125字 语种 中文
DOI 10.3969/j.issn.1000-5641.2019.05.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钱卫宁 华东师范大学数据科学与工程学院 35 704 10.0 26.0
2 丁国浩 华东师范大学数据科学与工程学院 1 1 1.0 1.0
3 徐辰 华东师范大学数据科学与工程学院 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (12)
二级引证文献  (0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据加载
负载均衡
容错
日志结构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华东师范大学学报(自然科学版)
双月刊
1000-5641
31-1298/N
16开
上海市中山北路3663号
4-359
1955
chi
出版文献量(篇)
2430
总下载数(次)
5
总被引数(次)
17499
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导