基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来,互联网各类型的数据不断增长,数据的应用场景也越来越广泛.如何将各种类型数据自动整合后接入不同的场景平台成为了各界关心的问题.业界通常采用流水线工具进行任务调度,然而大多数流水线工具都无法将任务分割为多个子任务并行执行.因此本文提出一种基于层次分割和聚合的大数据流水线任务处理方法:首先在分割模块中将流水线中的任务分割为多个子任务,然后在合并程序中等待各子任务全部完成,合并结果,最终获得整个任务的完成事件.实现了利用流处理框架处理有限数据集,扩展了流处理系统的使用场景,提升了流水线工具的代码重用性.实验表明,本文方法极大减少了数据库I/O次数,使得本文方法处理DBLP[11数据的速率是Apache NiFi[2]传统处理方法的7倍多.
推荐文章
网格中数据并行流水线的任务指派优化
网格
流水线
数据并行流水线
吞吐率
延迟
任务指派
一种用于浮点DSP的流水线结构DMA设计
浮点DSP
流水线结构
DMA
一种基于流水线的SpaceWire路由器研究
SpaceWire路由器
流水线
FPGA
无阻塞交换网络
传输速度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于层次分割和聚合的大数据流水线任务处理方法
来源期刊 科研信息化技术与应用 学科
关键词 大数据 流水线 批处理 流处理
年,卷(期) 2019,(1) 所属期刊栏目 技术
研究方向 页码范围 3-11
页数 9页 分类号
字数 4002字 语种 中文
DOI 10.11871/j.issn.1674-9480.2019.01.001
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (17)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
流水线
批处理
流处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科研信息化技术与应用
双月刊
1674-9480
11-5943/TP
北京市海淀区中关村南四街4号
chi
出版文献量(篇)
501
总下载数(次)
5
总被引数(次)
1249
论文1v1指导