基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大数据量的实时数据分析系统,需要快速的处理和响应.为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析.实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算.
推荐文章
基于Spark Streaming的海量日志实时处理系统的设计
大数据
SparkStreaming
日志分析
分布式计算
基于FPGA的高速实时数据采集系统设计
数据采集系统
FPGA
DSP
FIFO
Spark Streaming写入HBase的实现和优化
Spark Streaming
HBase
大数据
内存计算
流处理
基于USBHID类的实时数据采集系统设计
USB
HID
C8051F320
数据采集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark Streaming 实时数据采集分析系统设计
来源期刊 网络新媒体技术 学科
关键词 基数计算 实时数据分析 Spark流式处理 不重复计数 HyperLogLog++
年,卷(期) 2017,(5) 所属期刊栏目 实用技术
研究方向 页码范围 48-53
页数 6页 分类号
字数 3361字 语种 中文
DOI 10.3969/j.issn.2095-347X.2017.05.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘春梅 中国科学院声学研究所国家网络新媒体工程技术研究中心 17 179 8.0 13.0
2 刘学 中国科学院声学研究所国家网络新媒体工程技术研究中心 60 207 8.0 12.0
3 党寿江 中国科学院声学研究所国家网络新媒体工程技术研究中心 4 15 2.0 3.0
7 王星凯 中国科学院声学研究所国家网络新媒体工程技术研究中心 2 13 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (38)
共引文献  (229)
参考文献  (6)
节点文献
引证文献  (8)
同被引文献  (37)
二级引证文献  (4)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(10)
  • 参考文献(0)
  • 二级参考文献(10)
2013(18)
  • 参考文献(0)
  • 二级参考文献(18)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(7)
  • 引证文献(3)
  • 二级引证文献(4)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
基数计算
实时数据分析
Spark流式处理
不重复计数
HyperLogLog++
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络新媒体技术
双月刊
2095-347X
10-1055/TP
大16开
北京海淀区北四环西路21号
2-304
1980
chi
出版文献量(篇)
3082
总下载数(次)
5
论文1v1指导