基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
水塘采样算法构建了一个样本集合,很好地解决了对未知的数据元素等概率采样的问题.然而当数据量较大时,单机的水塘采样算法时间复杂度较高、机器负载加重.面向大数据采样的需求,提出了分布式水塘采样算法,通过增加采样比例的方法实现了多机器并行采样,而且从理论上证明了分布式水塘采样的等概率性.为处理对数据元素贡献度不同的数据集,将该算法改进为加权重分布式水塘采样算法.基于水塘采样,提出了一种适用于大数据的分布式采样算法,只依据线性时间和样本大小的空间,实验验证了该算法的可行性和有效性.
推荐文章
一种动态分层分布式数据采集算法
动态分层分布式
移动agent
域拓扑次序
数据采集
一种分布式查询优化算法
分布式查询
半连接
PERF连接
网络
一种面向分布式数据流的闭频繁模式挖掘方法
智能交通系统
分布式数据流
闭频繁模式挖掘
MapReduce
传感器网络
大数据下的分布式精确模糊KNN分类算法
大数据
分布式Spark框架
类隶属度
模糊KNN算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向大数据的水塘采样分布式算法
来源期刊 控制工程 学科 工学
关键词 大数据 分布式计算 水塘采样技术 数理统计
年,卷(期) 2022,(2) 所属期刊栏目 基于大数据的故障诊断与预测理论及技术(专题)
研究方向 页码范围 356-361
页数 6页 分类号 TP301
字数 语种 中文
DOI 10.14107/j.cnki.kzgc.20210632
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
分布式计算
水塘采样技术
数理统计
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
控制工程
月刊
1671-7848
21-1476/TP
大16开
沈阳东北大学310信箱
8-216
1994
chi
出版文献量(篇)
5468
总下载数(次)
9
论文1v1指导