原文服务方: 现代电子技术       
摘要:
随着数据量的增大,FP?Growth算法压缩数据思想的优势就体现出来,基于MapReduce框架的PFP?Growth算法实现该算法在Hadoop平台上的并行化,但是MapReduce框架每次对作业进行操作都要将中间结果输出存储到磁盘,影响算法的效率。为了提高关联挖掘的效率,基于Spark平台,运用均衡分组的思想对该算法进行改进,同时在对具有很长前缀情况进行共享前缀的拆分,通过4个步骤使IPFP?Growth算法在Spark上实现。实验结果表明在Spark平台上优化过后的算法在性能上要优于PFP?Growth算法。
推荐文章
基于Hadoop的FP-Growth关联规则并行改进算法
FP-Growth算法
Hadoop
数据分割
负载均衡
基于 Hadoop的并行 FP-Growth算法的研究与实现
关联规则
数据挖掘
负载均衡
FP-Grow th
并行计算
FDTD并行算法实现及其数据通信优化
时域有限差分
区域分割
并行计算
数据传递
基于PFP-Growth算法的海量频繁项集挖掘
频繁项集
海量数据
PFP-Growth
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的PFP-Growth并行算法优化实现
来源期刊 现代电子技术 学科
关键词 并行化 Spark 关联挖掘 PFP-Growth
年,卷(期) 2016,(8) 所属期刊栏目 计算机应用技术
研究方向 页码范围 9-13
页数 5页 分类号 TN911-34
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2016.08.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张功萱 南京理工大学计算机科学与技术学院 57 386 9.0 17.0
2 方向 南京理工大学计算机科学与技术学院 1 12 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (24)
参考文献  (5)
节点文献
引证文献  (12)
同被引文献  (36)
二级引证文献  (37)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(4)
  • 参考文献(2)
  • 二级参考文献(2)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(8)
  • 引证文献(5)
  • 二级引证文献(3)
2019(34)
  • 引证文献(5)
  • 二级引证文献(29)
2020(6)
  • 引证文献(1)
  • 二级引证文献(5)
研究主题发展历程
节点文献
并行化
Spark
关联挖掘
PFP-Growth
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导