基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式数据挖掘计算是大数据研究中非常重要的技术,现有的对频繁模式的分布式挖掘方法在处理大量数据集时仍然存在许多局限,如并行Apriori算法在多次扫描数据库过程中对I/O产生很大负担,并且有大量候选集产生.本文使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘两个阶段.主要思想是在map阶段构建FP-tree之前,根据步长值及项目元素编码对FP-tree节点合并,并在shuffle阶段依据平衡算法划分给不同的reducer.平衡算法用来均衡工作负载.利用该算法来降低数据分配的随机性,避免数据挖掘阶段由于数据划分不均衡导致部分reducer开销过大的缺点.实验结果表明:与现有方法相比,在较大数据集情况下改进后的算法具有更好地运算效率和可伸缩性.
推荐文章
基于MapReduce和矩阵的频繁项集挖掘算法
MapReduce
Hadoop平台
矩阵
频繁项集
关联规则
基于 MapReduce 的序列模式挖掘算法
数据挖掘
GSP 算法
序列模式
MapReduce
子序列数据库
基于Hadoop的大数据频繁模式挖掘算法
Hadoop
频繁模式
大数据
一种基于MapReduce的频繁模式挖掘算法
频繁模式
挖掘算法
AlgorithmAdd算法
MapReduce模型
Hadoop集群
MRAlgorithmAdd算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的频繁模式挖掘算法的优化
来源期刊 天津理工大学学报 学科 工学
关键词 MapReduce 频繁模式挖掘 FP-growth算法 平衡算法
年,卷(期) 2018,(1) 所属期刊栏目
研究方向 页码范围 6-11
页数 6页 分类号 TP301.6
字数 4052字 语种 中文
DOI 10.3969/j.issn.1673-095X.2018.01.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王怀彬 天津理工大学计算机科学与工程学院 41 139 7.0 10.0
2 张超 天津理工大学计算机科学与工程学院 15 35 3.0 5.0
3 王波 天津理工大学计算机科学与工程学院 3 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (21)
参考文献  (6)
节点文献
引证文献  (3)
同被引文献  (22)
二级引证文献  (0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
MapReduce
频繁模式挖掘
FP-growth算法
平衡算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
天津理工大学学报
双月刊
1673-095X
12-1374/N
大16开
天津市西青区宾水西道391号
1984
chi
出版文献量(篇)
2405
总下载数(次)
4
总被引数(次)
13943
论文1v1指导