基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战.尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销.针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载.大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集.
推荐文章
一种约束最大频繁模式快速挖掘算法
约束最大频繁模式
对称矩阵
CFP树
一种多关系频繁模式挖掘算法
多关系数据挖掘
频繁模式
元组ID传播
一种最大频繁模式的快速挖掘算法
最大频繁模式
FP-Tree
前缀树
数据挖掘
一种新的Web频繁访问模式挖掘算法
Web挖掘
访问模式
频繁访问模式
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于Spark的高效增量频繁模式挖掘算法
来源期刊 太原科技大学学报 学科 工学
关键词 频繁模式挖掘 增量数据挖掘 Spark 并行计算 负载均衡
年,卷(期) 2020,(6) 所属期刊栏目 大数据分析与并行计算
研究方向 页码范围 440-448
页数 9页 分类号 TP311
字数 语种 中文
DOI 10.3969/j.issn.1673-2057.2020.06.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 荀亚玲 21 115 4.0 10.0
2 孙娇娇 1 0 0.0 0.0
3 毕慧敏 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (4)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(4)
  • 参考文献(3)
  • 二级参考文献(1)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
频繁模式挖掘
增量数据挖掘
Spark
并行计算
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
太原科技大学学报
双月刊
1673-2057
14-1330/N
大16开
山西省太原市万柏林区窊流路66号
22-34
1980
chi
出版文献量(篇)
2179
总下载数(次)
6
总被引数(次)
8489
论文1v1指导