基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。
推荐文章
大数据环境下Hadoop分布式系统的研究与设计
大数据
高并发
高存储
高扩展性和可用性
Hadoop分布式存储架构的性能分析
Hadoop
云计算
分布式存储
HDFS
PEPA
性能评估
一种基于Hadoop架构的并行挖掘算法研究
挖掘算法
Hadoop架构
SPRINT
并行化
决策树
MapReduce
云计算环境下分布式大数据多信道并行控制系统
云计算环境
分布式大数据
多信道
并行控制
多路处理
同步存储
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Hadoop分布式架构下大数据集的并行挖掘
来源期刊 计算机技术与发展 学科 工学
关键词 数据挖掘 大数据集 并行算法 Hadoop
年,卷(期) 2014,(1) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 22-25,30
页数 5页 分类号 TP311.133.2|TP338.6
字数 4453字 语种 中文
DOI 10.3969/j.issn.1673-629X.2014.01
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钟诚 广西大学计算机与电子信息学院 195 1023 14.0 21.0
2 唐印浒 广西大学计算机与电子信息学院 4 43 2.0 4.0
3 陈志朕 广西大学计算机与电子信息学院 2 35 2.0 2.0
4 吕婉琪 广西大学计算机与电子信息学院 3 34 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (74)
参考文献  (6)
节点文献
引证文献  (32)
同被引文献  (83)
二级引证文献  (108)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(8)
  • 参考文献(1)
  • 二级参考文献(7)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(14)
  • 引证文献(4)
  • 二级引证文献(10)
2016(24)
  • 引证文献(8)
  • 二级引证文献(16)
2017(21)
  • 引证文献(7)
  • 二级引证文献(14)
2018(40)
  • 引证文献(8)
  • 二级引证文献(32)
2019(30)
  • 引证文献(3)
  • 二级引证文献(27)
2020(9)
  • 引证文献(0)
  • 二级引证文献(9)
研究主题发展历程
节点文献
数据挖掘
大数据集
并行算法
Hadoop
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导