原文服务方: 计算机应用研究       
摘要:
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性, 为了能够更方便、快捷地在云计算平台上开展数据挖掘工作, 基于分布式数据仓库HBase, 结合GAC-RDB分类算法的实现机理, 制定适合分布式平台的运行策略, 使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示, 随着集群中节点的不断增加, 算法的运行时间稳步下降。结果表明, 在保证算法准确率的前提下, 分布式数据仓库能够有效提高GAC-RDB分类算法的扩展性和运行效率, 相对于MapReduce框架, HiveQL语言降低了对数据挖掘从业人员的技术要求, 更大程度地减少了算法的开发时间, 为挖掘海量数据提供了新的解决方案。
推荐文章
基于分布式系统概念的分布式数据仓库
分布式数据仓库
节点仓库
分布式系统
数据集市
节点主题处理原则
分布式商业数据仓库技术的研究
数据仓库
分布式
决策支持
基于Web的分布式数据仓库体系结构的研究
Web
分布式数据仓库
体系结构
XML
智能Agent
基于分布式数据仓库的电信信息共享平台的研究
电信
共享平台
分布式数据仓库
多维分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分布式数据仓库的分类分析研究
来源期刊 计算机应用研究 学科
关键词 数据挖掘 分布式数据仓库 分类分析 GAC-RDB Hadoop HBase Hive
年,卷(期) 2013,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2936-2939,2943
页数 5页 分类号 TP316.4
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2013.10.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张阳 西北农林科技大学信息工程学院 47 232 6.0 13.0
2 李梅 西北农林科技大学信息工程学院 25 93 6.0 9.0
3 李伟卫 西北农林科技大学信息工程学院 4 121 3.0 4.0
4 申爱丽 西北农林科技大学信息工程学院 1 25 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (43)
参考文献  (8)
节点文献
引证文献  (25)
同被引文献  (60)
二级引证文献  (58)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(6)
  • 参考文献(2)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(5)
  • 引证文献(4)
  • 二级引证文献(1)
2015(8)
  • 引证文献(6)
  • 二级引证文献(2)
2016(8)
  • 引证文献(6)
  • 二级引证文献(2)
2017(11)
  • 引证文献(2)
  • 二级引证文献(9)
2018(18)
  • 引证文献(7)
  • 二级引证文献(11)
2019(25)
  • 引证文献(0)
  • 二级引证文献(25)
2020(8)
  • 引证文献(0)
  • 二级引证文献(8)
研究主题发展历程
节点文献
数据挖掘
分布式数据仓库
分类分析
GAC-RDB
Hadoop
HBase
Hive
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导