分布式数据挖掘综述

刘滨

文献导航

搜索文章

搜索思路

分布式数据挖掘综述

作者：

刘滨

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

分布式数据挖掘

数据挖掘

本体

语义距离

摘要：

随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境.为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益.然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(DDM)技术应运而生.介绍了DDM的定义与框架、适用场景和研究挑战.根据文中给出的DDM高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关.DDM的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用DDM.当前,DDM研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等.当前的DDM系统被分为4类:1)基于Multi-Agent的系统,利用Agent的自治性实现局部挖掘以保护数据私有性;利用Agent的主动性减少用户参与以提高挖掘自动化水平;利用Agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于CDM(collective data mining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量.进而,对当前DDM研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的“分割式”挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题.针对结果质量问题,探讨本体与数据挖掘的结合.作为语义网的基础,本体能为对象语义距离度量提供有效支持.当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述DM过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法.通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将DDM理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义距离度量的复合量化体系,通过构建和求解新型DDM模型来实现目标.

内容分析

关键词云

关键词热度

相关文献总数

(/次)

(/年)

文献信息

篇名	分布式数据挖掘综述
来源期刊	河北科技大学学报	学科	工学
关键词	分布式数据挖掘数据挖掘本体语义距离
年，卷（期）	2014,（1）	所属期刊栏目	数据分析与计算专栏
研究方向		页码范围	79-90
页数	12页	分类号	TP311.13
字数	6562字	语种	中文
DOI	10.7535/hbkd.2013yx05012

五维指标

作者信息

序号	姓名	单位	发文数	被引次数	H指数	G指数
1	刘滨	河北科技大学经济管理学院	25	365	8.0	19.0

传播情况

被引次数趋势

(/次)

(/年)

引文网络

二级参考文献 (15)

共引文献 (38)

参考文献 (35)

节点文献

引证文献 (46)

同被引文献 (43)

二级引证文献 (35)

1995(1)

参考文献（0）

二级参考文献（1）

1998(1)

参考文献（0）

二级参考文献（1）

1999(1)

参考文献（0）

二级参考文献（1）

2001(2)

参考文献（1）

二级参考文献（1）

2003(3)

参考文献（0）

二级参考文献（3）

2004(1)

参考文献（1）

二级参考文献（0）

2005(3)

参考文献（2）

二级参考文献（1）

2006(2)

参考文献（2）

二级参考文献（0）

2007(5)

参考文献（1）

二级参考文献（4）

2008(2)

参考文献（1）

二级参考文献（1）

2009(8)

参考文献（7）

二级参考文献（1）

2010(13)

参考文献（12）

二级参考文献（1）

2011(8)

参考文献（8）

二级参考文献（0）

2014(5)

参考文献(0)

二级参考文献(0)

引证文献(5)

二级引证文献(0)

2014(5)

引证文献（5）

二级引证文献（0）

2015(10)

引证文献（9）

二级引证文献（1）

2016(14)

引证文献（9）

二级引证文献（5）

2017(26)

引证文献（13）

二级引证文献（13）

2018(9)

引证文献（4）

二级引证文献（5）

2019(14)

引证文献（4）

二级引证文献（10）

2020(3)

引证文献（2）

二级引证文献（1）

研究主题发展历程

节点文献

分布式数据挖掘

数据挖掘

本体

语义距离

研究起点

研究来源

研究分支

研究去脉

引文网络交叉学科

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

力学化学地球物理学地质学基础科学综合大学学报天文学天文学、地球科学数学气象学海洋学物理学生物学生物科学自然地理学和测绘学自然科学总论自然科学理论与方法资源科学非线性科学与系统科学

河北科技大学学报2014年第6期河北科技大学学报2014年第5期河北科技大学学报2014年第4期河北科技大学学报2014年第3期河北科技大学学报2014年第2期河北科技大学学报2014年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com