基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
频繁封闭子图挖掘被证明是NP-难问题.多年来,虽然已有许多算法被提出用于解决该问题,但在挖掘大规模图数据时,却面临着共同的计算效率问题.特别是,当图中节点的平均度数增加时,挖掘效率更是急剧下降.现在已有的面向图数据库的分布式频繁子图挖掘算法大多采用基于水平划分的分布式计算框架,且都聚焦在挖掘所有频繁子图的问题上.基于水平划分的分布式计算框架是对原始数据进行水平分片,完成分布式挖掘过程.在计算效率方面,该框架存在一些不足.同时,由于封闭子图模式需要对频繁子图进行封闭性检测,如果直接将现有的分布式频繁子图挖掘算法用于闭图模式挖掘可能导致各节点间频繁的通讯,或大量的子图同构检测.针对以上问题,本文提出一种面向大规模图数据的高效分布式挖掘算法Desu-FSM.与现有基于水平分解的分布式挖掘框架不同,该算法首次采用了基于垂直分解的分布式挖掘框架.其基本思想可概括为“快速抵近,双向搜索”.首先,通过r邻域核图合并,获得概要图集,跨越式地快速抵近较大尺寸子图的聚集区域.在此基础上,通过对概要图的缩减和扩展发现所有被概要图包含和包含概要图的闭图模式.相较于原始图数据,概要图的尺寸和平均节点度数更小.而且,基于概要图的双向搜索可在分布式环境下同时独立完成,不存在耦合.与基于水平划分的框架采用的“数据物理分治”方式不同,该框架采用“任务逻辑分治”.前者减少了各节点处理的图数据量,后者将原始图数据中的挖掘任务分解为一系列具有更小尺寸和平均节点度数的子图限定的子任务.因此,计算效率大幅提升.本文还提出一组高效的优化策略来减少概要图之间存在公共子图导致的大量重复计算.大量真实和人工数据集上的测试结果表明,在大规模图数据封闭子图挖掘中,基于垂直分解框架的挖掘效率相较于水平分解框架的效率可提升一个数量级.同时,具有更少的内存空间占用.
推荐文章
大规模数据集的分布式索引机制研究
大规模数据集
分布式系统
索引结构
B+树
聚簇索引
基于SPRINT分类算法的异构分布式数据挖掘研究
SPRINT
分类算法
分布式数据挖掘
异构
基于Web服务的分布式隐私保护数据挖掘框架研究
Web服务
分布式数据挖掘
隐私保护
分布式环境下散乱点云数据挖掘改进算法
分布式环境
云计算
散乱点云数据
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于解耦概要图的大规模图数据高效分布式挖掘算法
来源期刊 计算机学报 学科 工学
关键词 子图挖掘 解耦概要图 代表概要图 垂直分解 分布式计算
年,卷(期) 2020,(7) 所属期刊栏目 大数据与智能图象处理
研究方向 页码范围 1183-1198
页数 16页 分类号 TP18
字数 14473字 语种 中文
DOI 10.11897/SP.J.1016.2020.01183
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 印莹 东北大学计算机科学与工程学院 26 77 5.0 8.0
2 赵宇海 东北大学计算机科学与工程学院 30 40 4.0 5.0
3 王国仁 北京理工大学计算机学院 18 29 3.0 5.0
4 李玲 东北大学计算机科学与工程学院 4 2 1.0 1.0
5 董祥军 齐鲁工业大学信息学院 3 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
子图挖掘
解耦概要图
代表概要图
垂直分解
分布式计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导