基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和欧氏距离,EMD距离(Earth Mover's Distance)因其可以更准确地量化直方图元组之间的相似性而受到广泛关注,被广泛应用于解决基于内容的图像检索、冗余图像识别以及视频对象跟踪等重要应用问题.然而EMD距离的计算复杂度却高达三次方,阻碍了EMD距离在数据流相似性连接问题中的应用.该文基于开源的Apache Storm数据流分布式并行处理框架,设计并实现了基于EMD距离的数据流分布式相似性连接技术,命名为EMD-DDSJ技术.该技术在数据分发时维护了连接计算节点上的数据局部性,并基于该数据局部性增强了连接算法对不相似直方图元组对间EMD计算的过滤性能,提高了各个连接计算节点的执行效率.同时基于连接计算节点的代价模型,提出了基于反馈的负载均衡策略,有效提升EMD-DDSJ技术的整体执行性能.在真实数据集上的实验结果展示了该文提出的EMD-DDSJ技术的高效性和可扩展性,比相关最好的技术在处理吞吐率上最高提升了1.4倍,在元组平均处理延迟上最多降低了44%,并且随着相似性阈值或滑动窗口大小的增大该提升比率还会进一步增大.
推荐文章
离群数据之间模式相似性的分布式挖掘
离群数据挖掘
分布式挖掘
离群数据的模式相似性
基于混合处理模型的乱序数据流分布式聚合查询处理技术
乱序数据流
混合处理模型
聚合查询
分布式查询处理
基于安全多方计算的分布式基因序列相似性计算
编辑距离
安全多方计算
信息安全
基因序列对比
隐私保护分析
分布式计算
基于分布式数据流的网络处理器数据收集分类平台
分布式数据流
网络处理器
数据收集
数据分类
分类平台
特征更新
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于EMD距离的数据流分布式相似性连接技术
来源期刊 计算机学报 学科 工学
关键词 EMD距离 相似性连接 数据流 Apache Storm框架 数据局部性
年,卷(期) 2019,(8) 所属期刊栏目 大数据
研究方向 页码范围 1779-1796
页数 18页 分类号 TP311
字数 16182字 语种 中文
DOI 10.11897/SP.J.1016.2019.01779
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 许嘉 广西大学计算机与电子信息学院 14 9 1.0 2.0
4 吕品 广西大学计算机与电子信息学院 13 8 1.0 2.0
13 宋超 广西大学计算机与电子信息学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (10)
节点文献
引证文献  (1)
同被引文献  (1)
二级引证文献  (0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
EMD距离
相似性连接
数据流
Apache Storm框架
数据局部性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导