原文服务方: 计算机应用研究       
摘要:
相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。
推荐文章
Part-Join:基于划分的字符串相似性连接
相似性连接
划分
频率
编辑距离
奇数分康托集与其平移并集的自相似性
自相似集
迭代函数系(IFS)
平移
时序数据相似性挖掘算法研究
相似性挖掘
时间序列
数据挖掘
知识发现
基于数据集相似性的分类算法推荐
数据挖掘
分类算法
数据集特征
性能评价
算法推荐
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapRed uce的增量式数据集的相似性连接
来源期刊 计算机应用研究 学科
关键词 海量增量式数据集 划分 相似性连接 MapReduce
年,卷(期) 2014,(11) 所属期刊栏目
研究方向 页码范围 3369-3374,3384
页数 7页 分类号 TP311.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2014.11.039
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈华辉 宁波大学信息科学与工程学院 63 319 9.0 15.0
2 徐媛媛 宁波大学信息科学与工程学院 1 7 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (17)
参考文献  (5)
节点文献
引证文献  (7)
同被引文献  (8)
二级引证文献  (9)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
海量增量式数据集
划分
相似性连接
MapReduce
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导