基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法.利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别.与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较.试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法.
推荐文章
基于K-近邻树的离群检测算法
离群检测
离群簇
最小生成树
不相似性
K-近邻
一种基于角相似性的k-最近邻搜索算法
k-最近邻搜索
数据分割
角相似性
壳-超圆锥体
基于K-近邻算法的业务量预测
K-近邻算法
业务量时间序列
预测
基于改进的K-最近邻算法的病毒检测方法
K-最近邻算法
计算机病毒
病毒检测
Internet
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于HBase和SimHash的大数据K-近邻算法
来源期刊 山东大学学报(工学版) 学科 工学
关键词 大数据 K-近邻 分类算法 HBase SimHash
年,卷(期) 2018,(3) 所属期刊栏目 机器学习与数据挖掘
研究方向 页码范围 54-59
页数 6页 分类号 TP181
字数 语种 中文
DOI 10.6040/j.issn.1672-3961.0.2017.414
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 翟俊海 河北大学河北省机器学习与计算智能重点实验室 45 256 9.0 12.0
5 王婷婷 河北大学河北省机器学习与计算智能重点实验室 19 31 4.0 4.0
9 郝璞 河北大学河北省机器学习与计算智能重点实验室 5 33 2.0 5.0
13 张明阳 河北大学河北省机器学习与计算智能重点实验室 6 19 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (55)
共引文献  (51)
参考文献  (21)
节点文献
引证文献  (1)
同被引文献  (11)
二级引证文献  (0)
1961(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(3)
  • 参考文献(1)
  • 二级参考文献(2)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(8)
  • 参考文献(1)
  • 二级参考文献(7)
2013(8)
  • 参考文献(2)
  • 二级参考文献(6)
2014(5)
  • 参考文献(1)
  • 二级参考文献(4)
2015(7)
  • 参考文献(3)
  • 二级参考文献(4)
2016(10)
  • 参考文献(9)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
K-近邻
分类算法
HBase
SimHash
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
山东大学学报(工学版)
双月刊
1672-3961
37-1391/T
大16开
济南市经十路17923号
24-221
1956
chi
出版文献量(篇)
3095
总下载数(次)
14
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导