基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
k近邻(k nearest neighbor,kNN)分类作为数据挖掘中最典型的算法之一,以较高的泛化性能以及充足的理论基础被广泛应用.然而kNN在测试时需要计算待识别实例与所有训练实例之间的距离,以至于在面对大规模数据时需要大量的时间.为此,提出一种基于分层抽样的kN N加速算法(KNN based on stratified sampling,SS-kNN).首先将训练实例所在的空间划分为若干个实例个数相等的区域,然后从每个区域内抽取实例,最后判定待识别实例落入划分区域中的哪一个,并从此区域以及相邻区域抽取的实例中寻找其k个近邻.与原始kN N算法以及基于随机抽样的kN N算法相比,SS-kN N算法可以获得与其相近分类精度,但将其运行速度分别提高大约399倍和16倍.
推荐文章
基于分层抽样的模拟禁忌混合智能优化算法TSII
禁忌搜索算法
随机模拟
分层抽样
混合优化算法
基于聚类方法的审计分层抽样算法研究
数据挖掘
聚类
审计抽样
分层抽样
K-means算法
基于分层抽样的高速网络吞吐率测量
报文抽样
分层抽样
随机抽样
吞吐率
融合分层抽样和动态抽样的多状态网络可靠度 M-C 估计算法
网络可靠度
多状态网络
Monte-Carlo 估计
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分层抽样的k近邻分类加速算法
来源期刊 数据采集与处理 学科 工学
关键词 分层抽样 数据划分 近邻 分类精度 运行时间
年,卷(期) 2017,(6) 所属期刊栏目
研究方向 页码范围 1153-1162
页数 10页 分类号 TP181
字数 6590字 语种 中文
DOI 10.16337/j.1004-9037.2017.06.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 梁吉业 山西大学计算机与信息技术学院 114 1486 21.0 34.0
5 宋云胜 山西大学计算机与信息技术学院 7 16 1.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (66)
共引文献  (769)
参考文献  (21)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(1)
  • 二级参考文献(0)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(8)
  • 参考文献(1)
  • 二级参考文献(7)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(8)
  • 参考文献(1)
  • 二级参考文献(7)
2010(7)
  • 参考文献(3)
  • 二级参考文献(4)
2011(10)
  • 参考文献(3)
  • 二级参考文献(7)
2012(12)
  • 参考文献(4)
  • 二级参考文献(8)
2013(10)
  • 参考文献(2)
  • 二级参考文献(8)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分层抽样
数据划分
近邻
分类精度
运行时间
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据采集与处理
双月刊
1004-9037
32-1367/TN
大16开
南京市御道街29号1016信箱
28-235
1986
chi
出版文献量(篇)
3235
总下载数(次)
7
总被引数(次)
25271
论文1v1指导