基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID).该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果.围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F 1值这4个性能指标上均优于其他3种方法.通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考.
推荐文章
基于支持向量机的不均衡文本分类方法
混合算法
支持向量机
不均衡数据集
插值样本
文本分类
迭代进化
基于分解策略处理多分类不均衡问题的方法
多分类问题
不均衡数据集
分解策略
人工样本
集成学习
动态加权
一种改进的KNN Web文本分类方法
Web文本分类
K最近邻
快速分类
不均衡数据集文本分类中少数类样本生成方法研究
不均衡数据集
分类
聚类
遗传算法
样本生成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于SMOTE的不均衡样本KNN分类方法
来源期刊 广西科学 学科 工学
关键词 不均衡样本 KNN SMOTE KSID 逻辑回归 分类
年,卷(期) 2020,(3) 所属期刊栏目 大数据与高性能计算
研究方向 页码范围 276-283
页数 8页 分类号 TP301
字数 4620字 语种 中文
DOI 10.13656/j.cnki.gxkx.20200707.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱晓姝 玉林师范学院计算机科学与工程学院 56 257 7.0 15.0
2 林泳昌 玉林师范学院计算机科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (98)
共引文献  (66)
参考文献  (13)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(2)
  • 参考文献(0)
  • 二级参考文献(2)
1984(1)
  • 参考文献(1)
  • 二级参考文献(0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(12)
  • 参考文献(0)
  • 二级参考文献(12)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(10)
  • 参考文献(1)
  • 二级参考文献(9)
2013(8)
  • 参考文献(1)
  • 二级参考文献(7)
2014(8)
  • 参考文献(1)
  • 二级参考文献(7)
2015(6)
  • 参考文献(2)
  • 二级参考文献(4)
2016(8)
  • 参考文献(0)
  • 二级参考文献(8)
2017(9)
  • 参考文献(0)
  • 二级参考文献(9)
2018(3)
  • 参考文献(0)
  • 二级参考文献(3)
2019(7)
  • 参考文献(6)
  • 二级参考文献(1)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
不均衡样本
KNN
SMOTE
KSID
逻辑回归
分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广西科学
双月刊
1005-9164
45-1206/G3
大16开
广西南宁市大岭路98号
1994
chi
出版文献量(篇)
2279
总下载数(次)
4
论文1v1指导