基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据不平衡现象在现实生活中普遍存在.在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果.少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化.鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE).首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向.其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险.最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价.实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%.HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果.
推荐文章
基于AdaBoost的类不平衡学习算法
机器学习
类不平衡学习
集成学习
SMOTE
数据清理技术
面向不平衡分类的IDP-SMOTE重采样算法
不平衡数据
分类
重采样
密度峰值聚类
SMOTE算法在不平衡数据中的应用
SMOTE
不平衡数据
临床数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于海林格距离和SMOTE的多类不平衡学习算法
来源期刊 计算机科学 学科 工学
关键词 SMOTE 上采样 海林格距离 多类不平衡学习 分类
年,卷(期) 2020,(1) 所属期刊栏目 数据库&大数据&数据科学
研究方向 页码范围 102-109
页数 8页 分类号 TP311
字数 5930字 语种 中文
DOI 10.11896/jsjkx.190600060
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 董明刚 桂林理工大学信息科学与工程学院 31 120 5.0 10.0
3 敬超 桂林理工大学信息科学与工程学院 22 15 3.0 3.0
9 姜振龙 桂林理工大学信息科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (160)
共引文献  (67)
参考文献  (19)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(5)
  • 参考文献(1)
  • 二级参考文献(4)
2002(7)
  • 参考文献(1)
  • 二级参考文献(6)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(8)
  • 参考文献(1)
  • 二级参考文献(7)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(7)
  • 参考文献(0)
  • 二级参考文献(7)
2012(9)
  • 参考文献(1)
  • 二级参考文献(8)
2013(17)
  • 参考文献(1)
  • 二级参考文献(16)
2014(12)
  • 参考文献(3)
  • 二级参考文献(9)
2015(11)
  • 参考文献(0)
  • 二级参考文献(11)
2016(23)
  • 参考文献(5)
  • 二级参考文献(18)
2017(25)
  • 参考文献(2)
  • 二级参考文献(23)
2018(17)
  • 参考文献(2)
  • 二级参考文献(15)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
SMOTE
上采样
海林格距离
多类不平衡学习
分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导