基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高.针对这一问题,提出一种面向二分类不平衡数据的XGBoost(eXtreme Gradient Boosting)改进方法.其主要思想是分别从数据、特征以及算法3个层面针对不平衡数据的特点进行改进.首先在数据层面,通过条件生成式对抗网络(Conditional Gen-erative Adversarial Nets,CGAN)学习少数类样本的分布信息,训练生成器生成少数类补充样本,调节数据的不平衡性;其次在特征层面,先利用XGBoost进行特征组合生成新的特征,再通过最大相关最小冗余(minimal Redundancy-Maximal Relevance,mRMR)算法筛选出更适合不平衡数据分类的特征子集;最后在算法层面,引入针对不平衡数据分类问题的焦点损失函数(Fo-cal Loss)来改进XGBoost,改进后的XGBoost通过新的数据集训练得到最终模型.在实验阶段,选择G-mean和AUC作为评价指标,6组KEEL数据集上的实验结果验证了所提改进方法的可行性;同时将该方法与现有的4种不平衡分类模型进行比较,实验结果表明所提改进方法具有较好的分类效果.
推荐文章
不平衡数据分类的研究现状
不平衡数据
机器学习
模式分类
集成学习算法在不平衡分类中的应用研究
机器学习
类不平衡
集成学习
评测标准
改进的SVM解决背景知识数据中的类不平衡
类不平衡
支持向量机
背景知识
恐怖行为方式预测
MAROB
不平衡数据集的分类方法研究
机器学习
不平衡数据
数据分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 改进的XGBoost在不平衡数据处理中的应用研究
来源期刊 计算机科学 学科 工学
关键词 不平衡数据 XGBoost Focal Loss 特征组合 mRMR CGAN
年,卷(期) 2020,(6) 所属期刊栏目 数据库&大数据&数据科学
研究方向 页码范围 98-103
页数 6页 分类号 TP181
字数 6504字 语种 中文
DOI 10.11896/jsjkx.191200138
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王时绘 湖北大学计算机与信息工程学院 51 204 7.0 11.0
3 杨超 湖北大学计算机与信息工程学院 16 21 3.0 3.0
9 宋玲玲 湖北大学计算机与信息工程学院 1 0 0.0 0.0
15 盛潇 湖北大学计算机与信息工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (321)
共引文献  (136)
参考文献  (25)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1972(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(4)
  • 参考文献(0)
  • 二级参考文献(4)
1997(6)
  • 参考文献(0)
  • 二级参考文献(6)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(15)
  • 参考文献(1)
  • 二级参考文献(14)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(7)
  • 参考文献(1)
  • 二级参考文献(6)
2006(14)
  • 参考文献(0)
  • 二级参考文献(14)
2007(10)
  • 参考文献(0)
  • 二级参考文献(10)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(23)
  • 参考文献(0)
  • 二级参考文献(23)
2010(21)
  • 参考文献(2)
  • 二级参考文献(19)
2011(14)
  • 参考文献(1)
  • 二级参考文献(13)
2012(14)
  • 参考文献(1)
  • 二级参考文献(13)
2013(28)
  • 参考文献(2)
  • 二级参考文献(26)
2014(23)
  • 参考文献(0)
  • 二级参考文献(23)
2015(28)
  • 参考文献(0)
  • 二级参考文献(28)
2016(37)
  • 参考文献(3)
  • 二级参考文献(34)
2017(40)
  • 参考文献(3)
  • 二级参考文献(37)
2018(22)
  • 参考文献(3)
  • 二级参考文献(19)
2019(11)
  • 参考文献(8)
  • 二级参考文献(3)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
不平衡数据
XGBoost
Focal Loss
特征组合
mRMR
CGAN
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导