基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随机森林算法是一种简单、有效的集成学习算法.它通过自助法和随机化特征子集的方式增加了集成分类的多样性,进而构建出比Bagging和Boosting更精确的集成分类器.然而,当面对非均衡分类问题时,其建树所使用采用的分裂指标——Gini指数被证明对类分布敏感,这在一定程度上降低了随机森林的分类精度.本文提出一种使用K-L距离作为分裂指标的随机森林.实验采用ROC曲线下面积(AUC)作为分类性能评价指标,通过在低度非均衡数据集和高度非均衡数据集上分别与随机森林、平衡随机森林以及基于Hellinger决策树的Bagging集成分类器相比,K-L随机森林不仅在70%以上的实验数据集上优于其他分类器,而且其平均AUC值也优于其他分类器,分别为0.938、0.937.上述实验结果表明:使用K-L距离作为分裂指标可以有效提高随机森林处理非均衡分类问题的分类性能.
推荐文章
基于非平衡数据的随机森林分类算法改进
非平衡数据
随机森林算法
有条件的Bootstrap重抽样
加权的决策树
一种非平衡数据分类的过采样随机森林算法
非平衡数据集
少数类
合成样本
分类
面向差分隐私保护的随机森林算法
隐私保护
差分隐私
随机森林
决策树
CART分类树
非均衡加权随机梯度下降SVM在线算法
随机梯度下降(SGD)
非均衡数据
大规模学习
支持向量机(SVM)
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向非均衡分类的随机森林算法
来源期刊 计算机与现代化 学科 工学
关键词 非均衡分类 K-L距离 随机森林 平衡随机森林 Bagging
年,卷(期) 2018,(12) 所属期刊栏目 算法设计与分析
研究方向 页码范围 56-60,66
页数 6页 分类号 TP301.6
字数 5250字 语种 中文
DOI 10.3969/j.issn.1006-2475.2018.12.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 沈智威 苏州大学城市轨道交通学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (9)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1951(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
非均衡分类
K-L距离
随机森林
平衡随机森林
Bagging
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导