基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF).该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能.实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法.
推荐文章
基于特征选择的极限随机森林算法研究
概率相关性
特征选择
特征子集
极限随机森林
一种基于随机森林的改进特征筛选算法
随机森林算法
特征筛选
肝癌预后预测
决策树
预测精度
特征集
基于改进随机森林算法的股票趋势预测
股票趋势预测
技术指标
特征选择
改进的随机森林算法
基于改进的随机森林算法股票收益率预测研究
粒子群
随机森林
股票收益率
特征选择
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于混合采样和特征选择的改进随机森林算法研究
来源期刊 南京邮电大学学报(自然科学版) 学科 工学
关键词 随机森林 混合采样 特征选择 高维不平衡数据 HF_RF算法
年,卷(期) 2022,(1) 所属期刊栏目 计算机与自动控制|Computer and Automation
研究方向 页码范围 81-89
页数 9页 分类号 TP301
字数 语种 中文
DOI 10.14132/j.cnki.1673-5439.2022.01.011
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
随机森林
混合采样
特征选择
高维不平衡数据
HF_RF算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南京邮电大学学报(自然科学版)
双月刊
1673-5439
32-1772/TN
大16开
南京市亚芳新城区文苑路9号
1960
chi
出版文献量(篇)
2234
总下载数(次)
13
总被引数(次)
14649
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导