结合信息论和范数的并行随机森林算法

毛伊敏; 耿俊豪

文献导航

搜索文章

搜索思路

结合信息论和范数的并行随机森林算法

作者：

毛伊敏耿俊豪

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

MapReduce框架

随机森林(RF)

DRIGFN策略

基于信息论的特征分组策略(FGSIT)

键值对重分配策略(RSKP)

摘要：

针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN).首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果.

内容分析

关键词云

关键词热度

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

一般工业技术交通运输军事科技冶金工业动力工程化学工业原子能技术大学学报建筑科学无线电电子学与电信技术机械与仪表工业水利工程环境科学与安全科学电工技术石油与天然气工业矿业工程自动化技术与计算机技术航空航天轻工业与手工业金属学与金属工艺

计算机科学与探索2022 计算机科学与探索2021 计算机科学与探索2020 计算机科学与探索2019 计算机科学与探索2018 计算机科学与探索2017 计算机科学与探索2016 计算机科学与探索2015 计算机科学与探索2014 计算机科学与探索2013 计算机科学与探索2012 计算机科学与探索2011 计算机科学与探索2010 计算机科学与探索2009 计算机科学与探索2008 计算机科学与探索2007

计算机科学与探索2022年第5期计算机科学与探索2022年第4期计算机科学与探索2022年第3期计算机科学与探索2022年第2期计算机科学与探索2022年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com

篇名	结合信息论和范数的并行随机森林算法
来源期刊	计算机科学与探索	学科	工学
关键词	MapReduce框架随机森林(RF) DRIGFN策略基于信息论的特征分组策略(FGSIT) 键值对重分配策略(RSKP)
年，卷（期）	2022,（5）	所属期刊栏目	数据库技术\|Database Technology
研究方向		页码范围	1064-1075
页数	12页	分类号	TP311
字数		语种	中文
DOI	10.3778/j.issn.1673-9418.2010064