基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory).该算法基于信息论设计了一种混合降维策略DRIT(dimension reduction based on information theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;提出了一种改进的多粒度扫描策略IMGSS(improved multi-grained scanning strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(the sample weighting strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果.
推荐文章
结合信息论和运动信息的镜头检测算法
镜头检测
镜头融合
信息论
运动信息
结合信息论和运动信息的镜头检测算法
镜头检测
镜头融合
信息论
运动信息
模糊信息论在聚类分析中的应用
聚类分析
模糊交互熵
似然函数
基于信息论准则的信源个数估计算法改进
信源数估计
MDL准则
AIC准则
阵列信号处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合信息论改进的并行深度森林算法
来源期刊 计算机工程与应用 学科 工学
关键词 MapReduce框架 深度森林 DRIT策略 IMGSS策略 TSWS策略
年,卷(期) 2022,(7) 所属期刊栏目 大数据与云计算|Big Data and Cloud Computing
研究方向 页码范围 106-115
页数 10页 分类号 TP311
字数 语种 中文
DOI 10.3778/j.issn.1002-8331.2103-0019
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
MapReduce框架
深度森林
DRIT策略
IMGSS策略
TSWS策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导