基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法.首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的.然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点.接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集.重复上述过程p次,得到p个样例子集.最后,用这p个子集进行投票,得到最终选择的样例子集.在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制.此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短.证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题.
推荐文章
一种处理不平衡大数据的并行随机森林算法
不平衡大数据
MapReduce
随机森林
代价敏感
分层自助抽样
基于特征选择的极限随机森林算法研究
概率相关性
特征选择
特征子集
极限随机森林
基于随机森林算法的特征选择及在 fMRI数据中的应用
分类识别
特征提取与选择
随机森林
fM RI数据
基于数据相似度的自适应半监督随机森林算法
随机森林
半监督学习算法
数据相似度
路径集合稀疏编码
自适应
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于随机森林和投票机制的大数据样例选择算法
来源期刊 计算机应用 学科 工学
关键词 大数据 样例选择 决策树 随机森林 投票机制
年,卷(期) 2021,(1) 所属期刊栏目 第八届中国数据挖掘会议(CCDM 2020)
研究方向 页码范围 74-80
页数 7页 分类号 TP181
字数 语种 中文
DOI 10.11772/j.issn.1001-9081.2020060982
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1968(1)
  • 参考文献(1)
  • 二级参考文献(0)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
样例选择
决策树
随机森林
投票机制
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导