基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
梯度提升树算法由于其高准确率和可解释性,被广泛地应用于分类、回归、排序等各类问题.随着数据规模的爆炸式增长,分布式梯度提升树算法成为研究热点.虽然目前已有一系列分布式梯度提升树算法的实现,但是它们在高维特征和多分类任务上性能较差,原因是它们采用的数据并行策略需要传输梯度直方图,而高维特征和多分类情况下梯度直方图的传输成为性能瓶颈.针对这个问题,研究更加适合高维特征和多分类的梯度提升树的并行策略,具有重要的意义和价值.首先比较了数据并行与特征并行策略,从理论上证明特征并行更加适合高维和多分类场景.根据理论分析的结果,提出了一种特征并行的分布式梯度提升树算法FP-GBDT.FP-GBDT设计了一种高效的分布式数据集转置算法,将原本按行切分的数据集转换为按列切分的数据表征;在建立梯度直方图时,FP-GBDT使用一种稀疏感知的方法来加快梯度直方图的建立;在分裂树节点时,FP-GBDT设计了一种比特图压缩的方法来传输数据样本的位置信息,从而减少通信开销.通过详尽的实验,对比了不同并行策略下分布式梯度提升树算法的性能,首先验证了FP-GBDT提出的多种优化方法的有效性;然后比较了FP-GBDT与XGBoost的性能,在多个数据集上验证了FP-GBDT在高维特征和多分类场景下的有效性,取得了最高6倍的性能提升.
推荐文章
隐私保护的分布式决策树分类算法的研究
分布式数据挖掘
隐私保护
安全多方计算
C4.5决策树算法
垂直分布
水平分布
一种高效的分布式树核函数分类算法
核函数
分类
分布式树
特征空间
利用特征子空间评价与多分类器融合的高光谱图像分类
高光谱图像
多分类器融合
自适应子空间分解
加权表决
恶意代码分类的一种高维特征融合分析方法
恶意代码分类
特征提取
特征融合
深度特征处理
局部敏感哈希
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向高维特征和多分类的分布式梯度提升树
来源期刊 软件学报 学科 工学
关键词 梯度提升树 数据并行 特征并行 系统实现 算法比较
年,卷(期) 2019,(3) 所属期刊栏目 智能数据管理与分析技术专刊
研究方向 页码范围 784-798
页数 15页 分类号 TP311
字数 11489字 语种 中文
DOI 10.13328/j.cnki.jos.005690
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邵蓥侠 北京邮电大学计算机学院 1 5 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (5)
同被引文献  (0)
二级引证文献  (0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
梯度提升树
数据并行
特征并行
系统实现
算法比较
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导