基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类.经由交叉验证,构建的XGBoost并行分类算法准确率为0.923 4,在各类别中最低F1为0.860 4,最高为0.998 4;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82.结果 表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类.
推荐文章
基于Spark与词语相关度的KNN文本分类算法
K-最近邻
词语相关度
Spark
并行化计算
Spark框架下利用分布式NBC的大数据文本分类方法
文本分类
MapReduce
Spark框架
分布式
朴素贝叶斯分类器
机器学习
深度置信网络的Spark并行化在微博情感分类中的应用研究
中文微博
情感分析
深度置信网络
Spark并行化
基于Spark的CVFDT分类算法并行化研究
数据流
CVFDT
并行化
Spark
弹性分布式数据集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark框架XGBoost的林业文本并行分类方法研究
来源期刊 农业机械学报 学科 工学
关键词 林业文本 文本分类 大数据分析 Spark XGBoost
年,卷(期) 2019,(6) 所属期刊栏目 农业信息化工程
研究方向 页码范围 280-287
页数 8页 分类号 TP391.1
字数 7024字 语种 中文
DOI 10.6041/j.issn.1000-1298.2019.06.032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈志泊 北京林业大学信息学院 74 503 11.0 18.0
2 许福 北京林业大学信息学院 13 26 3.0 4.0
3 崔晓晖 北京林业大学信息学院 12 35 4.0 5.0
4 师栋瑜 北京林业大学信息学院 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (193)
共引文献  (91)
参考文献  (21)
节点文献
引证文献  (3)
同被引文献  (9)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(8)
  • 参考文献(0)
  • 二级参考文献(8)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(11)
  • 参考文献(0)
  • 二级参考文献(11)
2010(16)
  • 参考文献(0)
  • 二级参考文献(16)
2011(25)
  • 参考文献(1)
  • 二级参考文献(24)
2012(22)
  • 参考文献(0)
  • 二级参考文献(22)
2013(24)
  • 参考文献(2)
  • 二级参考文献(22)
2014(15)
  • 参考文献(2)
  • 二级参考文献(13)
2015(24)
  • 参考文献(3)
  • 二级参考文献(21)
2016(13)
  • 参考文献(1)
  • 二级参考文献(12)
2017(8)
  • 参考文献(6)
  • 二级参考文献(2)
2018(4)
  • 参考文献(4)
  • 二级参考文献(0)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
林业文本
文本分类
大数据分析
Spark
XGBoost
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
农业机械学报
月刊
1000-1298
11-1964/S
大16开
北京德外北沙滩1号6信箱
2-363
1957
chi
出版文献量(篇)
11867
总下载数(次)
31
总被引数(次)
174483
论文1v1指导