作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
异常检测是近年来数据挖掘中热门的研究课题之一,孤立森林算法是一种高效的无监督的异常检测算法,可以很好地处理高维大规模数据.针对孤立森林算法在计算测试样本的异常值时,计算的是测试样本在孤立森林下的平均路径长度,忽略了孤立二叉树间检测异常能力的差异性以及大规模数据下构建大量孤立二叉树需要耗费大量内存时间这两点不足,提出一种并行化改进孤立森林算法.利用每棵孤立二叉树的路径长度标准差对其进行加权计算异常值,并基于Spark平台实现并行化.通过在公开数据集上进行的对比实验及多种参数配置的并行性能对比实验表明,并行化改进孤立森林算法能够提高异常检测的精确度,同时具有很好的并行性能,能够高效处理需要构建大量孤立二叉树的大规模数据集.
推荐文章
归一化积相关算法并行加速方法研究及FPGA实现
归一化积相关算法
16路并行计算
硬件加速
NCC区域气候模式算法分析及并行化实现
并行算法
区域分解
数据分布
人体姿势估计中随机森林训练算法的并行化
人体姿势估计
随机森林
并行化设计
消息传递接口
DBSCAN算法研究及并行化实现
大数据
DBSCAN算法
ApacheSpark
分布式计算
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 孤立森林算法研究及并行化实现
来源期刊 计算机技术与发展 学科
关键词 异常检测 孤立森林算法 孤立二叉树 Spark 并行化
年,卷(期) 2021,(6) 所属期刊栏目 大数据分析与挖掘
研究方向 页码范围 13-18
页数 6页 分类号 TP301.6
字数 语种 中文
DOI 10.3969/j.issn.1673-629X.2021.06.003
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (45)
共引文献  (29)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(5)
  • 参考文献(0)
  • 二级参考文献(5)
2015(5)
  • 参考文献(0)
  • 二级参考文献(5)
2016(7)
  • 参考文献(0)
  • 二级参考文献(7)
2017(5)
  • 参考文献(3)
  • 二级参考文献(2)
2018(4)
  • 参考文献(4)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
异常检测
孤立森林算法
孤立二叉树
Spark
并行化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导