基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
不均衡数据分类是数据挖掘领域的一个难点问题, 对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题, 即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS), 通过充分挖掘多数类样本的结构信息, 对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员, 以确保单个学习器的输入数据均衡且保留原始数据的结构信息, 提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上, 对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能, 结果表明, EC-SS方法能有效提升分类性能.
推荐文章
基于BSMOTE和逆转欠抽样的不均衡数据分类算法
不均衡数据集
边界少数类样本合成过抽样技术
逆转欠抽样技术
多分类器集成
在癌症分类中基于分层抽样的神经网络集成算法
神经网络集成
基因表达谱
偏度
分层抽样
系统抽样与分层抽样的比较分析
系统抽样
分层抽样
比较分析
基于分解策略处理多分类不均衡问题的方法
多分类问题
不均衡数据集
分解策略
人工样本
集成学习
动态加权
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分层抽样的不均衡数据集成分类
来源期刊 深圳大学学报(理工版) 学科 工学
关键词 人工智能 不均衡分类 分层抽样 集成学习 聚类 数据挖掘
年,卷(期) 2019,(1) 所属期刊栏目 专题:大数据聚类
研究方向 页码范围 24-32
页数 9页 分类号 TP181|TP311
字数 6808字 语种 中文
DOI 10.3724/SP.J.1249.2019.01024
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 景丽萍 北京交通大学计算机与信息技术学院 20 84 5.0 8.0
2 王馨月 北京交通大学计算机与信息技术学院 3 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (8)
节点文献
引证文献  (2)
同被引文献  (7)
二级引证文献  (0)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
人工智能
不均衡分类
分层抽样
集成学习
聚类
数据挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
深圳大学学报(理工版)
双月刊
1000-2618
44-1401/N
大16开
深圳市南山区深圳大学行政楼419室
46-206
1984
chi
出版文献量(篇)
1946
总下载数(次)
10
总被引数(次)
10984
论文1v1指导