使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题.为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型.利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值.然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果.实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率.
*The Scientific Research Program Funded by Education Department of Shaanxi Province under Grant No.12JK0748(陕西省教育厅科技计划项目);the Science and Technology Research Project of Shangluo University under Grant No.13sky024(商洛学院科学与技术研究项目). 法插入样本;最后在新的训练集上确定最终决策函数。在人工数据集和4组UCI数据集上进行了实验,结果表明了该算法对不均衡数据集进行降维采样的有效性。
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法——HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器.用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高.