基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚.因此,需要提供有效的方法降低缺失数据对整体的影响.方法:基于医学临床数据集,针对不同数据类型,比较了KNN插补、随机森林插补、决策树插补、多重插补4种不同的插补方法在不同的缺失率下的插补效果,并采用均方根误差和错误率评价插补效果.结果:KNN插补和决策树插补对缺失率有较高要求,当缺失率≥50%时这两种方法不适用;多重插补和随机森林插补对不同的缺失率情况下的插补效果变化不明显.结论:各插补方法对不同缺失率和不同的数据类型的插补效果不同.在以上四种方法中,随机森林插补在本研究中表现出较好的插补效果.
推荐文章
心率缺失数据插值方法探讨
心率变异
近似熵
样本熵
混沌
对模拟纵向数据集缺失值处理的几种方法比较
多重填补法
期望值最大化法
回归插补法
缺失值
基于信息增益的数据库缺失值填充算法
数据挖掘
缺失值填充
信息增益
分类准确率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于临床数据集的缺失值处理方法比较
来源期刊 中国数字医学 学科 医学
关键词 缺失值插补 缺失率 随机森林插补 多重插补
年,卷(期) 2018,(4) 所属期刊栏目 特别专题
研究方向 页码范围 8-10
页数 3页 分类号 R319
字数 4254字 语种 中文
DOI 10.3969/j.issn.1673-7571.2018.04.003
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (6)
参考文献  (6)
节点文献
引证文献  (9)
同被引文献  (18)
二级引证文献  (7)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(10)
  • 引证文献(6)
  • 二级引证文献(4)
2020(5)
  • 引证文献(2)
  • 二级引证文献(3)
研究主题发展历程
节点文献
缺失值插补
缺失率
随机森林插补
多重插补
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国数字医学
月刊
1673-7571
11-5550/R
大16开
北京市朝阳区光华路甲8号和乔大厦A座528A室
80-133
2006
chi
出版文献量(篇)
6783
总下载数(次)
21
总被引数(次)
25598
论文1v1指导