基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的 本研究旨在评价不同平台间“块缺失”数据的填补方法.如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义.方法 利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%).采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较.评价指标包括估计偏差和矩阵-2-范数.根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法.结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短.均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差.在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作.结论 综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补.
推荐文章
一种基于双聚类的缺失数据填补方法
缺失数据填补
双聚类
双聚类数据填补
数据清洗
数据缺失及其填补方法综述
数据缺失
社会调查
填补方法
缺失飞参数据填补的组合方法研究
飞参数据
数据填补
最小二乘支持向量机
B样条拟舍
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 多组学联合缺失数据填补方法的评价
来源期刊 中国卫生统计 学科
关键词 多组学数据 块缺失 统计学填补 机器学习填补 效果评价
年,卷(期) 2017,(4) 所属期刊栏目 论著
研究方向 页码范围 558-561,566
页数 5页 分类号
字数 4549字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈峰 南京医科大学公共卫生学院生物统计学系 202 1688 19.0 32.0
2 赵杨 南京医科大学公共卫生学院生物统计学系 86 628 13.0 21.0
3 魏永越 南京医科大学公共卫生学院生物统计学系 54 210 9.0 12.0
4 戴俊程 南京医科大学公共卫生学院生物统计学系 12 23 4.0 4.0
5 董学思 南京医科大学公共卫生学院生物统计学系 2 12 2.0 2.0
6 林丽娟 南京医科大学公共卫生学院生物统计学系 4 40 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (11)
参考文献  (8)
节点文献
引证文献  (5)
同被引文献  (12)
二级引证文献  (3)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
多组学数据
块缺失
统计学填补
机器学习填补
效果评价
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国卫生统计
双月刊
1002-3674
21-1153/R
大16开
沈阳市和平区北二马路92号
8-39
1984
chi
出版文献量(篇)
6078
总下载数(次)
19
总被引数(次)
51365
论文1v1指导