原文服务方: 中国全科医学       
摘要:
背景 肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大.但随着医疗大数据的产生,传统的统计预测方法逐渐无法满足需求,有必要尝试开展机器学习等新方法在肿瘤预测领域的应用.目的 探讨支持向量机与XGboost和逐步Logistic回归分析在成年人群肿瘤患病风险中的预测价值.方法 本研究时间为2011—2015年,数据来源于中国健康与营养调查(CHNS),以我国12个地区(黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆)城乡成年(≥18岁)常住居民为对象,经过数据清理,最终纳入19410人为本研究对象.将研究对象按2:1分为训练集和测试集,基于逐步Logistic回归分析的变量筛选策略,在训练集上分别建立逐步Logistic回归分析、支持向量机、XGboost肿瘤患病风险预测模型,并在测试集上进行验证.通过比较各模型受试者工作特征曲线(ROC曲线)下面积(AUC),分析各模型预测肿瘤患病风险的性能.结果 19410例研究对象中,被诊断为肿瘤患者262例(1.35%).训练集(n=12919)中含有174例肿瘤患者,测试集(n=6491)含有88例肿瘤患者.逐步Logistic回归分析、支持向量机、XGboost在测试集中预测成年人群患肿瘤的正确率分别为72.96%〔95%CI(71.86%,74.04%)〕、99.54%〔95%CI(99.34%,99.69%)〕、70.05%〔95%CI(68.92%,71.16%)〕,AUC分别为76.75%〔95%CI(72.35%,81.14%)〕、86.32%〔95%CI(81.64%,91.00%)〕、79.03%〔95%CI(74.96%,83.10%)〕.支持向量机、XGboost预测成年人群患肿瘤的AUC与Logistic回归模型比较,差异有统计学意义(Z值分别为-2.519、-2.138,P值分别为0.012、0.032);XGboost预测成年人群患肿瘤的AUC低于支持向量机,差异有统计学意义(Z=2.081,P=0.037).结论 支持向量机相较于逐步Logistic回归分析预测成年人群肿瘤患病风险的正确率、灵敏度、特异度、AUC等指标较好,而XGboost未见明显优势,但考虑到逐步Logistic回归分析操作的便捷性和可解释性优势,建议在肿瘤风险预测方面,采用支持向量机与逐步Logistic回归分析相结合的模式.
推荐文章
中国成年人肉类摄入与高血压患病风险的相关性研究
中国
成年人
肉类摄入
高血压
队列研究
基于支持向量机的工程项目风险预测研究
支持向量机
工程项目
风险
预测
Libsvm软件
基于支持向量机的抑郁障碍人群自杀风险预测
支持向量机
抑郁障碍
自杀意图
预测模型
高斯核函数
基于社区居民健康大数据预测高血压的患病风险
高血压
机器学习
社区居民健康档案
基尼系数下降法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于支持向量机与XGboost的成年人群肿瘤患病风险预测研究
来源期刊 中国全科医学 学科
关键词 肿瘤 健康状况 逐步Logistic回归分析 支持向量机 XGboost 预测
年,卷(期) 2020,(12) 所属期刊栏目 论著
研究方向 页码范围 1486-1491
页数 6页 分类号 R739.9
字数 语种 中文
DOI 10.12114/j.issn.1007-9572.2020.00.066
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (140)
共引文献  (644)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(7)
  • 参考文献(0)
  • 二级参考文献(7)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(9)
  • 参考文献(0)
  • 二级参考文献(9)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(18)
  • 参考文献(0)
  • 二级参考文献(18)
2015(14)
  • 参考文献(0)
  • 二级参考文献(14)
2016(23)
  • 参考文献(1)
  • 二级参考文献(22)
2017(14)
  • 参考文献(3)
  • 二级参考文献(11)
2018(21)
  • 参考文献(6)
  • 二级参考文献(15)
2019(4)
  • 参考文献(4)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
肿瘤
健康状况
逐步Logistic回归分析
支持向量机
XGboost
预测
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国全科医学
旬刊
1007-9572
13-1222/R
大16开
1998-01-01
chi
出版文献量(篇)
0
总下载数(次)
0
总被引数(次)
213687
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导