摘要:
背景 肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大.但随着医疗大数据的产生,传统的统计预测方法逐渐无法满足需求,有必要尝试开展机器学习等新方法在肿瘤预测领域的应用.目的 探讨支持向量机与XGboost和逐步Logistic回归分析在成年人群肿瘤患病风险中的预测价值.方法 本研究时间为2011—2015年,数据来源于中国健康与营养调查(CHNS),以我国12个地区(黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆)城乡成年(≥18岁)常住居民为对象,经过数据清理,最终纳入19410人为本研究对象.将研究对象按2:1分为训练集和测试集,基于逐步Logistic回归分析的变量筛选策略,在训练集上分别建立逐步Logistic回归分析、支持向量机、XGboost肿瘤患病风险预测模型,并在测试集上进行验证.通过比较各模型受试者工作特征曲线(ROC曲线)下面积(AUC),分析各模型预测肿瘤患病风险的性能.结果 19410例研究对象中,被诊断为肿瘤患者262例(1.35%).训练集(n=12919)中含有174例肿瘤患者,测试集(n=6491)含有88例肿瘤患者.逐步Logistic回归分析、支持向量机、XGboost在测试集中预测成年人群患肿瘤的正确率分别为72.96%〔95%CI(71.86%,74.04%)〕、99.54%〔95%CI(99.34%,99.69%)〕、70.05%〔95%CI(68.92%,71.16%)〕,AUC分别为76.75%〔95%CI(72.35%,81.14%)〕、86.32%〔95%CI(81.64%,91.00%)〕、79.03%〔95%CI(74.96%,83.10%)〕.支持向量机、XGboost预测成年人群患肿瘤的AUC与Logistic回归模型比较,差异有统计学意义(Z值分别为-2.519、-2.138,P值分别为0.012、0.032);XGboost预测成年人群患肿瘤的AUC低于支持向量机,差异有统计学意义(Z=2.081,P=0.037).结论 支持向量机相较于逐步Logistic回归分析预测成年人群肿瘤患病风险的正确率、灵敏度、特异度、AUC等指标较好,而XGboost未见明显优势,但考虑到逐步Logistic回归分析操作的便捷性和可解释性优势,建议在肿瘤风险预测方面,采用支持向量机与逐步Logistic回归分析相结合的模式.