摘要:
目的 挖掘电子病历(EMRs)信息并构建机器学习(ML)模型,评估模型对新型冠状病毒肺炎(COVID-19)的诊断价值.资料与方法 采用数据平台获取450例肺炎患者的EMRs,包括COVID-19组90例和非COVID-19组360例,并按照7:3的比例将数据随机分为训练集315例和验证集135例.采集所有EMRs的临床表现、实验室检查和胸部CT报告等指标,采用单因素分析和多因素Logistic回归分析行指标筛选,构建逻辑回归(LR)、K最近邻(KNN)、决策树(DT)、多层感知机(MLP)、随机森林(RF)、支持向量机(SVM)和可解释增强机(EBM)共7种COVID-19诊断模型,并在验证集中评价其诊断效能.结果 从EMRs中提取指标共69个,筛选出9个有统计学意义的指标构建ML模型,包括咳嗽、胸痛、肌酐、C反应蛋白、白细胞计数、乳酸脱氢酶、肌酸激酶、磨玻璃影和实变.验证集中各模型的诊断性能为,①LR:精确率0.815,召回率0.815,F1值0.815,ROC曲线下面积(AUC)0.946;②KNN:精确率0.792,召回率0.704,F1值0.745,AUC 0.931;③DT:精确率0.769,召回率0.741,F1值0.755,AUC 0.843;④MLP:精确率0.852,召回率0.852,F1值0.852,AUC 0.925;⑤RF:精确率0.800,召回率0.889,F1值0.842,AUC 0.955;⑥SVM:精确率0.742,召回率0.852,F1值0.775,AUC 0.906;⑦EBM:精确率0.828,召回率0.889,F1值0.857,AUC 0.970,其中EBM的COVID-19诊断效能最佳.结论 挖掘EMRs信息,构建基于ML并具有可解释性的鉴别诊断模型,能够协助医师快速、准确地诊断COVID-19.