基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的 探讨机器学习算法和COX列线图在肝细胞癌术后生存预测中的应用价值.方法 采用回顾性描述性研究方法.收集2012年1月至2017年1月中国医学科学院北京协和医学院肿瘤医院收治的375例肝细胞癌行根治性肝切除术患者的临床病理资料;男304例,女71例;中位年龄为57岁,年龄范围为21~79岁.375例患者通过计算机产生随机数方法以8∶2比例分为训练集300例和验证集75例,应用逻辑回归、支持向量机、决策树、随机森林、人工神经网络机器学习算法构建肝细胞癌患者术后生存的预测模型,筛选性能最优的机器学习算法预测模型;构建肝细胞癌患者术后生存预测的COX列线图预测模型;比较最优机器学习算法预测模型和COX列线图预测模型预测肝细胞癌患者术后生存的性能.观察指标:(1)训练集与验证集患者临床病理资料分析.(2)训练集与验证集患者随访及生存情况.(3)机器学习算法预测模型构建及验证.(4)COX列线图预测模型构建及验证.(5)随机森林机器学习算法预测模型与COX列线图预测模型预测性能评价.采用门诊或电话方式进行随访,了解患者生存情况.随访时间截至2019年12月或患者死亡.正态分布的计量资料以(x)±s表示,组间比较采用配对t检验.偏态分布的计量资料以M(P25,P75)或M(范围)表示,组间比较采用Mann-Whitney U检验.计数资料以绝对数表示,当Tmin≥5,N≥40时,组间比较采用x2检验;当1≤Tmin≤5,N≥40时,采用校正x2检验;当Tmin<1或N<40时,采用Fisher确切概率法.采用Kaplan-Meier法计算生存率和绘制生存曲线.采用COX比例风险模型进行单因素分析,将P<0.2的变量纳入Lasso回归分析,根据λ值筛选影响预后的变量,最后将变量纳入COX比例风险模型进行多因素分析.结果 (1)训练集与验证集患者临床病理资料分析:训练集和验证集患者微血管侵犯(无、有),肝硬化(无、有)分别为292、8例,105、195例和69、6例,37、38例,两组患者比较,差异均有统计学意义(x2=4.749,5.239,P<0.05).(2)训练集与验证集患者随访及生存情况:训练集与验证集患者均获得随访.训练集300例患者随访时间为1.1~85.5个月,中位随访时间为50.3个月.验证集75例患者随访时间为1.0~85.7个月,中位随访时间为46.7个月.375例肝细胞癌患者术后1、3年总体生存率分别为91.7%、79.5%.训练集和验证集患者术后1、3年总体生存率分别为92.0%、79.7%和90.7%、81.9%.两组患者术后生存情况比较,差异无统计学意义(x2=0.113,P>0.05).(3)机器学习算法预测模型构建及验证.①筛选最优机器学习算法预测模型:根据变量对预测肝细胞癌术后3年生存的信息增益度,应用逻辑回归、支持向量机、决策树、随机森林和人工神经网络5种机器学习算法对肝细胞癌临床病理因素进行变量综合排名.筛选主要预测因素为乙型肝炎e抗原(HBeAg)、手术方式、肿瘤最大直径、围术期输血、肝被膜侵犯、肝脏Ⅳ段侵犯.将预测因素前3、6、9、12、15、18、21、24、27、29个变量依次引入5种机器学习算法.其结果显示:当引入9个变量时,逻辑回归、支持向量机、决策树、随机森林机器学习算法预测模型受试者工作特征曲线的曲线下面积(AUC)趋于稳定.当引入变量>12个时,人工神经网络机器学习算法预测模型AUC波动明显,逻辑回归、支持向量机机器学习算法预测模型AUC稳定性可继续改善,而随机森林机器学习算法预测模型AUC接近0.990,说明随机森林机器学习算法预测模型为最优机器学习算法预测模型.②随机森林机器学习算法预测模型优化和验证:将预测因素29个变量依次引入随机森林机器学习算法预测模型中,构建训练集最佳随机森林机器学习算法预测模型.其结果显示:当引入变量=10个时,网格搜索法示最佳决策树结点个数=4,最佳决策树数目=1000;当引入变量≥10个时,随机森林机器学习算法预测模型AUC稳定在0.990左右.其中当引入变量=10个时,随机森林机器学习算法预测模型预测训练集术后3年总体生存AUC为0.992,灵敏度为0.629,特异度为0.996,预测验证集术后3年总体生存AUC为0.723,灵敏度为0.177,特异度为0.948.(4)COX列线图预测模型构建及验证.①训练集患者术后生存因素分析.单因素分析结果显示:HBeAg、甲胎蛋白、围术期输血、肿瘤最大直径、肝被膜侵犯、肿瘤分化程度是影响肝细胞癌患者术后生存的相关因素(风险比=1.958,1.878,2.170,1.188,2.052,0.222,95%可信区间为1.185 ~3.235,1.147~3.076,1.389~3.393,1.092~ 1.291,1.240~3.395,0.070~0.703,P<0.05).将P<0.2的临床病理因素纳入Lasso回归分析,其结果显示:性别,HBeAg,甲胎蛋白,手术方式,围术期输血,肿瘤最大直径,肿瘤位置在肝脏Ⅴ段和肝脏Ⅷ段,肝被膜侵犯,肿瘤分化程度(高分化、中高分化、中分化、中低分化)是影响肝细胞癌患者术后生存的相关因素.进一步将上述临床病理因素纳入多因素COX回归分析,其结果显示:HBeAg、手术方式、肿瘤最大直径是肝细胞癌患者术后生存的独立影响因素(风险比=1.770,8.799,1.142,95%可信区间为1.049~2.987,1.203~64.342,1.051~ 1.242,P<0.05).②COX列线图预测模型的构建和验证:将训练集COX多因素分析结果中P≤0.1的临床病理因素引入Rstudio软件及其rms软件包,构建训练集COX列线图预测模型.COX列线图预测模型预测术后总体生存的C-index为0.723(se=0.028),预测训练集术后3年总体生存AUC为0.760,预测验证集术后3年总体生存AUC为0.795.训练集校准图验证显示COX列线图预测模型对术后生存有较好预测效果.COX列线图回归函数=0.627 06×HBeAg(正常=0,异常=1)+0.134 34×肿瘤最大直径(cm) +2.107 58×手术方式(腹腔镜=0,开腹手术=1)+0.545 58×围术期输血(无输血=0,输血=1)-1.421 33×高分化(非高分化=0,高分化=1).计算所有患者COX列线图风险评分,应用Xtile软件寻找COX列线图风险评分最佳阈值,风险评分≥2.9分为高危组,风险评分<2.9分为低危组.Kaplan-Meier总体生存曲线结果显示:训练集低危组和高危组患者术后总体生存比较,差异有统计学意义(x2=33.065,P<0.05).验证集低危组和高危组患者术后总体生存比较,差异有统计学意义(x2=6.585,P<0.05).进一步采用决策曲线分析结果显示:联合HBeAg、手术方式、围术期输血、肿瘤最大直径和肿瘤分化程度因素的COX列线图预测模型预测性能优于单一因素的预测性能.(5)随机森林机器学习算法预测模型和COX列线图预测模型预测性能评价:通过对2种模型中共同含有的重要变量(肿瘤最大直径)进行分析,并将2种模型通过预测误差曲线进行比较,观察2种模型的预测差异.其结果显示:肿瘤最大直径为2.2 cm时,随机森林机器学习算法和COX列线图预测模型预测患者术后3年生存率分别为77.17%和74.77%(x2=0.182,P>0.05);肿瘤最大直径为6.3 cm时,随机森林机器学习算法和COX列线图预测模型预测患者术后3年生存率分别为57.51%和61.65%(x2=0.394,P>0.05);肿瘤最大直径为14.2 cm时,随机森林机器学习算法和COX列线图预测模型预测患者术后3年生存率分别为51.03%和27.52%(x2=12.762,P<0.05).随着肿瘤最大直径增加,2种模型预测患者生存率差异增大.验证集中,随机森林机器学习算法预测模型预测患者术后3年总体生存AUC为0.723,COX列线图预测模型预测患者术后3年总体生存AUC为0.795,两者比较,差异有统计学意义(t=3.353,P<0.05).采用Bootstrap交叉验证结果显示:随机森林机器学习算法预测模型和COX列线图预测模型预测3年生存的整合Brier得分分别为0.139、0.134,COX列线图预测模型预测误差低于随机森林机器学习算法预测模型.结论 与机器学习算法预测模型比较,COX列线图预测模型预测肝细胞癌术后3年生存性能更佳,且其变量少,易于临床使用.
推荐文章
术前凝血功能指标对HBV相关肝细胞癌术后生存状况的评估价值
肝细胞癌
预后
凝血酶原时间
国际标准化比值
纤维蛋白原
术前预后营养指数在评价肝细胞癌患者术后生存预后中的价值
肝细胞癌
营养预后指数
病理学,临床
预后
肿瘤负荷评分在肝细胞癌患者预后预测中的价值
肝细胞癌
肿瘤负荷评分
肝切除术
预后
皮革胃患者术后生存情况预测的列线图模型研究
胃肿瘤
皮革样胃
列线图
危险性评估
预后
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 机器学习算法和COX列线图在肝细胞癌术后生存预测中的应用价值
来源期刊 中华消化外科杂志 学科
关键词 肝肿瘤 预后模型 机器学习 COX 数据挖掘
年,卷(期) 2020,(2) 所属期刊栏目 论著
研究方向 页码范围 166-178
页数 13页 分类号
字数 语种 中文
DOI 10.3760/cma.j.issn.1673-9752.2020.02.009
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (186)
共引文献  (86)
参考文献  (23)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(4)
  • 参考文献(0)
  • 二级参考文献(4)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(7)
  • 参考文献(0)
  • 二级参考文献(7)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(8)
  • 参考文献(0)
  • 二级参考文献(8)
2006(6)
  • 参考文献(1)
  • 二级参考文献(5)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(9)
  • 参考文献(0)
  • 二级参考文献(9)
2009(17)
  • 参考文献(0)
  • 二级参考文献(17)
2010(13)
  • 参考文献(0)
  • 二级参考文献(13)
2011(14)
  • 参考文献(0)
  • 二级参考文献(14)
2012(8)
  • 参考文献(2)
  • 二级参考文献(6)
2013(18)
  • 参考文献(2)
  • 二级参考文献(16)
2014(37)
  • 参考文献(2)
  • 二级参考文献(35)
2015(14)
  • 参考文献(4)
  • 二级参考文献(10)
2016(7)
  • 参考文献(2)
  • 二级参考文献(5)
2017(4)
  • 参考文献(2)
  • 二级参考文献(2)
2018(12)
  • 参考文献(4)
  • 二级参考文献(8)
2019(3)
  • 参考文献(3)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
肝肿瘤
预后模型
机器学习
COX
数据挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中华消化外科杂志
月刊
1673-9752
11-5610/R
大16开
重庆市沙坪坝区高滩岩30号
78-117
2002
chi
出版文献量(篇)
4157
总下载数(次)
30
总被引数(次)
31731
论文1v1指导