摘要:
背景与目的:胰腺癌具有早期阶段的检测率低,远处转移风险高,以及化疗的效果较差等特点,大多数患者的预后不良,因而开发早期诊断胰腺癌的工具意义重大.本研究利用生物信息学及机器学习的方法,筛选可用于鉴别样本类型的血清miRNA,并构建聚类树.方法:从GEO数据库下载GSE113486及GSE85589的血清miRNA表达谱及分组信息,利用ComBat函数移除批次效应,通过LASSO回归筛选出用于鉴别肿瘤与非肿瘤样本的关键miRNA,基于关键miRNA,利用rpart函数构建决策树.ROC曲线用于评价决策树的预测效果,Wilcoxon检验用于比较决策树观测指标在肿瘤及正常组样本中的表达差异.最后,利用miRDB、miRTarBsae及TargetScan预测关键miRNA的靶向mRNA,并行富集分析.结果:去除批次效应后,共119例健康对照和128例胰腺癌样本的血清miRNA表达谱纳入研究,进行LASSO回归分析,采用10倍交叉验证,筛选出33个miRNA,进一步将样本随机分为训练集(60%)和测试集(40%).在训练集中,将33个miRNA用于构建决策树,通过剪枝,最后保留miR-4532和miR-4668-5p作为决策树的观测指标.ROC曲线评价结果显示,训练集中曲线下面积(AUC)为0.948 1,测试集中AUC为0.902 4.且miR-4532和miR-4668-5p在胰腺癌血清样本高表达,与正常血清样本中的表达量相比具有统计学差异(P<0.05).预测到6个miR-4532靶mRNA,73个miR-4668-5p靶mRNA,它们可能与转录调节复合物、核染色质、转录阻遏物复合体、巨核细胞分化的调控、黏着剂组装、细胞-底物连接组织、巨核细胞分化、黏着斑组装的负调节等功能有关;主要富集于癌症中的转录失调、FoxO、黏附连接、胰腺癌、乙型肝炎、肝细胞癌、TGF-β,MAPK等信号通路中.结论:miR-4532和miR-4668-5p所构建的决策树在区分正常与胰腺癌血清样本中具有良好的效果,对于胰腺癌的早期诊断有一定的价值.