摘要:
目的 构建新型抗纤维化中药化合物虚拟筛选预测模型, 并对模型的预测性能进行验证.方法 通过对比使用随机森林与梯度提升决策树算法, 实现化合物分子指纹的降维与特征优化.构建"特征优化-机器学习"的混合模型, 将优化的特征作为输入分别送入逻辑回归、人工神经网络机器学习算法进行训练.使用准确率、召回率、F1值对不同组合的模型进行性能评价.根据模型性能结果确定抗纤维化中药化合物虚拟筛选预测模型.随后, 对比此模型和分子对接模型对中药化合物的抗纤维化活性预测结果, 进一步验证该模型的预测性能.结果 随机森林模型准确率0.76, 召回率0.75, F1值0.74, 曲线下面积 (AUC) 值0.818;梯度提升决策树模型准确率0.76, 召回率0.74, F1值0.72, AUC值0.829;人工神经网络模型准确率0.75, 召回率0.75, F1值0.75, AUC值0.802;随机森林+逻辑回归模型准确率0.77, 召回率0.76, F1值0.75, AUC值0.840;随机森林+人工神经网络模型准确率0.74, 召回率0.84, F1值0.79, AUC值0.850;梯度提升决策树+逻辑回归模型准确率0.80, 召回率0.80, F1值0.79, AUC值0.872;梯度提升决策树+人工神经网络模型准确率0.73, 召回率0.91, F1值0.81, AUC值0.837.中药化合物姜黄素、甘草酸、羟基红花黄色素A、大黄素、绞股蓝皀苷分子对接活性结果与本模型预测结果一致.结论 梯度提升决策树+逻辑回归模型表现较其他模型准确.通过对比该模型与分子对接模型, 进一步确认了该模型在中药化合物预测方面的稳定性;且本模型具有高通量筛选的特性, 可以弥补分子对接在筛选化合物效率方面的不足, 可作为抗纤维化中药化合物虚拟筛选预测的新方法.