应用随机森林方法、开放源代码软件-CDK(Chemistry Development Kit)描述符与170个化合物的训练数据集[其中96个为磷糖蛋白(P-gp)底物],建立了P-gp底物的识别模型.研究了CDK描述符与P-gp底物识别的关系,结果表明,原子极化性和电荷偏面积等分子属性对P-gp底物识别起到重要作用.该模型对训练集的预测正确率为99.42%;对外部测试集(42个化合物,其中24个为P-gp底物)的预测结果为P-gp底物、非底物及总测试集的识别正确率分别为87.50%,83.33%和85.71%.212个化合物数据集上的Leave-One-Out交叉验证识别正确率为77.4%.