在油气管道系统中,受数据保密性高、数据采集技术不完善、异常工况发生频率低等因素制约,利用管输数据集进行机器学习模型训练,效果不理想.基于此,以某原油管道为例,分析管输能耗,利用Pipeline Studio TLNET软件对输油泵机组耗电量进行仿真,扩充训练数据集.针对管输仿真样本无真实值对照、特征关联、高维等特点,提出一种基于马氏距离的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,用于评价仿真样本的可靠度,识别异常仿真数据.基于仿真样本与现场数据样本的机器学习模型训练结果表明,剔除异常数据的仿真样本能够提升模型的拟合能力,由此为管输数据仿真样本的生成与验证提供了新的思路.