在城市轨道交通列车通信系统中,车车(Train-to-Train,T2T)通信是以列车为中心的新一代列控系统通信模式.与传统的以地面控制设备为中心的车地(Train-to-Ground,T2G)通信模式相比,T2T能降低系统的复杂度以及通信时延,提升列车运行效率.但为保障列车运行的安全性,当前的城市轨道交通列车通信系统中,车车通信与车地通信是并存的.为解决车车通信与车地通信并存场景下,通信链路资源复用引起的干扰问题,论文基于深度强化学习算法,提出了一种智能频谱共享方法.该方法以车车通信链路作为智能体,将频谱共享建模为多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)模型.同时,由于传统深度强化学习对经验池的依赖,为提高经验池的稳定性,引入了能表征智能体行动轨迹的低维指纹信息.在该方法中,多个智能体采用分布式协作的方式与列车所处的通信环境进行交互,以此来迭代优化神经网络参数,使智能体获得的累计奖励不断提升直至收敛.最后,利用训练好的深度强化学习模型,智能体能够联合选择最佳的通信频谱和传输功率.在Python环境下的仿真结果表明:相较于传统的深度强化学习算法,论文提出的算法不但能够使系统信道容量接近最大信道容量,而且能使数据传输的成功率保持在90%以上,极大地提升了列车运行的安全性.