D2D(Device to Device)通信可实现距离相近的用户设备直接通信,有效地提升系统的吞吐量,获得高频谱效率和能量效率,但D2 D通信共享蜂窝网络频谱资源时,会造成蜂窝网络与D2 D链路严重的层间干扰.为减少层间干扰带来的影响,提出一种基于Q学习的联合资源分配与功率控制算法.从Q学习的角度来构建数学模型,将蜂窝网络中的多个D2 D用户对视为多智能体学习者,利用历史状态(历史吞吐量和功率值),不需要精确的信道状态信息(Channel State Information,CSI)和互干扰等先验知识,通过Q学习算法,学习得到分布式的信道选择和功率控制的联合最优策略.可以动态调整D2 D用户功率,在保证蜂窝用户服务质量的前提下,通过D2 D功率控制获得最大化系统吞吐量.仿真结果表明,基于Q学习的联合资源分配与功率控制的算法有效提高了系统的吞吐量.