海量无线终端设备的接入时频谱资源匮乏日益突出,这促进了现代无线通信技术的革新.这种情况下,一种名为机会频谱接入(O S A)的技术允许网络中的次级用户短暂接入空闲信道进行数据传输,为提升频谱利用率提供了新思路.然而OSA技术实施也面临一些挑战.本文应用一种名为多臂赌博机(MAB)的强化学习架构解决全局信息未知时的信道接入问题,机器设备通过不断接入不同的信道传输数据动态评估信道优劣,将过去获得的信道统计信息作为未来信道接入的依据,通过上置信度算法(UCB)求解这一问题,可以实现探索与利用之间的权衡.