在高性能计算领域,拥有强大浮点计算能力的协处理器正在快速发展.近年来,利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题.在GPU集群上实现了三维UPML-FDTD算法并进行了优化.采用电偶极子激励源对算法的模拟结果同解析解进行了验证,结果表明该算法具有较高的精度;同时,在NVIDIA Tesla M2070和K20m GPU集群上对FDTD算法的性能进行测试,对优化前后的计算结果以及GPU与CPU的计算性能进行了比较,并使用80块NVIDIA Tesla K20m GPU进行了可扩展性测试.从本文的研究结果可以看出,经过优化的FDTD算法性能有了较大的提升,而且FDTD算法在GPU集群上获得了比较理想的并行效率.