平行机调度问题在工业界有着广泛应用,实际生产中瓶颈工序的调度很多属于这类问题.运用增强学习算法来研究以最小化作业的加权平均滞留时间为目标的动态平行机调度问题Qm I rj,sjk,Mj I ∑wjfj,考虑与作业顺序相关的转换时间和机器-作业资格约束.为了把调度问题转化为增强学习问题,定义了系统状态的表示方式,利用加权最短加工时间优先(WSPT)规则、Weng算法、排名(RA)算法和LFJ-RA(Least Flexible Job-Ranking Algorithm)算法构造行为,定义了与调度目标函数等价的报酬函数,并采用结合函数泛化器的Q学习算法来解决.实验表明Q学习算法对每个测试问题的调度结果都优于WSPT规则、排名算法、LFJ-RA算法和Weng算法.