垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的 Web 信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。