近年来,随着互联网的快速普及,网络社交媒体蓬勃发展。其中,博客(Web blog)可以方便快捷地提供交互式且动态更新的沟通渠道,受到公众的广泛欢迎。博客这类社交媒体由于受众面广,发布的内容覆盖各种场景,其蕴含的大量信息具有极高的挖掘价值,可应用于教育、统计、科研等多个领域。与此同时,不法分子看到了可以在高搜索词条相关的博客中链接广告的经济利益,采用机器自动生成或恶意剽窃他人内容的方式产生大量垃圾博客(spam blog or splog),严重降低了博客的检索质量,浪费了网络和存储资源。为净化博客世界的网络生态,垃圾微博自动识别和过滤具有十分重要的研究意义。