社交网站作为网络舆情的有效载体,在传播舆情方面有着重要作用.近年迅猛发展起来的微博就是一种典型的社交网站.本文针对微博类网站设计了支持Ajax(Asynchronous JavaScript and XML)技术的网络爬虫,采用协议驱动和事件驱动结合的采集策略,将爬取分为用户爬取和内容爬取两部分,使用基于模板的抽取方法,实现了对微博数据的成功抽取和存储.抽样结果证明,支持Ajax技术的网络爬虫,较BFS爬虫相比,提高了信息采集的效率和覆盖率.随着DOM Tree复杂度的提高,还有待于设计更高灵活性的网络爬虫.