随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为 DNS 解析以及 url 去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存 DNS 并将 DNS 解析的效率相对于普通不做 DNS 优化的爬虫提高了2.5~3倍。再将 MD5加密算法以及树相结合设计出一种基于 MD5的 url 去重树,理论上使得 url 去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于 O (1)。最终通过实验证明了该设计的数据结构较为良好。