大数据蕴藏的巨大商机引发了大数据产业化浪潮,互联网数据以其庞大的数据和简单的获得方式成为了首要分析目标.得益于互联网大数据的发展,安全领域的侦查手段从传统的事后侦查和重点监控,发展到可以进行预防性分析,在某种程度上可避免危害发生.使用互联网数据进行产业化挖掘面临着两个基本问题:多源数据的解析、清洗与整合;互联网身份的实体识别.结合具体安全服务,给出了一种普适的基于M ap Reduce的互联网大数据去冗降噪的统计方法,可大幅降低数据存储空间,并在此基础上流程化地完成互联网虚拟身份识别模型.它能够量化互联网用户身份关系的可靠性和关联稳定性,并结合R语言给出了可视化展示.