基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
推荐文章
基于内码序值聚类的相似重复记录检测方法
相似重复记录
内码序值
聚类
等级法
一种基于VSM的检测相似重复记录的方法
空间向量模型
聚类
相似重复记录
权重
优先队列
基于改进型遗传神经网络的相似重复记录检测
相似重复记录
遗传算法
神经网络
数据清洗
大型数据库重复记录检测与优化研究
大型数据库
重复记录检测
重复记录优化
学习样本构建
最优位置确定
权值设置
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于划分的海量数据相似重复记录检测
来源期刊 计算机系统应用 学科
关键词 数据质量 数据清洗 相似重复记录 划分 SNM算法
年,卷(期) 2019,(3) 所属期刊栏目 软件技术·算法
研究方向 页码范围 172-178
页数 7页 分类号
字数 6097字 语种 中文
DOI 10.15888/j.cnki.csa.006835
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李莉 江苏大学计算机科学与通信工程学院 34 139 7.0 11.0
2 张晓雯 江苏大学计算机科学与通信工程学院 2 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (50)
共引文献  (26)
参考文献  (10)
节点文献
引证文献  (1)
同被引文献  (2)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(2)
  • 参考文献(0)
  • 二级参考文献(2)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
2001(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(12)
  • 参考文献(0)
  • 二级参考文献(12)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(6)
  • 参考文献(1)
  • 二级参考文献(5)
2013(7)
  • 参考文献(2)
  • 二级参考文献(5)
2014(4)
  • 参考文献(0)
  • 二级参考文献(4)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据质量
数据清洗
相似重复记录
划分
SNM算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导