基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来.它克服了传统的"排序&合并"方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题.理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测.
推荐文章
大数据量Excel数据导入系统的设计与实现
大数据量
Excel
SQL Server
多线程
Merge
一种基于VSM的检测相似重复记录的方法
空间向量模型
聚类
相似重复记录
权重
优先队列
SaaS模式下大数据量统计框架的研究和实现
软件即为服务
数据统计
性能
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种大数据量的相似记录检测方法
来源期刊 计算机研究与发展 学科 工学
关键词 数据清洗 q-gram 相似重复记录 层次聚类
年,卷(期) 2005,(12) 所属期刊栏目 数据库技术
研究方向 页码范围 2206-2212
页数 7页 分类号 TP311.13
字数 7038字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐立臻 东南大学计算机科学与工程系 52 1042 17.0 31.0
2 董逸生 东南大学计算机科学与工程系 118 3003 29.0 49.0
3 韩京宇 东南大学计算机科学与工程系 10 188 7.0 10.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (68)
同被引文献  (85)
二级引证文献  (401)
1992(2)
  • 参考文献(2)
  • 二级参考文献(0)
2001(2)
  • 参考文献(2)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(5)
  • 引证文献(5)
  • 二级引证文献(0)
2008(11)
  • 引证文献(6)
  • 二级引证文献(5)
2009(18)
  • 引证文献(4)
  • 二级引证文献(14)
2010(27)
  • 引证文献(7)
  • 二级引证文献(20)
2011(23)
  • 引证文献(6)
  • 二级引证文献(17)
2012(19)
  • 引证文献(4)
  • 二级引证文献(15)
2013(43)
  • 引证文献(8)
  • 二级引证文献(35)
2014(41)
  • 引证文献(6)
  • 二级引证文献(35)
2015(53)
  • 引证文献(6)
  • 二级引证文献(47)
2016(43)
  • 引证文献(3)
  • 二级引证文献(40)
2017(67)
  • 引证文献(4)
  • 二级引证文献(63)
2018(62)
  • 引证文献(6)
  • 二级引证文献(56)
2019(44)
  • 引证文献(2)
  • 二级引证文献(42)
2020(13)
  • 引证文献(1)
  • 二级引证文献(12)
研究主题发展历程
节点文献
数据清洗
q-gram
相似重复记录
层次聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导