基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高.
推荐文章
基于长度过滤和动态容错的SNM改进算法
数据清洗
相似重复记录
SNM算法
动态容错
字段匹配
基于长度过滤和动态容错的SNM改进算法
数据清洗
相似重复记录
SNM算法
动态容错
字段匹配
基于长度过滤和有效权值的SNM改进算法
相似重复记录
数据清洗
有效权值
SNM算法
基于伸缩窗口和等级调整的SNM改进方法
数据清洗
相似重复记录
变步长伸缩窗口
动态调整等级
基本邻近排序算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模糊综合评判和长度过滤的SNM改进算法
来源期刊 武汉工程大学学报 学科 工学
关键词 相似重复记录 模糊综合评判 属性 长度过滤 SNM 算法
年,卷(期) 2017,(4) 所属期刊栏目 机电与信息工程
研究方向 页码范围 403-408
页数 6页 分类号 TP311
字数 4556字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郭文龙 福建江夏学院电子信息科学学院 21 57 4.0 7.0
2 董建怀 福建江夏学院电子信息科学学院 6 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (123)
共引文献  (45)
参考文献  (13)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(5)
  • 参考文献(1)
  • 二级参考文献(4)
2001(6)
  • 参考文献(0)
  • 二级参考文献(6)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(7)
  • 参考文献(0)
  • 二级参考文献(7)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(19)
  • 参考文献(0)
  • 二级参考文献(19)
2008(12)
  • 参考文献(0)
  • 二级参考文献(12)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(24)
  • 参考文献(3)
  • 二级参考文献(21)
2011(8)
  • 参考文献(1)
  • 二级参考文献(7)
2012(9)
  • 参考文献(0)
  • 二级参考文献(9)
2013(9)
  • 参考文献(2)
  • 二级参考文献(7)
2014(6)
  • 参考文献(3)
  • 二级参考文献(3)
2015(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
相似重复记录
模糊综合评判
属性
长度过滤
SNM
算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
武汉工程大学学报
双月刊
1674-2869
42-1779/TQ
大16开
武汉市江夏区流芳大道特1号,武汉工程大学流芳校区,西北区1号楼504学报编辑部收
1979
chi
出版文献量(篇)
3719
总下载数(次)
13
总被引数(次)
21485
相关基金
福建省自然科学基金
英文译名:Natural Science Foundation of Fujian Province of China
官方网址:http://www.fjinfo.gov.cn/fz/zrjj.htm
项目类型:重大项目
学科类型:
论文1v1指导