作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
对大数据库的相似记录进行准确检测,可以检测提高数据库重复记录检测效果.对数据库中非重要数据进行删除,对剩余数据属性进行分类是相似记录检测的重要前提,但是传统方法量子粒子群算法只能对整体数据相似度特征样本进行训练,不能消除数据库中的非重要数据,增加了检测时间,降低了相似记录检测的效率.提出改进二次模糊评判的大数据库的相似记录检测方法.上述方法先依据等级法对大数据库中全部数据属性进行第一次评判,消除数据库中非重要数据属性,对剩余数据属性进行二次模糊评判,并均衡其数据属性的评判结果,对数据库的全部数据属性进行分组,在此基础上计算出各组数据集的记录字段间的相似度函数,提取记录字段相似度的特征向量,组建大数据库的相似记录检测模型,完成对大数据库的相似记录检测.仿真结果表明,所提算法可以有效地提升大数据库的相似记录检测的查准率.
推荐文章
大型数据库重复记录检测与优化研究
大型数据库
重复记录检测
重复记录优化
学习样本构建
最优位置确定
权值设置
大数据时代数据库技术研究
IT
hadoop
MPP
数据库
大数据下MongoDB数据库档案文档存储去重研究
MongoDB
MD5
大数据
档案文档去重
GridFs
物联网环境下Web数据库异常数据检测方法研究
网络信道
干扰频率
时空关联
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大数据库的相似记录检测方法研究
来源期刊 计算机仿真 学科 工学
关键词 大数据库 相似记录 检测
年,卷(期) 2017,(3) 所属期刊栏目 仿真服务化
研究方向 页码范围 410-413
页数 4页 分类号 TP393
字数 3971字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 涂静文 江西农业大学南昌商学院 7 12 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (70)
共引文献  (96)
参考文献  (10)
节点文献
引证文献  (4)
同被引文献  (16)
二级引证文献  (2)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(2)
  • 参考文献(0)
  • 二级参考文献(2)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(8)
  • 参考文献(0)
  • 二级参考文献(8)
2012(11)
  • 参考文献(0)
  • 二级参考文献(11)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(6)
  • 参考文献(5)
  • 二级参考文献(1)
2015(12)
  • 参考文献(4)
  • 二级参考文献(8)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(4)
  • 引证文献(4)
  • 二级引证文献(0)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
大数据库
相似记录
检测
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机仿真
月刊
1006-9348
11-3724/TP
大16开
北京海淀阜成路14号
82-773
1984
chi
出版文献量(篇)
20896
总下载数(次)
43
论文1v1指导