原文服务方: 现代电子技术       
摘要:
研究大型数据库重复记录检测与优化,利用Jaro算法以及TF-IDF算法计算大型数据库不同记录字段相似度量函数,所获取字段相似度量函数作为记录特征向量,经过人工标记后设置为BP神经网络期望输出.构建BP神经网络学习样本,设置变参数量子粒子群初始连接权值与阈值作为粒子,利用BP神经网络依据学习训练样本获取量子粒子群适应度函数值,确定粒子此刻最优位置以及全局最优位置.将全局最优位置粒子设置为BP神经网络初始连接阈值以及权值,重复更新粒子位置,利用所获取训练集学习结果建立大型数据库重复记录检测模型,检测模型输出结果大于检测门限值时,该记录为大型数据库内重复记录,否则为非重复记录.实验结果表明,采用该方法检测包含100000条记录的大型数据库,检测召回率以及准确率均高于98.5%.
推荐文章
关系数据库中近似重复记录的识别
数据清理
重复记录识别
字符串匹配
数据仓库
基于内码序值聚类的相似重复记录检测方法
相似重复记录
内码序值
聚类
等级法
改进量子粒子群算法优化神经网络的数据库重复记录检测
数据库
重复记录
神经网络
量子粒子群优化算法
时变参数
一种基于VSM的检测相似重复记录的方法
空间向量模型
聚类
相似重复记录
权重
优先队列
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大型数据库重复记录检测与优化研究
来源期刊 现代电子技术 学科
关键词 大型数据库 重复记录检测 重复记录优化 学习样本构建 最优位置确定 权值设置
年,卷(期) 2020,(17) 所属期刊栏目 网络与信息安全
研究方向 页码范围 77-81
页数 5页 分类号 TN911.1-34|TP311
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2020.17.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 覃少华 25 88 5.0 8.0
2 唐吉深 9 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (156)
共引文献  (33)
参考文献  (15)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1963(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(2)
  • 参考文献(0)
  • 二级参考文献(2)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(7)
  • 参考文献(0)
  • 二级参考文献(7)
2013(8)
  • 参考文献(0)
  • 二级参考文献(8)
2014(11)
  • 参考文献(0)
  • 二级参考文献(11)
2015(9)
  • 参考文献(0)
  • 二级参考文献(9)
2016(25)
  • 参考文献(0)
  • 二级参考文献(25)
2017(16)
  • 参考文献(2)
  • 二级参考文献(14)
2018(18)
  • 参考文献(5)
  • 二级参考文献(13)
2019(10)
  • 参考文献(8)
  • 二级参考文献(2)
2020(1)
  • 参考文献(0)
  • 二级参考文献(1)
2020(1)
  • 参考文献(0)
  • 二级参考文献(1)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大型数据库
重复记录检测
重复记录优化
学习样本构建
最优位置确定
权值设置
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导