基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进.改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性.
推荐文章
关系数据库中近似重复记录的识别
数据清理
重复记录识别
字符串匹配
数据仓库
数据清理及其在数据仓库中的应用
数据仓库
数据清理
模式冲突
FTL(Extraction,Transformation,Loading)
大型数据库重复记录检测与优化研究
大型数据库
重复记录检测
重复记录优化
学习样本构建
最优位置确定
权值设置
一种使用双阈值的数据仓库环境下重复记录消除算法
重复记录消除
数据仓库
外键参照
双阈值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 数据仓库中重复记录清理算法研究
来源期刊 微型机与应用 学科 工学
关键词 数据清理 重复记录清理 重复记录识别 数据仓库
年,卷(期) 2009,(7) 所属期刊栏目 软件天地
研究方向 页码范围 4-6
页数 3页 分类号 TP311.13
字数 2661字 语种 中文
DOI 10.3969/j.issn.1674-7720.2009.07.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钟嘉庆 燕山大学电气工程学院 19 188 8.0 13.0
2 卢志刚 燕山大学电气工程学院 103 1880 24.0 39.0
3 张义芳 燕山大学电气工程学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (38)
参考文献  (6)
节点文献
引证文献  (6)
同被引文献  (22)
二级引证文献  (6)
1993(2)
  • 参考文献(1)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(4)
  • 参考文献(2)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2009(2)
  • 引证文献(2)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(0)
  • 二级引证文献(1)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
数据清理
重复记录清理
重复记录识别
数据仓库
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息技术与网络安全
月刊
2096-5133
10-1543/TP
大16开
北京市海淀区清华东路25号(北京927信箱)
82-417
1982
chi
出版文献量(篇)
10909
总下载数(次)
33
总被引数(次)
35987
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导