基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE).首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率.实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%.该方法已应用于林业黄页系统中,取得了较好的应用效果.
推荐文章
公共云存储中私密数据的去重删除研究
公共云存储
私密数据
去重删除
语义
基于 Web Se rvices数据整合系统的研究
数据整合
Web Services
星型结构
数据广播中的信息业务整合
数据广播
信息业务
整合
机顶盒
基于Bloom Filter的去重方法研究
信息超载
个性化推荐系统
Bloom Filter
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web信息整合中的数据去重方法
来源期刊 计算机应用 学科 工学
关键词 Web信息整合 相似重复记录 动态权重 模糊实体匹配
年,卷(期) 2013,(9) 所属期刊栏目 数据库技术
研究方向 页码范围 2493-2496
页数 4页 分类号 TP311.13
字数 5382字 语种 中文
DOI 10.11772/j.issn.1001-9081.2013.09.2493
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 武刚 北京林业大学信息学院 34 438 9.0 20.0
2 邓厚平 北京林业大学信息学院 2 11 2.0 2.0
3 刘雪琼 北京林业大学信息学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (57)
共引文献  (69)
参考文献  (9)
节点文献
引证文献  (6)
同被引文献  (14)
二级引证文献  (7)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(2)
  • 参考文献(0)
  • 二级参考文献(2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(8)
  • 参考文献(0)
  • 二级参考文献(8)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(8)
  • 参考文献(3)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(7)
  • 参考文献(1)
  • 二级参考文献(6)
2008(9)
  • 参考文献(2)
  • 二级参考文献(7)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(4)
  • 引证文献(3)
  • 二级引证文献(1)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
Web信息整合
相似重复记录
动态权重
模糊实体匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导