基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital Bibliorgrophy & Library Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性.
推荐文章
一种基于BP神经网络的实体匹配方法
BP神经网络
实体匹配
二步检查法
异构数据库
一种基于多标记的局部离群点检测算法
机器学习
局部离群点
多标记
类别权重
一种基于多重聚类的离群点检测算法
数据挖掘
离群检测
剪枝
多重聚类
局部离群度
一种基于邻域系统密度差异度量的离群点检测算法
数据挖掘
离群点检测
基于密度
LOF
LDOF
CBOF
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于离群点检测的自动实体匹配方法
来源期刊 计算机学报 学科 工学
关键词 数据集成 实体匹配 数据质量 离群点检测 主成分分析
年,卷(期) 2017,(10) 所属期刊栏目 数据科学与工程
研究方向 页码范围 2197-2211
页数 15页 分类号 TP311
字数 11719字 语种 中文
DOI 10.11897/SP.J.1016.2017.02197
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李战怀 西北工业大学计算机学院 254 2139 21.0 35.0
2 陈群 西北工业大学计算机学院 54 495 11.0 20.0
3 刘海龙 西北工业大学计算机学院 22 178 8.0 12.0
4 樊峰峰 西北工业大学计算机学院 5 17 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (200)
参考文献  (9)
节点文献
引证文献  (11)
同被引文献  (43)
二级引证文献  (4)
1969(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(8)
  • 引证文献(5)
  • 二级引证文献(3)
2020(4)
  • 引证文献(3)
  • 二级引证文献(1)
研究主题发展历程
节点文献
数据集成
实体匹配
数据质量
离群点检测
主成分分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导