基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
由于XML文档越来越广泛地被用于信息交换与集成,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.当实体识别被应用于XML数据中时,最为关键的操作是实体数据对象的匹配.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,文中提出一种基于实体描述属性技术的高效XML重复数据对象检测方法.它将所有标签属性与结点统称为属性,用实体来描述属性,通过属性的属性结点表的构建,快速地找到在某个属性上相同的所有实体对象,然后比较它们是否重复.此方法的优势体现在无需比较所有实体对象,只需要比较在属性结点表中同一位置的结点,大大节省了时间.此外,我们提出的Max-Merge算法,在兼顾相似对象传递性与独立性的基础之上,将所有相似对象进行聚类,大大提高了算法的精确率与召回率.
推荐文章
基于XML的CAPP数据描述技术研究
XML
CAPP
系统集成
工艺数据
基于XML的AI-ESTATE诊断信息描述实现方法研究
AI-ESTATE
XML模式
故障诊断
信息描述
公共元素模型
基于面向对象技术的孔特征信息描述
特征
信息描述
面向对象
数据结构
基于RDF/XML的网格资源分层描述
资源分层描述
元数据
词汇表
RDF
XML
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于实体描述属性技术的XML重复对象检测方法
来源期刊 计算机学报 学科 工学
关键词 XML 数据集成 数据质量 实体识别
年,卷(期) 2011,(11) 所属期刊栏目
研究方向 页码范围 2131-2141
页数 分类号 TP311
字数 8922字 语种 中文
DOI 10.3724/SP.J.1016.2011.02131
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李建中 哈尔滨工业大学计算机学院 237 6003 33.0 72.0
2 王宏志 哈尔滨工业大学计算机学院 69 557 12.0 21.0
3 高宏 哈尔滨工业大学计算机学院 109 1574 18.0 36.0
4 李亚坤 哈尔滨工业大学计算机学院 2 14 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (2)
参考文献  (5)
节点文献
引证文献  (12)
同被引文献  (15)
二级引证文献  (23)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(3)
  • 引证文献(3)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(13)
  • 引证文献(2)
  • 二级引证文献(11)
2016(5)
  • 引证文献(1)
  • 二级引证文献(4)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
XML
数据集成
数据质量
实体识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导