基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的.
推荐文章
一种Deep Web数据源质量评估模型
DeepWeb
Web数据库
Web服务器
质量
一种deep web数据源下重复记录识别模型
重复记录
deep web
数据清洗
半结构化数据
基于本体的Deep Web数据源聚焦搜索系统研究
本体
Deep Web数据源
聚焦搜索
Deep Web集成系统中同类主题数据源选择方法
差异性分析
Deep Web
数据源选择
质量评估模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向Deep Web数据源的重复记录识别模型
来源期刊 电子学报 学科 工学
关键词 重复记录 深层web 数据清洗
年,卷(期) 2010,(2) 所属期刊栏目 学术论文
研究方向 页码范围 275-281
页数 7页 分类号 TP391
字数 6219字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于戈 东北大学信息科学与工程学院 426 6587 38.0 64.0
2 申德荣 东北大学信息科学与工程学院 111 1289 18.0 32.0
3 寇月 东北大学信息科学与工程学院 68 816 12.0 26.0
4 聂铁铮 东北大学信息科学与工程学院 69 854 13.0 27.0
5 刘丽楠 东北大学信息科学与工程学院 2 18 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (4)
参考文献  (5)
节点文献
引证文献  (10)
同被引文献  (10)
二级引证文献  (23)
1976(2)
  • 参考文献(1)
  • 二级参考文献(1)
1989(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(3)
  • 引证文献(2)
  • 二级引证文献(1)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(4)
  • 引证文献(0)
  • 二级引证文献(4)
2016(6)
  • 引证文献(1)
  • 二级引证文献(5)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(8)
  • 引证文献(0)
  • 二级引证文献(8)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
重复记录
深层web
数据清洗
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导