基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性.
推荐文章
数据库查询中结果大小估计的研究
查询结果大小
估计
直方图
连接运算
用Capture-Recapture方法估计Web数据库大小
大小估计
深网
网络数据库
露天煤矿地质数据库的开发及应用
露天矿
地质
数据库
ACCESS
宝钢水质数据库的建立及应用
水质
数据库
网络化管理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 劣质数据库上阈值相似连接结果大小估计
来源期刊 计算机学报 学科 工学
关键词 代价估计 采样估计 劣质数据 数据质量 阈值
年,卷(期) 2012,(10) 所属期刊栏目
研究方向 页码范围 2159-2168
页数 分类号 TP311
字数 10462字 语种 中文
DOI 10.3724/SP.J.1016.2012.02159
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王宏志 哈尔滨工业大学计算机科学与技术学院 69 557 12.0 21.0
2 张岩 哈尔滨工业大学计算机科学与技术学院 81 496 11.0 20.0
3 杨龙 哈尔滨工业大学计算机科学与技术学院 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (7)
同被引文献  (19)
二级引证文献  (104)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(9)
  • 引证文献(3)
  • 二级引证文献(6)
2015(15)
  • 引证文献(0)
  • 二级引证文献(15)
2016(15)
  • 引证文献(1)
  • 二级引证文献(14)
2017(23)
  • 引证文献(1)
  • 二级引证文献(22)
2018(27)
  • 引证文献(0)
  • 二级引证文献(27)
2019(14)
  • 引证文献(0)
  • 二级引证文献(14)
2020(6)
  • 引证文献(0)
  • 二级引证文献(6)
研究主题发展历程
节点文献
代价估计
采样估计
劣质数据
数据质量
阈值
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导