基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型假设工作负载是静态的、只读的,对于索引更新问题没有提出很好的解决办法.提出了基于中间层的可扩展的学习索引模型Dabble,用来解决索引更新引发的模型重训练问题.首先,Dabble模型利用K-Means聚类算法将数据集划分为K个区域,并训练K个神经网络分别学习不同区域的数据分布.在模型训练阶段,创新性地把数据的访问热点信息融入到神经网络中,从而提高模型对热点数据的预测精度在数据插入时,借鉴了LSM树延迟更新的思想,提高了数据写入速度.在索引更新阶段,提出一种基于中间层的机制将模型解耦,从而缓解由于数据插入带来的模型更新问题.分别在Lognormal数据集以及Weblogs数据集上进行实验验证,结果表明,与当前先进的方法相比,Dabble模型在查询以及索引更新方面都取得了非常好的效果.
推荐文章
分布式PACS通信服务中间层构造方法研究
医学影像存档与通信系统
医学数字成像与通信
中间层
互操作
构件
基于NDIS中间层驱动的高速网络设备监测技术
网络驱动程序接口规范
中间层驱动
网卡监测
数据包过滤
核心态
分布式PACS通信服务中间层构造方法研究
医学影像存档与通信系统
医学数字成像与通信
中间层
互操作
构件
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于中间层的可扩展学习索引技术
来源期刊 软件学报 学科 工学
关键词 学习索引 聚类 神经网络 动态更新
年,卷(期) 2020,(3) 所属期刊栏目
研究方向 页码范围 620-633
页数 14页 分类号 TP18
字数 10095字 语种 中文
DOI 10.13328/j.cnki.jos.005910
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 高远宁 1 0 0.0 0.0
5 叶金标 1 0 0.0 0.0
9 杨念祖 1 0 0.0 0.0
13 高晓沨 1 0 0.0 0.0
17 陈贵海 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (12)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
学习索引
聚类
神经网络
动态更新
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导