基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).
推荐文章
基于斜率偏离的时间序列相似性搜索方法研究
时间序列
斜率偏离
相似性搜索
浮动索引
时间序列的快速相似性搜索改进算法
相似性挖掘
时间序列
数据挖掘
基于MapRed uce的增量式数据集的相似性连接
海量增量式数据集
划分
相似性连接
MapReduce
基于信息量的DNA序列相似性分析
DNA序列比较
数据库系统
信息量
相似性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于参考集索引的高效序列相似性查找算法
来源期刊 软件学报 学科 工学
关键词 序列相似性查找 参考集索引 编辑距离
年,卷(期) 2010,(4) 所属期刊栏目 数据库技术
研究方向 页码范围 718-731
页数 14页 分类号 TP311
字数 15134字 语种 中文
DOI 10.3724/SP.J.1001.2010.03610
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱扬勇 复旦大学计算机科学技术学院 91 3435 25.0 58.0
2 熊赟 复旦大学计算机科学技术学院 26 277 7.0 16.0
3 戴东波 复旦大学计算机科学技术学院 6 156 5.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (55)
共引文献  (31)
参考文献  (13)
节点文献
引证文献  (10)
同被引文献  (29)
二级引证文献  (32)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(1)
  • 参考文献(1)
  • 二级参考文献(0)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(2)
  • 参考文献(1)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(1)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(4)
  • 参考文献(1)
  • 二级参考文献(3)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1993(2)
  • 参考文献(1)
  • 二级参考文献(1)
1994(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(4)
  • 参考文献(0)
  • 二级参考文献(4)
1997(4)
  • 参考文献(1)
  • 二级参考文献(3)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(6)
  • 参考文献(1)
  • 二级参考文献(5)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(6)
  • 参考文献(1)
  • 二级参考文献(5)
2002(3)
  • 参考文献(1)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(8)
  • 参考文献(0)
  • 二级参考文献(8)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(4)
  • 引证文献(2)
  • 二级引证文献(2)
2014(4)
  • 引证文献(2)
  • 二级引证文献(2)
2015(10)
  • 引证文献(0)
  • 二级引证文献(10)
2016(9)
  • 引证文献(3)
  • 二级引证文献(6)
2017(7)
  • 引证文献(0)
  • 二级引证文献(7)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
序列相似性查找
参考集索引
编辑距离
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导