基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在DNA序列中查找重复片段是基因序列分析的一个重要课题.由于重复片段的模式长度范围较大,所以仅使用编辑距离(edit distance)很难良好的衡量序列的相似性.提出了衡量重复片段相似性的新标准,新标准表达了序列间的距离与序列中相同部分的关系.考虑到计算的复杂性,基于频率向量提出了新的距离函数PFD(partition frequency distance)以及相应的过滤函数,用以产生重复片段的候选集,提高查找算法的效率.采用后继数组代替滑动窗口的方法进行序列划分,避免只可在等长的片段上查找重复片段的限制.实验结果表明,与TRF(tandem repeat finder)方法相比,基于PFD过滤函数的算法可以找到更多的满足相似性要求的重复片段.
推荐文章
基于信息量的DNA序列相似性分析
DNA序列比较
数据库系统
信息量
相似性
基于DNA序列混沌游戏表示的相似性分析
DNA序列
混沌游戏表示
测度
相关距离
相似性分析
基于分割的字符串相似性查找算法
字符串相似性查找
阈值
top-k
分割
编辑距离
基于拉普拉斯矩阵的DNA序列集相似性分析
拉普拉斯矩阵
启动子
DNA序列
相似性度量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于PFD过滤器查找DNA序列中相似性重复片段
来源期刊 计算机研究与发展 学科 工学
关键词 DNA序列 相似性重复片段 编辑距离 频率距离 Pearson相关性
年,卷(期) 2007,(z3) 所属期刊栏目 工作流、电子政务/商务、数据仓库、数据库应用
研究方向 页码范围 521-528
页数 8页 分类号 TP391
字数 8420字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王国仁 东北大学信息科学与工程学院 228 2804 25.0 45.0
2 郭烨 5 8 2.0 2.0
3 胡大斌 4 4 1.0 1.0
4 汪恒杰 6 21 2.0 4.0
5 吴青泉 7 46 4.0 6.0
9 王镝 2 1 1.0 1.0
10 朱铭杰 上海市人民政府经济委员会信息中心 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (1)
参考文献  (7)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(4)
  • 参考文献(2)
  • 二级参考文献(2)
2003(2)
  • 参考文献(2)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
DNA序列
相似性重复片段
编辑距离
频率距离
Pearson相关性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导