基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着测序技术的不断发展,产生了海量的基因组测序数据,极大地丰富了公共遗传数据资源.同时为了应对大量基因组数据的产生,基因组比较和注释算法、工具不断更新,使得联合多种注释工具得到更准确的蛋白编码基因的注释信息成为可能.目前公共数据库的原核生物基因组测序和装配有些是10多年前的,存在大量预测的功能未知的编码基因.为了提升美国国家生物信息中心(National Center for Biotechnology Information,NCBI)数据库中基因组的注释质量,本研究联合使用多种原核基因识别算法/软件和基因表达数据重注释1587个细菌和古细菌基因组.首先,利用Z曲线的33个变量从177个基因组原注释中识别获得3092个被过度注释为蛋白编码基因的序列;其次,通过同源比对为939个基因组中的4447个功能未知的蛋白编码基因注释上具体功能;最后,通过联合采用ZCURVE 3.0和Glimmer 3.02以及Prodigal这3种高精度的、广泛使用且基于算法不同而互补的基因识别软件来寻找漏注释基因.最终,从9个基因组中找到了2003个被漏注释的蛋白编码基因,这些基因属于多个蛋白质直系同源簇(clusters of orthologous groups of proteins,COG).本研究使用新的工具并结合多组学数据重新注释早期测序的细菌和古细菌基因组,不仅为新测序菌株提供注释方法参考,而且这些重注释后得到的细菌基因序列也会对后续基础研究有所帮助.
推荐文章
基于形态特征的测井曲线相似性搜索研究
时间序列
测井曲线
形态特征
活度分析
基于安全多方计算的分布式基因序列相似性计算
编辑距离
安全多方计算
信息安全
基因序列对比
隐私保护分析
分布式计算
新型时间序列相似性度量方法研究
时间序列
相似性度量
数据挖掘
符号化
基于涨落模式的时间序列相似性度量研究
时间序列
涨落模式
相似变形
相似性度量
分类
鲁棒性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于序列相似性和Z曲线方法重注释原核生物蛋白编码基因
来源期刊 遗传 学科
关键词 细菌 重注释 Z曲线 假定ORFs 非蛋白编码ORFs
年,卷(期) 2020,(7) 所属期刊栏目 研究报告
研究方向 页码范围 691-702
页数 12页 分类号
字数 8372字 语种 中文
DOI 10.16288/j.yczz.20-022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曾志 电子科技大学生命科学与技术学院 9 23 3.0 4.0
2 曾凡才 西南医科大学基础医学院分子生物与生物化学教研室 7 2 1.0 1.0
3 刘硕 电子科技大学生命科学与技术学院 4 2 1.0 1.0
4 杜萌泽 西南医科大学基础医学院分子生物与生物化学教研室 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (1)
参考文献  (38)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1900(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(2)
  • 参考文献(2)
  • 二级参考文献(0)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(3)
  • 参考文献(3)
  • 二级参考文献(0)
2012(5)
  • 参考文献(4)
  • 二级参考文献(1)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(4)
  • 参考文献(3)
  • 二级参考文献(1)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2017(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(3)
  • 参考文献(2)
  • 二级参考文献(1)
2019(4)
  • 参考文献(4)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
细菌
重注释
Z曲线
假定ORFs
非蛋白编码ORFs
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
遗传
月刊
0253-9772
11-1913/R
大16开
北京朝阳区北辰西路1号院
2-810
1979
chi
出版文献量(篇)
3898
总下载数(次)
19
论文1v1指导