摘要:
该研究以新鲜阴地蕨全株为材料,用Illumina HiSeq 2500平台进行全转录组测序,干净序列经组装后得单一基因(Unigene),将Unigene在非冗余蛋白/核酸数据库(nonredundant protein database,NR)、核酸序列数据库(nucleotide sequence database,NT)、基因本体论数据库(gene ontology,GO)、蛋白质真核同源数据库(clusters of eukaryotic orthologous groups,COG)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)、蛋白质序列数据库SwissProt和Interpro进行生物信息学分析.结果表明:共获得干净序列6.67 Gb,组装后得到58646个Unigene,平均长度为1023 bp,Unigene在上述数据库的总体注释率为69.25%.其中,在GO数据库中,20762个基因被注释到生物功能、细胞组分和分子功能3个本体的52个功能组,COG注释了20633个基因并将其划分为25个功能簇;在KEGG数据库中,比对注释了29377个基因,可划分为5个大类、19个亚类代谢途径,据此筛选出八类植物激素信号转导相关的41个基因家族.通过比对共得到43102个编码序列(coding sequence,CDS),平均长度为749 bp,N50为1137;筛选到60个转录因子(transcript factor,TF)家族共1502个转录因子基因;共发现17195个单核苷酸多态性(single-nucleo-tide polymorphism,SNP)位点,其中碱基转换11122个,颠换6073个;发现了8245个简单序列重复(simple sequence repeat,SSR),数量最多的为二核苷酸重复和三核苷酸重复.这些结果从功能和结构方面提供了阴地蕨全转录组信息和涉及植物激素信号转导的潜在基因,为进一步深入研究阴地蕨的生长发育、遗传、品种鉴别等提供了分子生物学的基础数据.