摘要:
以10年以上树龄的杜仲雌株当年新发枝条上的幼果、嫩芽、叶片和树皮和雄株新发枝条上嫩芽、叶片和树皮为材料,采用 Illumina HiSeqTM 2000高通量测序技术进行转录组测序,获得雌株51,574,000条、雄株52,430,502条Clean Reads数据,分别包含总长度为4,641,660,000nt和4,718,745,180nt核苷酸序列数据信息;经拼接组装,获得雌株基因信息长达69,461,730nt 的423,339个 Contig 片段,获得雄株基因信息长达94,814,201nt的542,383个Contig片段;经进一步拼接,分别获得平均长度为288nt的雌株159,434个Unigene片段和平均长度为231nt的雄株257,288个 Unigene 片段,共有48,761个表达序列标签( EST)。以 BLAST ( E -value ≦1.0E-5)将Unigene 对NR、NT、KEGG和COG数据库进行比对,获得CDS序列35,541条,再通过ESTscan分析获得CDS片段13,220条,共获得48,761条CDS片段。与NR数据库比对发现杜仲雌、雄株转录组Unigene与葡萄相似序列最多(33.8%),其次是蓖麻(11.4%)和杨树(11.2%),与拟南芥的相似序列仅2.3%;根据Unigene与COG数据库比对结果,可将有COG功能的7,571条 Unigene分为24类,而根据GO数据库注释,杜仲转录组有GO功能注释的23,314条Unigene可分为生物过程、细胞组分和分子功能3大类55分支。与KEGG数据库比对,杜仲雌、雄株转录组17,468条Ungenes分属128类代谢通路,其中有2,399条属于次生物质代谢途径,314条参与萜类化合物生物合成途径。