摘要:
目的:应用生物信息学筛选乳腺癌基因芯片中差异表达的长链非编码RNA(long non-coding RNA,lncRNA)并探讨其在乳腺癌中的表达情况.方法:从美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)公共基因芯片数据平台(gene expression omnibus,GEO)下载乳腺癌lncRNA基因芯片数据集GSE33447,包含8对乳腺癌组织及其对应癌旁非肿瘤组织,采用R语言Limma函数包筛选乳腺癌差异表达的lncRNA,并用Benjamini&Hochberg错误发现率(false discovery rate,FDR)对原始P值进行多重矫正,采用NONCODE生物信息学网站对lncRNAs进行重新注释,采用starbase 2.0对差异表达的lncRNAs靶基因进行靶向预测,并进一步用DAVID数据库对靶基因进行基因本体论(Gene Ontology,GO)和KEGG信号通路富集分析,最后分别选取3个高表达和3个低表达的lncRNA,采用qRT-PCR的方法验证其在乳腺癌组织中的表达.结果:与正常组织相比,乳腺癌中227个lncRNA存在明显差异表达(Fold change≥2.0,adj.P<0.05),其中135个lncRNA表达上调,92个lncRNA表达下调.采用NONCODE对227个差异表达的lncRNA重新注释后发现,47个lncRNA存在明显差异表达,其中17个lncRNA表达上调,30个lncRNA表达下调.通过GO和KEGG信号通路富集分析发现,差异表达的lncRNAs广泛地参与了基因的转录及转录后调控等生物学进程以及PI3K-Akt、Ras、TNF以及p53等信号通路.采用qRT-PCR的方法检测3个高表达(MNX1-AS1、MIAT、HOXA11-AS)和3个低表达(PGM5-AS1、LINC00908、AC226118.1)lncRNA的表达水平,发现乳腺癌组织中MNX1-AS1、MIAT和HOXA11-AS表达水平明显高于其癌旁非肿瘤对照组,而PGM5-AS1、LINC00908和AC226118.1在乳腺癌组织中的表达水平明显低于癌旁非肿瘤对照组(P值均<0.05),差异有统计学意义,其结果与基因芯片筛查结果一致.结论:使用生物信息学方法筛选乳腺癌相关的lncRNAs可能为乳腺癌新型肿瘤标志物的筛选提供新的策略.