图1.植物微外显子的鉴定。a微外显子比对reads的定义。b不同鉴定方法的比较。c10个植物物种的进化树。d植物微外显子大小分布
研究人员通过研究微外显子剪接机制,发现微外显子周围的内含子上富集了富含T和G的内含子剪接增强子(IntronicSplicingEnhancer,ISE)模体(motif)。这些模体一般是参与剪接蛋白质的结合位点,有助于微外显子的剪接。虽然微外显子主要存在于基因的主要转录本上,但两侧的内含子保留(intronretention)频率远高于一般的外显子。进一步分析发现,微外显子两侧的内含子的剪接比正常的内含子的剪接有延迟。通常大部分的内含子的剪接会伴随基因转录进行,称为共转录剪接(co-transcriptionalsplicing,CTS),而微外显子两侧的内含子剪接,尤其是上游5‘端的内含子的剪接,会有显著的延迟,甚至在转录本加了PolyA尾巴之后还有一部分需要进行再剪接,称为转录后剪接(post-transcriptionalsplicing,PTS)。所以,微外显子两侧存在明显的滞留内含子(detainedintron),这些内含子依赖转录后剪接调控,一部分转录本进行转录后修饰完以后,还需要再剪接一次才能从细胞核释放到细胞质,成为成熟的mRNA。植物微外显子参与编码许多重要的蛋白质模体,其中开花植物中9-nt的微外显子通常参与编码AP2(Apetala2,PF)和Glyco_hydro_32N(Glycosylhydrolasesfamily32N-terminal,PF),所以编码这两类模体的微外显子在开花植物中最多。这两个模体参与植物生长发育、植物激素响应、生物和非生物环境适应等多种功能。这两类9-nt的微外显子在水稻MSU7和玉米第4版注释(maizeAGPv4)的注释中几乎都没有注释出来,分别造成两个物种各15个以上基因和7个基因的注释错误。不仅如此,目前的植物基因组注释对微外显子的注释存在大量错误。研究人员详细分析了四个物种,拟南芥、大豆、水稻和玉米。四个物种中分别有27%、23%、81%和65%的编码微外显子没有注释,结果造成注释的蛋白质序列缺失,因而进一步导致大量蛋白质模体没有被正确预测出来。不仅如此,四个物种参考基因组注释出来的微外显子分别有37%、60%、91.3%和92.4%没有RNAseq数据支持,很可能是错误的注释。水稻MSU7和玉米AGPv4对微外显子的错误注释非常严重,造成大量预测出的基因模式带有很长的非编码区(untranslatedregions,UTRs),丢失了许多重要蛋白质模体。而依赖于基因组注释得出的研究结果会出现错误,例如有研究发现AP2家族基因OsWRI1-1(LOC_Os11g)存在非典型剪接基因模式,实际上只是个错误注释,不仅没有RNAseq数据支持,文中作者自己通过RT-PCR也没有检测到相应的转录本。为了解决微外显子基因组注释的难题,研究人员通过利用其保守特征预测微外显子在基因组中的位置。由于微外显子很小,研究人员巧妙地利用微外显子标签——微外显子及两侧外显子-nt的编码DNA序列和相应的编码36-aa的蛋白质序列,开发了植物微外显子预测/建模工具包——MEPmodeler。研究人员根据编码微外显子的大小和phase进行分类,然后通过蛋白质序列相似性进一步聚类,一共得到45类在9个物种中至少3个物种存在的保守微外显子标签(绿藻C.reinhardtii的序列差异太大被排除在外)。然后通过BLASTN在NCBI表达序列标签(ExpressionSequenceTag,EST)数据库寻找更多的同源序列,一起构建位置权重矩阵(positionweightmatrix,PWM)。基于PWM,研究人员构建了微外显子预测模型,允许微外显子两侧存在内含子间隔,这样就能从基因组序列预测微外显子标签的位置和结构。研究人员通过三种方法证明该工具预测的准确性。首先,90%以上的用于建模的编码微外显子在四个物种(拟南芥、大豆、水稻和玉米)中可以正确预测,并且预测出新的微外显子中还有一半是上一轮RNAseq分析没有鉴定出来但是通过建模重新分析发现是正确的,包括1-nt的微外显子;其次,研究人员从四个物种每个物种挑选10个≤10-nt微外显子,利用RT-PCRSanger法测序证实了预测的正确性;最后,研究人员在一个新的物种番茄(S.lycopersicum)进行了测试,利用RNAseq数据证实MEPmodeler预测出的微外显子几乎包含了全部高表达微外显子基因,而参考基因组注释出来的大量微外显子缺少RNAseq数据支持。这些结果说明,微外显子预测结果很可靠,MEPmodeler软件对提高基因组注释非常有用。由于微外显子标签具有相同DNA和蛋白质序列长度,同类微外显子具有相同的大小和phase,在植物中非常保守,很适合用作系统进化研究的标记。与其他标记,如单拷贝基因、转录本、质体基因相比,微外显子标签用作系统进化研究标记省去了多序列比对这一具有很大挑战的一步,同时还不丢失基因结构信息。研究人员利用MEPmodeler在个陆生植物基因组中预测45类微外显子标签然后构建系统发育进化树,得到的结果与以前的研究结果一致,同时还能看出这些微外显子在进化过程中获得和丢失的特征。所以,微外显子有望成为植物系统进化研究中新的有用的标签。最后,研究人员特别研究了只有1个核苷酸(1-nt)的微外显子。1-nt微外显子位于两类基因中,APC11和VPS55,其基因结构在植物中非常保守。这两类1-nt微外显子在所有研究的物种中均没有被正确注释出来。错误的注释会导致预测出来的蛋白质变短,结构功能发生变化。有意思的是,APC11基因中的1-nt微外显子从苔藓植物开始出现,在开花植物中存在三种类型:单子叶植物植物内含子完全消失,大多数双子叶植物完全保留,而部分双子叶植物如罂粟两种基因类型都有。VPS55基因在石松类植物卷柏中同一个基因存在两种转录本,含1-nt微外显子的转录本和发生内含子保留不含1-nt微外显子的转录本,这两种转录本在后期的进化过程中分开成为两个基因,从蕨类植物(ferns)开始到开花植物均具有两种类型VPS55基因,并且含1-nt微外显子的VPS55基因的剪接位点变得更强大,1-nt微外显子由原来在卷柏中的部分剪接进化成完全剪接(图2)。可见,可变剪接在VPS55基因的进化过程中发挥了重要作用。图2.两类1-nt微外显子的进化。aAPC11基因中结构和进化。bVPS55基因序列比对和系统进化树。c江南卷柏(S.moellendorffii)中VPS55基因两种转录本。dVPS55基因1-nt微外显子及两侧的剪接位点序列。e角苔植物(Anthocerosangustus)中VPS55基因两种转录本。
内布拉斯加大学林肯分校生物科学学院张弛教授课题组的喻辉辉博士为论文第一作者。张弛、JeffreyP.Mower、于斌教授以及华中农业大学谢为博教授为共同通讯作者。于斌课题组李木博士、HarkamalWalia课题组JaspreetSandhu博士,和JamesC.Schnable课题组孙光超博士参与了该工作。该工作还得到了南方科技大学翟继先课题组、内布拉斯加大学林肯分校ThomasClemente课题组和华中农业大学作物遗传改良国家重点实验室生物信息计算平台的支持和帮助。论文链接: