北京皮肤科医院医师 http://baidianfeng.39.net/a_yufang/211224/10116335.html在真核生物中,mRNA的剪接是基因表达和调控的重要步骤。外显子(exon)和内含子(intron)的剪接缺陷会产生功能改变的甚至失去功能的蛋白质,经常会导致疾病。长度≤51个核苷酸(nt)的外显子,通常被称为微外显子(microexon)。研究发现,微外显子在许多物种中具有特殊调节作用。例如,在人类和动物的研究中发现,微外显子可以在各种细胞功能、蛋白质-蛋白质相互作用中发挥重要作用,是神经系统发育,行为和自闭症谱系障碍之间的纽带,与多种神经系统疾病有关。对于更小的微外显子(≤15-nt),由于长度太短,鉴定和功能研究都非常困难,因此在基因组注释和转录组研究中很容易缺失,从而导致错误的基因结构模型。这些≤15nt的微外显子虽然很重要,但是目前在植物中的研究很少,其剪接特征、基因功能和进化机制尚不清楚。年2月10日,美国内布拉斯加大学林肯分校张弛教授课题组与合作者在NatureCommunications上发表了题为Pervasivemisannotationofmicroexonsthatareevolutionarilyconservedandcrucialforgenefunctioninplants的文章,开发了精准鉴定植物微外显子的方法,发现植物基因组中广泛存在非常小的植物微外显子(≤15-nt,甚至小到只有1-nt),但是普遍存在缺失和错误注释的问题,从而导致对应蛋白质功能注释错误。全面系统的分析发现,微外显子具有特殊的剪接模式,在基因功能、系统进化中具有重要作用。基于这些发现,研究人员还开发了不依赖于转录组数据的植物微外显子预测方法,显著提高了基因组注释的准确性。研究人员通过比较几个二代测序转录组比对软件在微外显子鉴定中的表现,发现STAR在有基因组注释的情况下表现最好,而OLego在没有任何注释从头比对的情况下表现最好,两者相互配合的结合会大大提高微外显子的鉴定效果。基于这个结果,研究人员将STAR和OLego整合,开发了精准鉴定植物微外显子的方法。研究人员针对10个代表性植物物种,从公共数据库中挑选了个RNA-seq数据,共鉴定出了2,个≤15-nt的微外显子(每个物种–个),占表达基因的0.6–2.6%,大部分位于编码区(59-90%)。这些微外显子大部分都是没有基因组注释的,注释率在不同物种中差别很大,从江南卷柏(S.moellendorffii)的17.41%到罂粟(P.somniferum)的77.75%。同一个物种不同的注释差异很大,例如水稻(Oryzasativa)中,MSU7的微外显子注释率(16.19%)比IRGSP1.0低(59.05%),但常规的外显子的注释率(85.73%)比IRGSP1.0高(79.66%)。在开花植物中,数量最多的是9-nt的微外显子(图1)。
图1.植物微外显子的鉴定。a微外显子比对reads的定义。b不同鉴定方法的比较。c10个植物物种的进化树。d植物微外显子大小分布
研究人员通过研究微外显子剪接机制,发现微外显子周围的内含子上富集了富含T和G的内含子剪接增强子(IntronicSplicingEnhancer,ISE)模体(motif)。这些模体一般是参与剪接蛋白质的结合位点,有助于微外显子的剪接。虽然微外显子主要存在于基因的主要转录本上,但两侧的内含子保留(intronretention)频率远高于一般的外显子。进一步分析发现,微外显子两侧的内含子的剪接比正常的内含子的剪接有延迟。通常大部分的内含子的剪接会伴随基因转录进行,称为共转录剪接(co-transcriptionalsplicing,CTS),而微外显子两侧的内含子剪接,尤其是上游5‘端的内含子的剪接,会有显著的延迟,甚至在转录本加了PolyA尾巴之后还有一部分需要进行再剪接,称为转录后剪接(post-transcriptionalsplicing,PTS)。所以,微外显子两侧存在明显的滞留内含子(detainedintron),这些内含子依赖转录后剪接调控,一部分转录本进行转录后修饰完以后,还需要再剪接一次才能从细胞核释放到细胞质,成为成熟的mRNA。植物微外显子参与编码许多重要的蛋白质模体,其中开花植物中9-nt的微外显子通常参与编码AP2(Apetala2,PF)和Glyco_hydro_32N(Glycosylhydrolasesfamily32N-terminal,PF),所以编码这两类模体的微外显子在开花植物中最多。这两个模体参与植物生长发育、植物激素响应、生物和非生物环境适应等多种功能。这两类9-nt的微外显子在水稻MSU7和玉米第4版注释(maizeAGPv4)的注释中几乎都没有注释出来,分别造成两个物种各15个以上基因和7个基因的注释错误。不仅如此,目前的植物基因组注释对微外显子的注释存在大量错误。研究人员详细分析了四个物种,拟南芥、大豆、水稻和玉米。四个物种中分别有27%、23%、81%和65%的编码微外显子没有注释,结果造成注释的蛋白质序列缺失,因而进一步导致大量蛋白质模体没有被正确预测出来。不仅如此,四个物种参考基因组注释出来的微外显子分别有37%、60%、91.3%和92.4%没有RNAseq数据支持,很可能是错误的注释。水稻MSU7和玉米AGPv4对微外显子的错误注释非常严重,造成大量预测出的基因模式带有很长的非编码区(untranslatedregions,UTRs),丢失了许多重要蛋白质模体。而依赖于基因组注释得出的研究结果会出现错误,例如有研究发现AP2家族基因OsWRI1-1(LOC_Os11g)存在非典型剪接基因模式,实际上只是个错误注释,不仅没有RNAseq数据支持,文中作者自己通过RT-PCR也没有检测到相应的转录本。为了解决微外显子基因组注释的难题,研究人员通过利用其保守特征预测微外显子在基因组中的位置。由于微外显子很小,研究人员巧妙地利用微外显子标签——微外显子及两侧外显子-nt的编码DNA序列和相应的编码36-aa的蛋白质序列,开发了植物微外显子预测/建模工具包——MEPmodeler。研究人员根据编码微外显子的大小和phase进行分类,然后通过蛋白质序列相似性进一步聚类,一共得到45类在9个物种中至少3个物种存在的保守微外显子标签(绿藻C.reinhardtii的序列差异太大被排除在外)。然后通过BLASTN在NCBI表达序列标签(ExpressionSequenceTag,EST)数据库寻找更多的同源序列,一起构建位置权重矩阵(positionweightmatrix,PWM)。基于PWM,研究人员构建了微外显子预测模型,允许微外显子两侧存在内含子间隔,这样就能从基因组序列预测微外显子标签的位置和结构。研究人员通过三种方法证明该工具预测的准确性。首先,90%以上的用于建模的编码微外显子在四个物种(拟南芥、大豆、水稻和玉米)中可以正确预测,并且预测出新的微外显子中还有一半是上一轮RNAseq分析没有鉴定出来但是通过建模重新分析发现是正确的,包括1-nt的微外显子;其次,研究人员从四个物种每个物种挑选10个≤10-nt微外显子,利用RT-PCRSanger法测序证实了预测的正确性;最后,研究人员在一个新的物种番茄(S.lycopersicum)进行了测试,利用RNAseq数据证实MEPmodeler预测出的微外显子几乎包含了全部高表达微外显子基因,而参考基因组注释出来的大量微外显子缺少RNAseq数据支持。这些结果说明,微外显子预测结果很可靠,MEPmodeler软件对提高基因组注释非常有用。由于微外显子标签具有相同DNA和蛋白质序列长度,同类微外显子具有相同的大小和phase,在植物中非常保守,很适合用作系统进化研究的标记。与其他标记,如单拷贝基因、转录本、质体基因相比,微外显子标签用作系统进化研究标记省去了多序列比对这一具有很大挑战的一步,同时还不丢失基因结构信息。研究人员利用MEPmodeler在个陆生植物基因组中预测45类微外显子标签然后构建系统发育进化树,得到的结果与以前的研究结果一致,同时还能看出这些微外显子在进化过程中获得和丢失的特征。所以,微外显子有望成为植物系统进化研究中新的有用的标签。最后,研究人员特别研究了只有1个核苷酸(1-nt)的微外显子。1-nt微外显子位于两类基因中,APC11和VPS55,其基因结构在植物中非常保守。这两类1-nt微外显子在所有研究的物种中均没有被正确注释出来。错误的注释会导致预测出来的蛋白质变短,结构功能发生变化。有意思的是,APC11基因中的1-nt微外显子从苔藓植物开始出现,在开花植物中存在三种类型:单子叶植物植物内含子完全消失,大多数双子叶植物完全保留,而部分双子叶植物如罂粟两种基因类型都有。VPS55基因在石松类植物卷柏中同一个基因存在两种转录本,含1-nt微外显子的转录本和发生内含子保留不含1-nt微外显子的转录本,这两种转录本在后期的进化过程中分开成为两个基因,从蕨类植物(ferns)开始到开花植物均具有两种类型VPS55基因,并且含1-nt微外显子的VPS55基因的剪接位点变得更强大,1-nt微外显子由原来在卷柏中的部分剪接进化成完全剪接(图2)。可见,可变剪接在VPS55基因的进化过程中发挥了重要作用。
图2.两类1-nt微外显子的进化。aAPC11基因中结构和进化。bVPS55基因序列比对和系统进化树。c江南卷柏(S.moellendorffii)中VPS55基因两种转录本。dVPS55基因1-nt微外显子及两侧的剪接位点序列。e角苔植物(Anthocerosangustus)中VPS55基因两种转录本。
内布拉斯加大学林肯分校生物科学学院张弛教授课题组的喻辉辉博士为论文第一作者。张弛、JeffreyP.Mower、于斌教授以及华中农业大学谢为博教授为共同通讯作者。于斌课题组李木博士、HarkamalWalia课题组JaspreetSandhu博士,和JamesC.Schnable课题组孙光超博士参与了该工作。该工作还得到了南方科技大学翟继先课题组、内布拉斯加大学林肯分校ThomasClemente课题组和华中农业大学作物遗传改良国家重点实验室生物信息计算平台的支持和帮助。
论文链接: