地址:浙江省杭州市西湖区浙江大学紫金港校区
联系人:钱老师
邮箱:qianql0815@163.com
地址:浙江省杭州市西湖区浙江大学紫金港校区
联系人:钱老师
邮箱:qianql0815@163.com
宁波大学 郭俊明
人类基因组计划的完成,特别是近年来大规模转录组研究的日益深入,使传统的遗传学中心法则和经典的基因表达调控模式受到了严重的挑战。尽管编码蛋白质的基因仅占人类基因组中不到2%的序列。但是人们发现基因组中绝大多数序列是被转录的。在人类基因组中不到2%序列编码了约二万个蛋白质,其它98%的人类基因组序列不编码蛋白质。然而,基因组叠瓦式芯片(tiling arrays)等技术的研究结果说明,转录不仅仅局限于蛋白质编码基因,超过90%的人类基因组序列可以转录。
随着RNA研究的逐步深入,人们对其功能的了解逐渐加深。为便于理解RNA的功能,可以把它们分成不同的类别(图1)。
图1 RNA的分类
根据基因表达的最终产物是否为蛋白质,可以把RNA分为2大类:编码RNA(coding RNA)和非编码RNA(noncoding RNA,ncRNA)。顾名思义,编码RNA是指能指导蛋白质合成的RNA,即信使RNA(messenger RNA,mRNA);而ncRNA则是指不编码蛋白质的RNA。
与mRNA相似,ncRNA也是单链的RNA。长期以来,这些ncRNA以及它们所对应的DNA被认为是垃圾或“暗物质”。随着人类基因组计划的完成,科学家们惊奇地发现人类基因组中能编码蛋白质的DNA只占整个基因组序列的极少数,而ncRNA及其所对应的DNA的数量远远多于编码蛋白质的mRNA及其所对应的DNA的数量。
根据生物进化遵循的“用进废退”原则,ncRNA如果是垃圾,它们应该会随着生物进化而逐渐被淘汰,然而人们却发现mRNA的比例随着物种进化呈明显下降的趋势;相反的,ncRNA的比例则随着物种进化呈上升的趋势。这种现象告诉我们,生物进化的越高等,其基因组中ncRNA所对应的DNA的比例越高。在进化上处于金字塔顶端的人类,基因组中的ncRNA的比例竟达到98%。
现在研究发现,ncRNA不仅不是垃圾,而且广泛参与生命现象的各个环节,包括生长、分化、发育、免疫等,甚至在肿瘤的形成中也具有重要的调控作用。
二、非编码RNA有哪些类型
(一)根据功能不同区分非编码RNA
表1 非编码RNA的分类
注:在分布档中“–”和“+”分别表示转录起始点(transcription start site,TSS)上游和下游碱基对的位置。lincRNA:长链基因间非编码RNA(long intergenic noncoding RNA,lincRNA);lncRNA:长链非编码RNA(long noncoding RNA);miRNA:微RNA(microRNA);piRNA:Piwi相互作用RNA(Piwi-interacting RNA);PASR:启动子相关小RNA(promoter-associated small RNA);PROMPT:启动子上游转录本(promoter upstream transcript);snoRNA:核仁小RNA (small nucleolar RNA);tiRNA:转录起始RNA(transcription initiation RNA);TSSa-RNA:转录起始点相关RNA(TSS-associated RNA);T-UCR:转录超保守区(transcribed ultraconserved region)
1. 短链ncRNA
短链ncRNA是指长度在50 nt之内的ncRNA,包括微RNA(microRNA,miRNA)、Piwi相互作用RNA(Piwi-interaction RNA,piRNA)和转录起始RNA(transcription initiation RNA,tiRNA)等。它们具有重要的基因表达调控功能,可诱导染色质结构的变化、介导mRNA的降解等,或者具有降解外源核酸序列的作用以保护本身的基因组。
(1) miRNA
miRNA是一类19~24 nt左右的ncRNA,是目前研究得最清楚的一类ncRNA。miRNA首先于1993年在秀丽线虫中发现。随后,miRNA成为生命科学和医学研究的热点之一。miRNA已经成为人们阐明一些重要疾病的发生机制和进行疾病诊断与治疗的新切入点。
据估计,miRNA调节超过60%的蛋白质编码基因的表达。它们的功能很广泛,包括调节细胞增殖、分化、凋亡和发育等过程。
目前发现,成熟miRNA一般具有如下特点:
1)在进化过程中呈现高度保守性 约有12%的miRNA在脊椎动物和非脊椎动物中呈现高度的保守性。这些保守片段只有1~2个碱基的差别,而在脊椎动物已经发现的miRNA中近一半具有同源性。
2)miRNA基因呈簇集性出现 许多miRNA不呈分散分布的,由单一前体miRNA加工而来的成熟miRNA具有基因簇集现象。
3)miRNA在生物体呈现时间特异性和空间特异性表达 某些miRNA可以在某一生物体的某种细胞中表达但在同一生物体中的其它细胞中不表达,甚至同种组织在不同发育时期检测的结果也不同。
(2) piRNA
piRNA的长度大约是26到31个核苷酸,比miRNA稍长。它们最初在哺乳动物的睾丸中被发现,并且可以和Piwi蛋白结合形成piRNA复合物,然后发挥作用。目前已发现的piRNA主要存在于基因间隔区,而很少存在于基因区和重复序列区。
piRNA与miRNA的主要区别在于:
1)形成过程中不依赖Dicer酶。
2)通过结合Ago蛋白的Piwi亚族发挥作用 这一特点也是它被命名的依。其他物种中的Piwi同源蛋白则根据其物种名称的首字母来依次命名,如人类的Piwi同源蛋白为Hiwi。在果蝇、鼠类和斑马鱼等的研究中显示,piRNA在生殖干细胞分化、胚胎发育、维持DNA的完整性和表观遗传学调控等方面具有十分重要的生物学作用。
2. 中链ncRNA
中链ncRNA的长度一般在50~200 nt之间,主要包括snoRNA、启动子相关小RNA(promoter-associated small RNA,PASR)、转录起始点相关RNA(transcription start site-associated RNA,TSSa-RNA)和启动子上游转录本(promoter upstream transcript,PROMPT)。在这些ncRNA中研究得最多的是snoRNA。
snoRNA是真核细胞核仁中的小分子非编码RNA,链长在60~300 nt之间。它们的主要功能是参与细胞质中rRNA和其他RNA转录后的加工过程,如:假尿苷化和2′-甲基化等。
根据结构元件的不同,人们常把snoRNA分为3大类: C/D box snoRNA、H/ACA box snoRNA和MRP RNA。MRP RNA是极为特殊的snoRNA,在数量和功能上都迥异于其他二类snoRNA,它们参与5.8S rRNA的加工和线粒体DNA的复制。细胞中主要的snoRNA是C/D box snoRNA和H/ACA box snoRNA。
C/D box snoRNA包含有两个短的特征性序列元件,即位于5'末端的C box(RUGAUGA,R代表嘌呤核苷酸)和3'末端的D box(CUGA)。大部分C/D box snoRNA分子的中部还具有类似于C box和D box的结构,分别被称为C' box和D' box(图1-2 a)。C/D box snoRNA通过碱基互补作用行使功能,即:参与rRNA特定位点的2'-O-甲基化修饰。
图2 二类主要snoRNA的结构
H/ACA box snoRNA具有保守的“发夹-铰链-发夹-尾(hairpin-hinge-hairpin-tail)”的二级结构。H box(ANANNA,N 代表任一核苷酸)位于单链形式的铰链区,而ACA box 则一般位于3'末端上游3个核苷酸处(图1-2b)。H box和ACA box不仅是snoRNA正确行使功能的必需结构,而且与snoRNA的稳定性密切相关。H/ACA box snoRNA 的主要功能是参与rRNA的假尿嘧啶化修饰。
经snoRNA加工成熟的rRNA先在核仁中与核糖体蛋白结合,再经过复杂的进一步成熟过程和转运过程出核,最终在细胞质中形成功能成熟的核糖体。核糖体是蛋白质合成的场所,几乎控制着细胞内所有蛋白质的合成。由此不难看出,snoRNA对于细胞生长乃至生命活动的极端重要性。
上述二类主要的snoRNA均需与特异性蛋白质结合形成核仁小核糖核蛋白复合体(small nucleolar ribonucleoprotein complexes,snoRNP)后才能发挥作用。研究发现,不仅C/D box和H/ACA box snoRNA在进化过程中是高度保守的,而且snoRNP中的核心蛋白质也是高度保守的。这说明,snoRNA和snoRNP在细胞内行使的功能是古老而基础性的。
3. 长链ncRNA
长链非编码RNA(long noncoding RNA,lncRNA)一般是指大于200 nt的ncRNA。这一类ncRNA在人类基因组中分布非常广泛,也是最近几年才发现并被引起重要的ncRNA,其中最先发现的lncRNA为长链基因间非编码RNA(long intergenic noncoding RNA,lincRNA)。
与其他ncRNA相比较,lncRNA具有“三多”的特点,即:类型多、作用模式多和数量多。lncRNA可分为正义(sense)、反义(antisense)、双向(bidirectional)、基因内(intronic)及基因间(intergenic) 等5种类型(图3),lncRNA所在的位置与其功能有一定的相关性。
图3 lncRNA的主要类型
正因为lncRNA的类型多样,造就了它对基因表达调控模式的丰富多彩:
1)通过在蛋白质编码基因的上游启动子区转录而干扰下游基因的表达。
2)通过抑制RNA聚合酶Ⅱ的活性或者介导染色质重构和组蛋白修饰而影响下游基因的表达。
3)通过与蛋白质编码基因的转录本形成互补双链,然后干扰mRNA的剪切,从而产生不同的剪切体。
4)通过与蛋白质编码基因的转录本形成互补双链,然后在Dicer酶的作用下产生内源性的siRNA,进而抑制基因的表达。
5)通过与特定蛋白质结合从而调节其活性。
6)作为结构组份与蛋白质形成核酸蛋白质复合体。
7)通过结合到特定蛋白上改变其在胞质中的定位。
8)作为短链非编码RNA(如miRNA或piRNA)的前体进行转录。
总之,lncRNA可以通过改变染色质的结构来调节基因的表达,也可以通过顺式或反式方法来沉默或激活一个基因或一个基因家族,甚至整条染色体(图4)。
图4 lncRNA的作用机制