“真核生物的基因组可以分为几个功能类别。一条DNA链由基因和基因间区域组成。基因本身由蛋白质编码的外显子和非编码的内含子组成。一旦序列被转录成mRNA,内含子就会被切除,只剩下外显子来编码蛋白质。”
在真核生物的基因组中,基因被大段不编码蛋白质的DNA所分离。然而,这些基因间区域携带着调节基因活性的重要元素,例如,转录开始的启动子,以及微调基因表达的增强子和消音器。有时这些结合位点可能位于远离相关基因的地方。
当研究人员研究真核生物中基因转录的过程时,他们意识到编码蛋白质的最终mRNA比其来源的DNA短。这种长度上的差异是由于一个叫做拼接的过程。一旦pre-mRNA从细胞核中的DNA转录出来,剪接就立即移除内含子并将外显子连接在一起。其结果是蛋白质编码的mRNA移动到细胞质并转化为蛋白质。
人类最大的基因之一,DMD,有超过200万个碱基对长。这个基因编码肌营养不良蛋白。DMD的突变引起肌营养不良,一种以进行性肌肉退化为特征的疾病。该基因包含79个外显子和103个内含子。另一端是组蛋白H1a基因,它是人类基因组中最小的基因之一,只有781对碱基,只有一个外显子,没有内含子。
内含子是需要去除的垃圾DNA吗?有趣的是,内含子可以携带对基因调控很重要的元素。此外,切割最初的转录本和重新连接外显子允许DNA序列被洗牌。这种混合和匹配外显子的过程被称为选择性剪接。它使得从一个编码序列中产生几个蛋白质变体成为可能。
你知道99%的基因组不编码蛋白质吗?在基因组研究的早期,生物学家为这些看似不起作用的序列创造了一个引人注目的术语“垃圾DNA”。同时,我们了解到大部分非编码DNA确实具有重要的功能。至少9%的人类基因组参与了基因调控,这是蛋白质编码序列的9倍。