真核生物のゲノムは、いくつかの機能的な分類で構成されます。一本のDNAは、遺伝子と遺伝子間領域で構成されています。遺伝子は、タンパク質をコードするエクソンとコードしないイントロンから構成されています。イントロンは、配列がmRNAに転写されると切り離され、タンパク質をコードするエクソンだけが残ります。
真核生物のゲノムでは、遺伝子はタンパク質をコードしていない長いDNAで区切られています。しかし、この遺伝子間領域には、転写を開始するプロモーターや、遺伝子の発現を微調整するエンハンサーやサイレンサーなど、遺伝子の活動を制御する重要な要素が存在しています。また、これらの結合部位は、関連する遺伝子から遠く離れた場所に存在することもあります。
真核生物の遺伝子転写の過程を調べると、タンパク質をコードする最終的なmRNAは、その元となるDNAよりも短いことがわかりました。この長さの違いは、スプライシングと呼ばれるプロセスによるものです。核内のDNAからmRNA前駆体が転写されると、直ちにスプライシングによってイントロンが除去され、エクソンが結合されます。その結果がタンパク質をコードするmRNAであり、その後細胞質に移動し、タンパク質に翻訳されます。
最大のヒト遺伝子のひとつであるDMDは、200万塩基対を超える長さをもちます。この遺伝子は、筋肉タンパク質であるジストロフィンをコードしています。DMDの変異は、進行性の筋肉の衰えを特徴とする疾患である筋ジストロフィーの原因となります。この遺伝子は、79個のエクソンと103個のイントロンから構成されています。一方、ヒストンH1A遺伝子は、ヒトゲノムの中で最も小さい遺伝子の1つで、長さはわずか781塩基対、エクソンは1つ、イントロンはないです。
イントロンは除去すべき、ゴミのようなDNAなのでしょうか。興味深いことに、イントロンには遺伝子制御に重要な要素が含まれています。さらに、最初の転写産物を切断し、エクソンを再び結合させることで、DNAの配列をシャッフルすることができます。このように、エクソンを混ぜ合わせるプロセスは、代替スプライシングとして知られています。これにより、1つのコード化された配列から複数のタンパク質の変異体を作り出すことが可能になります。
ゲノムの99%がタンパク質をコードしていないことをご存知でしょうか。ゲノム研究が始まったばかりの頃、生物学者はこれらの機能していないと思われる配列を「ジャンクDNA」と呼んでいました。一方で、ノンコーディングDNAの大部分が重要な機能を持っていることがわかってきました。ヒトゲノムの少なくとも9%は遺伝子の制御に関与しており、これはタンパク質をコードする配列の9倍にあたります。