Le dogme central de la biologie affirme que l’information codée dans l’ADN est transférée à l’ARN messager (ARNm), qui dirige ensuite la synthèse des protéines. L’ensemble d’instructions permettant de décoder la séquence nucléotidique de l’ARNm en acides aminés s’appelle le code génétique. La nature universelle de ce code génétique a stimulé les progrès de la recherche scientifique, de l’agriculture et de la médecine.
Au début des années 1900, les scientifiques ont découvert que l’ADN stocke toutes les informations nécessaires aux fonctions cellulaires et que les protéines remplissent la plupart de ces fonctions. Cependant, les mécanismes de conversion de l’information génétique en protéines fonctionnelles sont restés inconnus pendant de nombreuses années. Au départ, on croyait qu’un seul gène était directement converti en sa protéine codée. Deux découvertes cruciales dans les cellules eucaryotes ont remis en question cette théorie : premièrement, la production de protéines n’a pas lieu dans le noyau. Deuxièmement, l’ADN n’est pas présent en dehors du noyau. Ces résultats ont déclenché la recherche d’une molécule intermédiaire qui relie l’ADN à la production de protéines. Cette molécule intermédiaire, trouvée dans le noyau et le cytoplasme et associée à la production de protéines, est l’ARN.
Pendant la transcription, l’ARN est synthétisé dans le noyau, en utilisant l’ADN comme modèle. L’ARN nouvellement synthétisé est semblable au niveau de la séquence au brin d’ADN, sauf que la thymidine dans l’ADN est remplacée par l’uracile dans l’ARN. Chez les eucaryotes, cette transcription primaire est davantage traitée en supprimant les régions ne codant pas de protéines, en plafonnant l’extrémité 5’ et en ajoutant une queue poly-A en 3’, pour créer l’ARNm qui est ensuite exporté vers le cytoplasme.
La traduction se produit aux ribosomes dans le cytoplasme, où l’information codée dans l’ARNm est traduite en chaîne d’acides aminés. Un ensemble de trois nucléotides code pour un acide aminé et ces triplés sont appelés des codons. L’ensemble des règles qui décrivent quels codons spécifient un acide aminé particulier composent le code génétique.
Les protéines sont créées à partir de 20 acides aminés dans les eucaryotes. La combinaison de quatre nucléotides en séries de trois fournit 64 (43) codons possibles. Cela signifie qu’il est possible qu’un acide aminé individuel soit codé par plus d’un codon. Le code génétique serait redondant ou dégénéré. Souvent, mais pas toujours, les codons qui spécifient les mêmes acides aminés ne diffèrent que dans le troisième nucléotide du triplet. Par exemple, les codons GUU, GUC, GUA et GUG représentent tous l’acide aminé valine. Cependant, AUG est le seul codon qui représente l’acide aminé méthionine. Le codon AUG est également le codon où la synthèse des protéines commence et il s’appelle donc le codon de départ. La redondance dans le système minimise les effets nocifs des mutations. Une mutation (c.-à-d. un changement) à la troisième position du codon pourrait ne pas nécessairement entraîner un changement de l’acide aminé.
À quelques exceptions près, la plupart des organismes procaryotes et eucaryotes utilisent le même code génétique pour la synthèse des protéines. Cette universalité du code génétique a permis de faire avancer la recherche scientifique, l’agriculture et la médecine. Par exemple, l’insuline humaine peut maintenant être fabriquée à grande échelle dans les bactéries. Ceci se fait en utilisant la technologie de l’ADN recombinant. L’ADN recombinant est composé de matériel génétique provenant de différentes espèces. Les gènes qui encodent l’insuline humaine sont joints à l’ADN bactérien et insérés dans une cellule bactérienne. La cellule bactérienne effectue la transcription et la traduction pour produire l’insuline humaine codée dans l’ADN recombinant. L’insuline humaine qui en résulte est utilisée pour traiter le diabète.