Le protocole fournit des instructions pour modifier l’ARN avec du sulfate de diméthyle pour les expériences de profilage mutationnel. Il comprend le sondage in vitro et in vivo avec deux méthodes alternatives de préparation de bibliothèque.
Le rôle de la structure de l’ARN dans pratiquement tous les processus biologiques est devenu de plus en plus évident, en particulier au cours de la dernière décennie. Cependant, les approches classiques pour résoudre la structure de l’ARN, telles que la cristallographie de l’ARN ou la cryo-EM, n’ont pas réussi à suivre l’évolution rapide du domaine et le besoin de solutions à haut débit. Profilage mutationnel avec séquençage à l’aide de sulfate de diméthyle (DMS) MaPseq est une approche basée sur le séquençage pour déduire la structure de l’ARN à partir de la réactivité d’une base avec le DMS. Le DMS méthyle l’azote N1 dans les adénosines et le N3 dans les cytosines au niveau de leur face Watson-Crick lorsque la base n’est pas appariée. La transcription inverse de l’ARN modifié avec la transcriptase inverse d’intron du groupe II thermostable (TGIRT-III) conduit à l’incorporation des bases méthylées sous forme de mutations dans l’ADNc. Lors du séquençage de l’ADNc résultant et de sa mise en correspondance avec une transcription de référence, les taux de mutation relatifs pour chaque base indiquent le « statut » de la base en tant que paire ou non appariée. Même si les réactivités DMS ont un rapport signal sur bruit élevé à la fois in vitro et dans les cellules, cette méthode est sensible aux biais dans les procédures de manipulation. Pour réduire ce biais, cet article fournit un protocole pour le traitement de l’ARN avec DMS dans les cellules et avec de l’ARN transcrit in vitro .
Depuis la découverte que l’ARN a à la fois des propriétés structurelles1,2 et catalytiques3, l’importance de l’ARN et sa fonction de régulation dans une pléthore de processus biologiques ont été progressivement découvertes. En effet, l’effet de la structure de l’ARN sur la régulation des gènes a attiré une attention croissante4. Comme les protéines, l’ARN a des structures primaires, secondaires et tertiaires, se référant respectivement à la séquence des nucléotides, à la cartographie 2D des interactions d’appariement de bases et au repliement 3D de ces structures paires de bases. Bien que la détermination de la structure tertiaire soit essentielle pour comprendre les mécanismes exacts derrière les processus dépendants de l’ARN, la structure secondaire est également très informative en ce qui concerne la fonction de l’ARN et constitue la base d’un repliement 3Dultérieur 5.
Cependant, la détermination de la structure de l’ARN a été intrinsèquement difficile avec les approches conventionnelles. Alors que pour les protéines, la cristallographie, la résonance magnétique nucléaire (RMN) et la microscopie électronique cryogénique (cryo-EM) ont permis de déterminer la diversité des motifs structuraux, permettant de prédire la structure à partir de la séquence seule6, ces approches ne sont pas largement applicables aux ARN. En effet, les ARN sont des molécules flexibles avec des blocs de construction (nucléotides) qui ont beaucoup plus de liberté conformationnelle et rotationnelle par rapport à leurs homologues d’acides aminés. De plus, les interactions par appariement de bases sont plus dynamiques et polyvalentes que celles des résidus d’acides aminés. En conséquence, les approches classiques n’ont été couronnées de succès que pour des ARN relativement petits avec des structures bien définies et très compactes7.
Une autre approche pour déterminer la structure de l’ARN consiste à utiliser un sondage chimique combiné au séquençage de nouvelle génération (NGS). Cette stratégie génère des informations sur l’état de liaison de chaque base dans une séquence d’ARN (c’est-à-dire sa structure secondaire). En bref, les bases d’une molécule d’ARN qui ne s’engagent pas dans l’appariement de bases sont modifiées différentiellement par de petits composés chimiques. La transcription inverse de ces ARN avec des transcriptases inverses spécialisées (RT) incorpore les modifications dans l’acide désoxyribonucléique complémentaire (ADNc) sous forme de mutations. Ces molécules d’ADNc sont ensuite amplifiées par la réaction en chaîne de la polymérase (PCR) et séquencées. Pour obtenir des informations sur leur « statut » lié ou non lié, les fréquences de mutation à chaque base d’un ARN d’intérêt sont calculées et saisies dans un logiciel de prédiction de structure sous forme de contraintes8. Basé sur les règlesdu plus proche voisin 9 et les calculs d’énergie libre minimale 10, ce logiciel génère des modèles de structure qui correspondent le mieux aux données expérimentales obtenues11,12.
Le DMS-MaPseq utilise le DMS, qui méthyle l’azote N1 dans les adénosines et l’azote N3 dans les cytosines au niveau de leur face Watson-Crick d’une manière très spécifique13. L’utilisation de la transcriptase inverse d’intron thermostable du groupe II (TGIRT-III) en transcription inverse crée des profils mutationnels avec des rapports signal sur bruit sans précédent, permettant même la déconvolution de profils chevauchants générés par deux ou plusieurs conformations alternatives14,15. De plus, le DMS peut pénétrer dans les membranes cellulaires et les tissus entiers, ce qui rend possible le sondage dans des contextes physiologiques. Cependant, la génération de données de bonne qualité est difficile, car les variations dans la procédure de traitement peuvent avoir un impact sur les résultats. Par conséquent, nous fournissons un protocole détaillé pour le DMS-MaPseq in vitro et dans la cellule afin de réduire les biais et de guider les nouveaux arrivants vers la méthode à travers les difficultés qu’ils peuvent rencontrer. Surtout à la lumière de la récente pandémie de SRAS-CoV2, des données de haute qualité sur les virus à ARN sont un outil important pour étudier l’expression des gènes et trouver des traitements possibles.
Le protocole décrit ici comment sonder l’ARN in vitro et dans les cellules à l’aide d’expériences de profilage mutationnel DMS. En outre, il donne des instructions sur la façon de préparer les bibliothèques pour le séquençage Illumina afin de générer des données spécifiques aux gènes et d’analyser les fichiers .fastq obtenus. De plus, des approches de bibliothèque à l’échelle du génome peuvent être utilisées. Cependant, la RT-PCR spécifique aux gènes produit des données de la plus haute qualité et les plus robustes. Par conséquent, si vous comparez des échantillons, il est important de s’assurer qu’ils sont préparés avec des stratégies de séquençage identiques, car la génération de bibliothèque provoque un certain biais. La reproductibilité doit toujours être mesurée à l’aide de réplications.
Plusieurs précautions
L’ARN est une molécule instable qui est sensible à la dégradation à la fois par des températures élevées et par les RNases. Par conséquent, des mesures spéciales – l’utilisation d’équipement de protection individuelle (EPI), de matériel exempt d’ARNase et d’inhibiteurs de l’ARNase – sont recommandées. Plus important encore, l’ARN devrait être gardé sur la glace dans la mesure du possible. Cela s’applique particulièrement à l’ARN méthylé, qui est encore plus sensible aux températures élevées.
Il est important de confirmer que la structure d’intérêt de l’ARN n’est pas sensible à la concentration de DMS et aux conditions tampons. Des tampons tels que 100 mM Tris, 100 mM MOPS et 100 mM HEPES à pH 7-7,5 donnent un signal élevé mais peuvent ne pas être suffisants pour maintenir le pH pendant la réaction21. Comme le DMS s’hydrolyse dans l’eau, ce qui diminue le pH, un tampon puissant est essentiel pour maintenir un pH neutre pendant la réaction de modification. Il a été démontré que l’ajout de bicine aide à maintenir le pH légèrement basique21 , mais entraîne une faible modification du DMS sur Gs et Us, ce qui pourrait être informatif mais devrait être analysé séparément en raison de la production d’un signal beaucoup plus faible que As et Cs et n’est pas discuté plus en détail dans ce protocole.
Dans la RT-PCR spécifique au gène, l’ARN modifié est transcrit à l’envers dans l’ADN et amplifié en fragments par PCR. Bien que la taille de l’ARN puisse théoriquement être illimitée, ces fragments de PCR ne doivent pas dépasser une longueur de 400 à 500 paires de bases (pb) pour éviter les biais lors de la réaction de transcription inverse. Idéalement, les fragments devraient entrer dans le cadre de l’exécution de séquençage (c.-à-d. si le séquençage est effectué à l’aide d’un programme de séquençage d’extrémité appariée de 150 x 150 cycles, un seul fragment ne devrait pas dépasser 300 pb). Lors de l’utilisation de programmes de séquençage avec moins de cycles, les produits de PCR peuvent être fragmentés à l’aide d’une dsDNase. De plus, comme les séquences dans les séquences d’amorce ne contiennent aucune information structurelle, les fragments doivent se chevaucher lorsque l’ARN sondé comprend >1 fragment. Les réactions RT peuvent contenir plusieurs amorces RT pour différents fragments (jusqu’à 10 amorces RT différentes). Selon les séquences, la mise en commun des amorces RT peut rendre la transcription inverse moins efficace, mais fonctionne généralement bien. Chaque réaction PCR doit être conduite séparément.
Lors du sondage de l’ARN avec DMS, les conditions expérimentales jouent un rôle supplémentaire, car de nombreux ARN sont thermodynamiquement instables et modifient leur conformation en fonction de facteurs environnementaux tels que la température. Pour éviter les irrégularités, les conditions expérimentales doivent être maintenues aussi constantes que possible, y compris en ce qui concerne les temps de réaction. Les conditions tampons semblent être échangeables dans une certaine mesure 17,20,22,23 lorsque les conditions de base sont maintenues — la capacité tampon et la présence d’ions monovalents (Na) et divalents (Mg) — pour assurer un repliement correct de l’ARN 24.
En ce qui concerne la préparation en bibliothèque des ARN modifiés, plusieurs aspects doivent être pris en considération. Tout d’abord, comme mentionné précédemment, les ARN modifiés sont moins stables que leurs homologues non modifiés, ce qui signifie qu’ils pourraient nécessiter l’optimisation des temps de fragmentation pour une distribution optimale de la taille des fragments. De plus, certains kits de préparation de bibliothèque d’ARN, ainsi que de nombreuses autres approches RNAseq, utilisent des amorces aléatoires dans le kit de transcription inverse. Cela pourrait conduire à une couverture plus faible de la référence, en particulier dans les 3′ d’un gène, et, finalement, à une profondeur de couverture insuffisante. Si la couverture d’une certaine région est trop faible, il peut être nécessaire de supprimer ces bases de la prévision de la structure. Outre la RT-PCR et les kits RNAseq du génome entier, d’autres approches de préparation de bibliothèque peuvent être utilisées. Les protocoles qui incluent la ligature d’adaptateurs 3′ et/ou 5′ à l’ARN sont avantageux lors de l’utilisation de petits fragments d’ARN ou lorsque la perte d’informations de sondage dans les régions d’amorce doit être évitée.
Enfin, l’analyse des expériences de sondage chimique doit toujours être interprétée avec prudence. Actuellement, il n’existe aucun logiciel qui prédit la structure de l’ARN d’un ARN à partir de la séquence seule avec une grande précision. Bien que les contraintes de sondage chimique améliorent considérablement la précision, générer de bons modèles pour les ARN longs (>500 nt) est encore difficile. Ces modèles devraient être testés davantage par d’autres approches et/ou la mutagénèse. Le logiciel de prédiction de l’ARN optimise le nombre maximum de paires de bases, pénalisant ainsi considérablement les conformations ouvertes, qui peuvent ne pas représenter avec précision le repliement de l’ARN5. Ainsi, le modèle de structure obtenu devrait être testé en quantifiant l’accord de prédiction avec les données de sondage chimique sous-jacentes (par exemple, par AUROC) et entre les répétitions (par exemple, par mFMI), comme l’illustrent Lan et al.20.
Idéalement, plusieurs expériences dans différents systèmes pour remettre en question le modèle de structure obtenu devraient être utilisées pour renforcer son hypothèse. Celles-ci peuvent inclure l’utilisation d’approches in vitro et intracellulaires, de mutations compensatoires et de différentes lignées cellulaires et espèces. De plus, les réactivités brutes sont souvent tout aussi informatives, voire plus, que les prédictions de structure, car elles enregistrent l’instantané de « vérité de terrain » de l’ensemble de repliement de l’ARN. En tant que telles, les réactivités brutes sont très appropriées et informatives pour comparer les changements de structure entre différentes conditions. Il est important de noter que les structures d’énergie libre les plus basses calculées à l’aide de contraintes de sondage chimique avec prédiction informatique ne devraient être utilisées que comme hypothèse de départ vers un modèle de structure complet.
The authors have nothing to disclose.
Aucun
1 Kb Plus DNA Ladder | 10787018 | Thermo | |
2-mercaptoethanol | M6250-250ML | Sigma | |
Acid-Phenol:Chloroform, pH 4.5 | AM9720 | Thermo | |
Advantage PCR | 639206 | Takara | |
CloneAmp HiFi PCR Premix | 639298 | Takara | |
DMS | D186309 |
Sigma | |
dNTPs 10 mM each | U151B | Promega | |
E-Gel EX Agarose Gels, 2% | G402022 | Thermo | precast agarose gels |
Ethanol (200 proof) | E7023-4X4L | Sigma | |
Falcon tubes, 15 mL, 50 mL | |||
GlycoBlue | co-precipitant | ||
HCT-8 cells | ATCC #CCL-244 | ||
Invitrogen MgCl2 (1 M) | AM9530G | fisherscientific | |
Isopropanol | 278475 | Sigma | |
Megascript T7 transcription | AM1334 | Thermo | |
NanoDrop spectrophotometer | |||
Novex TBE Gels, 8%, 10 well | EC6215BOX | Thermo | |
OC43 | ATCC #VR-1558 | ||
RiboRuler Low Range RNA Ladder | SM1831 | Thermo | |
RNAse H | M0297L | NEB | |
Sodium Cacodylate, 0.4 M, pH 7.2 | 102090-964 | VWR | |
Sodium hydroxide solution | S8263-150ML | Sigma | |
SuperScript II Reverse Transcriptase for FSB and DTT | 18064014 | Thermo | |
TGIRT-III Enzyme | TGIRT50 | Ingex | |
The Oligo Clean & Concentrator | D4060 | Genesee | |
The RNA Clean & Concentrator kits are RNA clean up kits | R1016 | Genesee | |
TRIzol Reagents | 15596018 | Thermo | RNA isolation reagent |
Water, (For RNA Work) (DEPC-Treated, DNASE, RNASE free/Mol. Biol.) | BP561-1 | fisherscientific | |
xGen Broad-range RNA Library Prep 16rxn | 10009865 | IDT | |
Zymo RNA clean and concentrator columns |