El protocolo proporciona instrucciones para modificar el ARN con sulfato de dimetilo para experimentos de perfiles mutacionales. Incluye sondeo in vitro e in vivo con dos métodos alternativos de preparación de bibliotecas.
El papel de la estructura del ARN en prácticamente cualquier proceso biológico se ha vuelto cada vez más evidente, especialmente en la última década. Sin embargo, los enfoques clásicos para resolver la estructura del ARN, como la cristalografía de ARN o la crio-EM, no han logrado mantenerse al día con el campo en rápida evolución y la necesidad de soluciones de alto rendimiento. Perfil mutacional con secuenciación usando sulfato de dimetilo (DMS) MaPseq es un enfoque basado en la secuenciación para inferir la estructura de ARN a partir de la reactividad de una base con DMS. DMS metila el nitrógeno N1 en adenosinas y el N3 en citosinas en su cara de Watson-Crick cuando la base no está apareada. La transcripción inversa del ARN modificado con la transcriptasa inversa del intrón termoestable del grupo II (TGIRT-III) conduce a que las bases metiladas se incorporen como mutaciones en el ADNc. Al secuenciar el ADNc resultante y asignarlo a una transcripción de referencia, las tasas de mutación relativas para cada base son indicativas del “estado” de la base como emparejada o no apareada. Aunque las reactividades DMS tienen una alta relación señal-ruido tanto in vitro como en células, este método es sensible al sesgo en los procedimientos de manipulación. Para reducir este sesgo, este documento proporciona un protocolo para el tratamiento de ARN con DMS en células y con ARN transcrito in vitro .
Desde el descubrimiento de que el ARN tiene propiedades estructurales1,2 y catalíticas3, la importancia del ARN y su función reguladora en una plétora de procesos biológicos se han descubierto gradualmente. De hecho, el efecto de la estructura del ARN en la regulación génica ha ganado cada vez más atención4. Al igual que las proteínas, el ARN tiene estructuras primarias, secundarias y terciarias, que se refieren a la secuencia de nucleótidos, el mapeo 2D de las interacciones de emparejamiento de bases y el plegamiento 3D de estas estructuras pareadas de bases, respectivamente. Si bien determinar la estructura terciaria es clave para comprender los mecanismos exactos detrás de los procesos dependientes del ARN, la estructura secundaria también es muy informativa sobre la función del ARN y es la base para un mayor plegamiento 3D5.
Sin embargo, determinar la estructura del ARN ha sido intrínsecamente desafiante con los enfoques convencionales. Mientras que para las proteínas, la cristalografía, la resonancia magnética nuclear (RMN) y la microscopía electrónica criogénica (crio-EM) han permitido determinar la diversidad de motivos estructurales, permitiendo la predicción de la estructura a partir de la secuencia sola6, estos enfoques no son ampliamente aplicables a los ARN. De hecho, los ARN son moléculas flexibles con bloques de construcción (nucleótidos) que tienen mucha más libertad conformacional y rotacional en comparación con sus contrapartes de aminoácidos. Además, las interacciones a través del emparejamiento de bases son más dinámicas y versátiles que las de los residuos de aminoácidos. Como resultado, los enfoques clásicos han tenido éxito solo para ARN relativamente pequeños con estructuras bien definidas y altamente compactas7.
Otro enfoque para determinar la estructura del ARN es a través del sondeo químico combinado con la secuenciación de próxima generación (NGS). Esta estrategia genera información sobre el estado de unión de cada base en una secuencia de ARN (es decir, su estructura secundaria). En resumen, las bases en una molécula de ARN que no participan en el emparejamiento de bases se modifican diferencialmente por pequeños compuestos químicos. La transcripción inversa de estos ARN con transcriptasas inversas especializadas (RT) incorpora las modificaciones en ácido desoxirribonucleico complementario (ADNc) como mutaciones. Estas moléculas de ADNc son amplificadas por la reacción en cadena de la polimerasa (PCR) y secuenciadas. Para obtener información sobre su “estado” como unido o no unido, las frecuencias de mutación en cada base en un ARN de interés se calculan y se introducen en el software de predicción de estructuras como restricciones8. Basado en las reglas del vecino más cercano9 y los cálculos mínimos de energía libre 10, este software genera modelos de estructura que mejor se ajustan a los datos experimentales obtenidos11,12.
DMS-MaPseq utiliza DMS, que metila el nitrógeno N1 en adenosinas y el nitrógeno N3 en citosinas en su cara de Watson-Crick de una manera altamente específica13. El uso de la transcriptasa inversa intrón termoestable del grupo II (TGIRT-III) en la transcripción inversa crea perfiles mutacionales con relaciones señal-ruido sin precedentes, incluso permitiendo la deconvolución de perfiles superpuestos generados por dos o más conformaciones alternativas14,15. Además, el DMS puede penetrar las membranas celulares y los tejidos enteros, lo que hace posible el sondeo dentro de contextos fisiológicos. Sin embargo, la generación de datos de buena calidad es un desafío, ya que las variaciones en el procedimiento de manejo pueden afectar los resultados. Por lo tanto, proporcionamos un protocolo detallado para DMS-MaPseq in vitro y en la célula para reducir el sesgo y guiar a los recién llegados al método a través de las dificultades que pueden encontrar. Especialmente a la luz de la reciente pandemia de SARS-CoV2, los datos de alta calidad sobre los virus de ARN son una herramienta importante para estudiar la expresión génica y encontrar posibles terapias.
El protocolo aquí describe cómo sondear el ARN in vitro y en células utilizando experimentos de perfil mutacional DMS. Además, da instrucciones sobre cómo preparar bibliotecas para la secuenciación de Illumina para generar datos específicos de genes y analizar los archivos .fastq obtenidos. Además, se pueden utilizar enfoques de biblioteca de todo el genoma. Sin embargo, la RT-PCR específica de genes produce la más alta calidad y los datos más sólidos. Por lo tanto, si se compara entre muestras, es importante asegurarse de que estén preparadas con estrategias de secuenciación idénticas, ya que la generación de la biblioteca causa cierto sesgo. La reproducibilidad siempre debe medirse mediante el uso de réplicas.
Varias precauciones
El ARN es una molécula inestable que es sensible a la degradación tanto a través de temperaturas elevadas como por RNasas. Por lo tanto, se recomiendan medidas especiales: el uso de equipo de protección personal (EPP), material libre de ARNasa e inhibidores de la ARNasa. Lo más importante es que el ARN debe mantenerse en hielo siempre que sea posible. Esto se aplica especialmente al ARN metilado, que es aún más sensible a las altas temperaturas.
Es importante confirmar que la estructura de ARN de interés no es sensible a la concentración de DMS y las condiciones de amortiguación. Los tampones como 100 mM Tris, 100 mM MOPS y 100 mM HEPES a pH 7-7.5 dan una señal alta, pero pueden no ser suficientes para mantener el pH durante la reacción21. A medida que el DMS se hidroliza en agua, lo que disminuye el pH, un tampón fuerte es crítico para mantener un pH neutro durante la reacción de modificación. Se ha demostrado que la adición de bicine ayuda a mantener el pH como ligeramente básico21 , pero da como resultado una baja modificación de DMS en Gs y Us, lo que podría ser informativo, pero debe analizarse por separado debido a la producción de una señal mucho más baja que As y Cs y no se discute más en este protocolo.
En la RT-PCR específica del gen, el ARN modificado se transcribe inversamente en el ADN y se amplifica en fragmentos mediante PCR. Si bien el tamaño del ARN puede ser teóricamente ilimitado, estos fragmentos de PCR no deben exceder una longitud de 400-500 pares de bases (pb) para evitar el sesgo durante la reacción de transcripción inversa. Idealmente, los fragmentos deben estar dentro del alcance de la ejecución de secuenciación (es decir, si la secuenciación se realiza utilizando un programa de secuenciación pareada de 150 x 150 ciclos, un solo fragmento no debe exceder los 300 pb). Cuando se utilizan programas de secuenciación con menos ciclos, los productos de PCR se pueden fragmentar utilizando una dsDNasa. Además, como las secuencias dentro de las secuencias de cebador no contienen ninguna información estructural, los fragmentos deben superponerse cuando el ARN sondeado comprende >1 fragmento. Las reacciones RT pueden contener múltiples cebadores RT para diferentes fragmentos (hasta 10 cebadores RT diferentes). Dependiendo de las secuencias, agrupar los cebadores RT puede hacer que la transcripción inversa sea menos eficiente, pero generalmente funciona bien. Cada reacción de PCR debe realizarse por separado.
Al sondear ARN con DMS, las condiciones experimentales juegan un papel adicional, ya que muchos ARN son termodinámicamente inestables y cambian su conformación en función de factores ambientales como la temperatura. Para evitar irregularidades, las condiciones experimentales deben mantenerse lo más constantes posible, también con respecto a los tiempos de reacción. Las condiciones de amortiguación parecen ser intercambiables hasta cierto punto 17,20,22,23 cuando se mantienen las condiciones básicas —la capacidad amortiguadora y la presencia de iones monovalentes (Na) y divalentes (Mg)— para asegurar un plegamiento adecuado del ARN 24.
Con respecto a la preparación de la biblioteca de ARN modificados, se deben tener en cuenta varios aspectos. Primero, como se mencionó anteriormente, los ARN modificados son menos estables que sus contrapartes no modificadas, lo que significa que podrían requerir la optimización de los tiempos de fragmentación para una distribución óptima del tamaño del fragmento. Además, ciertos kits de preparación de bibliotecas de ARN, así como muchos otros enfoques de RNAseq, utilizan cebadores aleatorios en el kit de transcripción inversa. Esto podría conducir a una menor cobertura de la referencia, especialmente en el 3′ de un gen, y, en última instancia, a una profundidad de cobertura insuficiente. Si la cobertura de una determinada región es demasiado baja, podría ser necesario eliminar esas bases de la predicción de la estructura. Además de RT-PCR y kits RNAseq de genoma completo, se pueden utilizar otros enfoques de preparación de bibliotecas. Los protocolos que incluyen la ligadura de adaptadores 3′ y/o 5′ al ARN son ventajosos cuando se utilizan pequeños fragmentos de ARN o cuando se debe evitar la pérdida de información de sondeo en las regiones del cebador.
Por último, el análisis de los experimentos de sondeo químico siempre debe interpretarse cuidadosamente. Actualmente, no existe un software que prediga la estructura de ARN de cualquier ARN a partir de la secuencia sola con alta precisión. Aunque las restricciones de sondeo químico mejoran en gran medida la precisión, la generación de buenos modelos para ARN largos (>500 nt) sigue siendo un desafío. Estos modelos deben ser probados adicionalmente por otros enfoques y / o mutagénesis. El software de predicción de ARN optimiza el número máximo de pares de bases, penalizando significativamente las conformaciones abiertas, que pueden no representar con precisión el plegamiento del ARN5. Por lo tanto, el modelo de estructura obtenido debe probarse cuantificando el acuerdo de predicción con los datos de sondeo químico subyacentes (por ejemplo, por AUROC) y entre réplicas (por ejemplo, por mFMI), como lo ejemplifican Lan et al.20.
Idealmente, varios experimentos en diferentes sistemas para desafiar el modelo de estructura obtenido deberían usarse para fortalecer la hipótesis. Estos pueden incluir el uso de enfoques in vitro e intracelular, mutaciones compensatorias y diferentes líneas celulares y especies. Además, las reactividades en bruto son a menudo tan o incluso más informativas que las predicciones de estructura, ya que registran la instantánea de la “verdad del terreno” del conjunto de plegamiento de ARN. Como tal, las reactividades en bruto son muy adecuadas e informativas para comparar cambios de estructura entre diferentes condiciones. Es importante destacar que las estructuras de energía libre más bajas calculadas utilizando restricciones de sondeo químico con predicción computacional solo deben usarse como una hipótesis de partida hacia un modelo de estructura completa.
The authors have nothing to disclose.
Ninguno
1 Kb Plus DNA Ladder | 10787018 | Thermo | |
2-mercaptoethanol | M6250-250ML | Sigma | |
Acid-Phenol:Chloroform, pH 4.5 | AM9720 | Thermo | |
Advantage PCR | 639206 | Takara | |
CloneAmp HiFi PCR Premix | 639298 | Takara | |
DMS | D186309 |
Sigma | |
dNTPs 10 mM each | U151B | Promega | |
E-Gel EX Agarose Gels, 2% | G402022 | Thermo | precast agarose gels |
Ethanol (200 proof) | E7023-4X4L | Sigma | |
Falcon tubes, 15 mL, 50 mL | |||
GlycoBlue | co-precipitant | ||
HCT-8 cells | ATCC #CCL-244 | ||
Invitrogen MgCl2 (1 M) | AM9530G | fisherscientific | |
Isopropanol | 278475 | Sigma | |
Megascript T7 transcription | AM1334 | Thermo | |
NanoDrop spectrophotometer | |||
Novex TBE Gels, 8%, 10 well | EC6215BOX | Thermo | |
OC43 | ATCC #VR-1558 | ||
RiboRuler Low Range RNA Ladder | SM1831 | Thermo | |
RNAse H | M0297L | NEB | |
Sodium Cacodylate, 0.4 M, pH 7.2 | 102090-964 | VWR | |
Sodium hydroxide solution | S8263-150ML | Sigma | |
SuperScript II Reverse Transcriptase for FSB and DTT | 18064014 | Thermo | |
TGIRT-III Enzyme | TGIRT50 | Ingex | |
The Oligo Clean & Concentrator | D4060 | Genesee | |
The RNA Clean & Concentrator kits are RNA clean up kits | R1016 | Genesee | |
TRIzol Reagents | 15596018 | Thermo | RNA isolation reagent |
Water, (For RNA Work) (DEPC-Treated, DNASE, RNASE free/Mol. Biol.) | BP561-1 | fisherscientific | |
xGen Broad-range RNA Library Prep 16rxn | 10009865 | IDT | |
Zymo RNA clean and concentrator columns |