Este protocolo describe el método Capture Hi-C utilizado para caracterizar la organización 3D de regiones genómicas específicas de tamaño megabasado en alta resolución, incluidos los límites de los dominios de asociación topológica (TAD) y las interacciones de cromatina de largo alcance entre los elementos reguladores y otros elementos de secuencia de ADN.
La organización espacial del genoma contribuye a su función y regulación en muchos contextos, incluyendo la transcripción, replicación, recombinación y reparación. Por lo tanto, comprender la causalidad exacta entre la topología y la función del genoma es crucial y cada vez más objeto de una investigación intensiva. Las tecnologías de captura de conformación cromosómica (3C) permiten inferir la estructura 3D de la cromatina midiendo la frecuencia de interacciones entre cualquier región del genoma. Aquí describimos un protocolo rápido y simple para realizar Capture Hi-C, un método de enriquecimiento de objetivos basado en 3C que caracteriza la organización 3D específica de alelos de objetivos genómicos de tamaño megabasado en alta resolución. En Capture Hi-C, las regiones objetivo son capturadas por una serie de sondas biotiniladas antes de la secuenciación de alto rendimiento aguas abajo. Por lo tanto, se logra una mayor resolución y alelo especificidad al tiempo que se mejora la efectividad del tiempo y la asequibilidad de la tecnología. Para demostrar sus fortalezas, se aplicó el protocolo Capture Hi-C al centro de inactivación X ( Xic) del ratón, el locus regulador maestro de la inactivación del cromosoma X (XCI).
El genoma lineal contiene toda la información necesaria para que un organismo experimente el desarrollo embrionario y sobreviva hasta la edad adulta. Sin embargo, instruir a células genéticamente idénticas para que realicen diferentes funciones es fundamental para controlar con precisión qué información se utiliza en contextos específicos, incluidos diferentes tejidos y / o etapas de desarrollo. Se cree que la organización tridimensional del genoma participa en esta regulación espacio-temporal precisa de la actividad génica al facilitar o prevenir la interacción física entre elementos reguladores que pueden separarse por varios cientos de kilobases en el genoma lineal (para revisiones 1,2,3). En los últimos 20 años, nuestra comprensión de la interacción entre el plegamiento del genoma y la actividad ha aumentado rápidamente, en gran parte debido al desarrollo de tecnologías de captura de conformación cromosómica (3C) (para revisión 4,5,6,7). Estos métodos miden la frecuencia de las interacciones entre cualquier región del genoma y se basan en la ligadura de secuencias de ADN que están en estrecha proximidad 3D dentro del núcleo. Los protocolos 3C más comunes comienzan con la fijación de poblaciones celulares con un agente de reticulación como el formaldehído. La cromatina reticulada se digiere entonces con una enzima de restricción, aunque también se ha utilizado la digestión de la MNasa 8,9. Después de la digestión, el ADN libre termina en estrecha proximidad espacial y se vuelve a ligar y se invierte la reticulación. Este paso da lugar a la ‘biblioteca’ o ‘plantilla’ 3C, un grupo mixto de fragmentos híbridos en el que las secuencias que estaban en 3D cerca del núcleo tienen mayores posibilidades de ligarse en el mismo fragmento de ADN. La cuantificación posterior de estos fragmentos híbridos permite inferir la conformación 3D de regiones genómicas que se encuentran a miles de pares de bases separadas en el genoma lineal, pero que podrían interactuar en el espacio 3D.
Se han desarrollado muchos enfoques diferentes para caracterizar la biblioteca 3C, difiriendo tanto en términos de qué subconjuntos de fragmentos de ligadura se analizan como de qué tecnología se utiliza para su cuantificación posterior. El protocolo 3C original se basó en la selección de dos regiones de interés y la cuantificación de su frecuencia de interacción “uno contra uno” mediante PCR10,11. El enfoque 4C (captura de conformación cromosómica circular) mide las interacciones entre un único locus de interés (es decir, el ‘punto de vista’) y el resto del genoma (‘uno contra todos’)12,13,14. En 4C, la biblioteca 3C se somete a una segunda ronda de digestión y religación para generar pequeñas moléculas circulares de ADN que son amplificadas por PCR por cebadores específicos de punto de vista15. 5C (copia de carbono de captura de conformación cromosómica) permite la caracterización de interacciones 3D en regiones de interés más grandes, proporcionando información sobre el plegamiento de cromatina de orden superior dentro de esa región (‘muchos versus muchos’)16. En 5C, la biblioteca 3C se hibrida a un conjunto de oligonucleótidos que se superponen a sitios de restricción que pueden ser amplificados posteriormente por PCR múltiplex con cebadores universales15. Tanto en 4C como en 5C, los fragmentos de ADN informativos fueron cuantificados inicialmente por microarrays y posteriormente por secuenciación de próxima generación (NGS)17,18,19. Estas estrategias caracterizan las regiones específicas de interés, pero no se pueden aplicar para mapear las interacciones de todo el genoma. Este último objetivo se logra con Hi-C, una estrategia de alto rendimiento basada en 3C en la que la secuenciación masivamente paralela de la plantilla 3C permite la caracterización imparcial del plegamiento de la cromatina a nivel de todo el genoma (‘todos contra todos’)20. El protocolo Hi-C incluye la incorporación de un residuo biotinilado en los extremos de los fragmentos digeridos, seguido por la extracción de fragmentos de ligadura con perlas de estreptavidina para aumentar la recuperación de fragmentos ligados20.
Hi-C reveló que los genomas de mamíferos están organizados estructuralmente a múltiples escalas en el núcleo 3D. A escala de megabase, el genoma se divide en regiones de cromatina activa e inactiva, los compartimentos A y B, respectivamente20,21. La existencia de subcompartimentos adicionales representados por diferentes estados de cromatina y actividad también se mostró posteriormente22. A mayor resolución, el genoma se divide aún más en dominios de autointeracción sub-megabase llamados dominios de asociación topológica (TADs), revelados por primera vez por el análisis Hi-C y 5C de los genomas humano y de ratón23,24. A diferencia de los compartimentos que varían de manera específica del tejido, los TAD tienden a ser constantes (aunque hay muchas excepciones). Es importante destacar que los límites de TAD se conservan en todas las especies25. En las células de mamíferos, los TAD con frecuencia abarcan genes que comparten el mismo panorama regulatorio y se ha demostrado que representan un marco estructural que facilita la corregulación génica al tiempo que limita las interacciones con los dominios reguladores vecinos (para revisión 3,26,27,28). Además, dentro de los TAD, las interacciones debidas a los sitios CTCF en la base de los bucles extruidos de cohesina pueden aumentar la probabilidad de interacciones promotor-potenciador o potenciador-potenciador (para la revisión29).
En Hi-C, los compartimentos y TAD se pueden detectar a una resolución de 1 Mb a 40 kb, pero se puede lograr una resolución más alta para caracterizar contactos de menor escala, como interacciones de bucle entre elementos distales a una escala de 5-10 kb. Sin embargo, aumentar la resolución para poder detectar dichos bucles de manera eficiente mediante HiC requiere un aumento significativo en la profundidad de secuenciación y, por lo tanto, en los costos de secuenciación. Esto se agrava si el análisis debe ser alelo específico. De hecho, un aumento de X veces en la resolución requiere un aumento X2 en la profundidad de secuenciación, lo que significa que los enfoques de alta resolución y alelos específicos de todo el genoma pueden ser prohibitivamente costosos30.
Para mejorar la rentabilidad y la asequibilidad mientras se mantiene una alta resolución, las regiones objetivo de interés se pueden extraer físicamente de las bibliotecas 3C o Hi-C de todo el genoma después de su hibridación con sondas de oligonucleótidos marcadas con biotina complementarias antes de la secuenciación posterior. Estas estrategias de enriquecimiento de objetivos se conocen como métodos de captura-C y permiten interrogar las interacciones de cientos de loci objetivo dispersos por todo el genoma (es decir, Promoter Capture (PC) Hi-C; Captura de próxima generación (NG) C; Captura de entrada baja (LI)-C; Captura de Título Nuclear (NuTi)-C; Tri-C)31,32,33,34,35,36,37,38,39,40, o a través de regiones que abarcan hasta varias megabases (es decir, Capture HiC; HYbrid Capture Hi-C (Hi-C2); Azulejo-C)41,42,43. Dos aspectos pueden variar en los métodos basados en la captura: (1) la naturaleza y el diseño de oligonucleótidos biotinilados (es decir, ARN o ADN, oligos individuales que capturan objetivos genómicos dispersos o múltiples oligos que teselan una región de interés); y (2) la plantilla que se utiliza para derribar objetivos que pueden ser la biblioteca 3C o Hi-C, esta última consiste en fragmentos de restricción biotinilados extraídos de la biblioteca 3C.
Aquí se describe un protocolo Capture Hi-C basado en el enriquecimiento de los contactos de destino de la biblioteca 3C. El protocolo se basa en el diseño de una matriz de mosaico personalizada de sondas de ARN biotiniladas y se puede realizar en 1 semana desde la preparación de la biblioteca 3C hasta la secuenciación NGS. El protocolo es rápido, simple y permite caracterizar la organización 3D de orden superior de las regiones de interés de tamaño megabase con una resolución de 5 kb, al tiempo que mejora la efectividad del tiempo y la asequibilidad en comparación con otros métodos 3C. El protocolo Capture Hi-C se aplicó al locus regulador maestro de la inactivación del cromosoma X (XCI), el centro de inactivación X (Xic), que alberga el ARN no codificante Xist. El Xic ha sido previamente objeto de extensos análisis estructurales y funcionales (para revisión44,45). En los mamíferos, XCI compensa la dosis de genes ligados al cromosoma X entre hembras (XX) y machos (XY) e implica el silenciamiento transcripcional de casi la totalidad de uno de los dos cromosomas X en las células femeninas. El Xic ha representado un poderoso locus estándar de oro para estudios en topología genómica 3D y la interacción con la regulación génica44. El análisis de 5C del Xic en células madre embrionarias de ratón (mESCs) condujo al descubrimiento y denominación de TADs, proporcionando los primeros conocimientos sobre la relevancia funcional de la partición topológica y la corregulación génica24. Posteriormente, se demostró que la organización topológica del Xic estaba críticamente involucrada en el momento apropiado del desarrollo de la regulación positiva del Xist y XCI 46, y también se descubrieron recientemente elementos reguladores cis insospechados que pueden influir en la actividad génica dentro y entre los TAD dentro del Xic47,48,49. La aplicación de Capture Hi-C a 3 Mb del cromosoma X del ratón que abarca el Xic demuestra el poder de este enfoque para diseccionar el plegamiento de cromatina a gran escala a alta resolución. Se proporciona un protocolo detallado y fácil de seguir, desde el diseño de la matriz de sondas biotiniladas en cada sitio de restricción de DpnII dentro de la región de interés hasta la generación de la biblioteca 3C de todo el genoma, la hibridación y captura de contactos objetivo y el análisis de datos posteriores. También se incluye una visión general de los controles de calidad apropiados y los resultados esperados, y tanto las fortalezas como las limitaciones del enfoque se discuten a la luz de métodos similares existentes.
Aquí describimos un protocolo Capture Hi-C relativamente rápido y fácil para caracterizar la organización de orden superior de regiones genómicas de tamaño megabase a una resolución de 5-10 kb. Capture Hi-C pertenece a la familia de tecnologías Capture-C que están diseñadas para enriquecer las interacciones de cromatina dirigidas a partir de plantillas 3C o Hi-C de todo el genoma. Hasta la fecha, la gran mayoría de las aplicaciones de Capture-C se han explotado para mapear contactos de cromatina de elementos reguladores relativamente pequeños dispersos por todo el genoma. En el primer protocolo Capture-C, se utilizaron múltiples sondas biotiniladas de ARN superpuestas para capturar >400 promotores preseleccionados en bibliotecas 3C preparadas a partir de células eritroides31. La misma estrategia se mejoró posteriormente en Next Generation (NG) y Nuclear Titrated (NuTi) Capture-C para lograr perfiles de interacción de alta resolución de >8,000 promotores mediante el uso de cebos de ADN únicos de 120 pb que abarcan sitios de restricción individuales y dos rondas secuenciales de captura para maximizar el enriquecimiento de fragmentos de ligadura informativos32,40. Estas estrategias condujeron a la disección funcional de elementos de acción cis en muchos contextos diferentes, incluido el desarrollo embrionario de ratón, la diferenciación celular, la inactivación del cromosoma X y la mala regulación génica en condiciones patológicas 46,63,65,66,67,68,69,70,71.
En Promoter Capture Hi-C (PCHi-C), >22.000 promotores anotados que contenían fragmentos de restricción fueron extraídos de las bibliotecas Hi-C mediante hibridación de sondas biotiniladas de ARN 120-mer individuales en uno o ambos extremos del fragmento de restricción34,72. Este método permitió la disección del interactoma de miles de promotores en un número cada vez mayor de tipos de células, incluyendo células madre embrionarias de ratón, células hepáticas fetales y adipocitos 34,35,72,73, pero también líneas linfoblastoides humanas, progenitores hematopoyéticos, queratinocitos epidérmicos y células pluripotentes 37,74,75,76,77 .
En comparación con estas tecnologías de enriquecimiento de objetivos, Capture Hi-C se dirige a regiones genómicas contiguas hasta la escala de megabase, abarcando así uno o más TAD y abarcando paisajes reguladores de genes. Toda la región de interés debe estar embaldosada con una serie de sondas biotiniladas que abarquen cada sitio de restricción de DpnII dentro del objetivo. La hibridación de la matriz biotinilada a la plantilla 3C, su posterior captura basada en estreptavidina y el procesamiento para la secuenciación multiplexada se realiza utilizando un sistema de enriquecimiento de objetivos para la secuenciación multiplexada Illumina Paired-End. Todo el protocolo es rápido, ya que se puede realizar en 1 semana desde la preparación de la biblioteca 3C hasta la secuenciación NGS, y solo requiere adaptaciones menores y / o solución de problemas específicos personalizados.
El protocolo también proporciona ventajas en comparación con otros métodos basados en 3C. Para obtener mapas de interacción a una resolución de 5-10 kb, secuenciamos lecturas de extremo pareado de 100-120 M. Como comparación, utilizamos aquí un conjunto de datos Hi-C de 571 M lecturas para alcanzar una resolución de 20 kb64 (GSM2053973), y se necesitarían al menos 1.000 millones de lecturas para alcanzar una resolución de 5 kb con Hi-C22 en todo el cromosoma.
La captura Hi-C utilizada en el presente estudio alcanza una resolución mucho mayor que la 5C publicada anteriormente basada en una enzima de restricción cortadora de 6 pb47 (Tabla suplementaria 1). Es importante destacar que la estrategia diseñada para enriquecer y amplificar las interacciones dirigidas en 5C no permite el análisis alelo específico de las interacciones de la cromatina. Por el contrario, los datos de Capture Hi-C pueden ser mapeados alelo específicamente, permitiendo la disección de los paisajes estructurales 3D de pares de cromosomas homólogos, por ejemplo en células humanas o en líneas celulares híbridas F1 derivadas mediante el cruce de cepas de ratón genéticamente diferentes78. Para generar mapas de interacción Capture Hi-C específicos de alelos a una resolución de 5 kb, secuenciamos lecturas de extremo pareado de 150 pb para aumentar la cobertura de SNP. Se pueden aplicar enfoques alelo-específicos similares a líneas celulares humanas, para las cuales la anotación de SNPs está disponible22.
Es importante destacar que, aunque Capture Hi-C generalmente garantiza una alta resolución al tiempo que mejora la asequibilidad de los costos de secuenciación, la producción de oligonucleótidos biotinilados personalizados tiene un impacto en el costo total de este método. Por lo tanto, la elección del método 3C más adecuado diferirá para diferentes aplicaciones, y dependerá de la cuestión biológica que se esté abordando y la resolución requerida, así como del tamaño de la región de interés. Otros protocolos Capture Hi-C desarrollados comparten características clave con el protocolo descrito aquí. Por ejemplo, se aplicó una estrategia Capture Hi-C para caracterizar regiones genómicas de ~50 kb a 1 Mb que abarcan variantes no codificantes asociadas con el riesgo de cáncer de mama y colorrectal; en este protocolo, las regiones objetivo se retiraron de las bibliotecas Hi-C hibridando cebos de ARN de 120 mer en mosaico de las regiones objetivo a una cobertura 33,38,79. Del mismo modo, HYbrid Capture Hi-C (Hi-C 2) se utilizó para orientar las interacciones dentro de las regiones de interés de hasta2 Mb80. En ambos protocolos, el uso de una plantilla Hi-C enriquecida para fragmentos de ligadura extraídos de biotina aumentó el porcentaje de lecturas informativas totales en comparación con nuestro protocolo. Por ejemplo, en el conjunto de datos Hi-C que utilizamos aquí para la comparación64 (GSM2053973), el porcentaje de pares válidos después de la eliminación de duplicados es 4,8 veces mayor que los pares válidos obtenidos en Capture Hi-C como se describe en la Figura 3 y la Tabla suplementaria 1. Sin embargo, la extracción consecutiva de fragmentos ligados biotinilados y sondas hibridadas hace que el protocolo sea significativamente más complejo y lento, al tiempo que posiblemente disminuya la complejidad de la región capturada.
Otro método disponible para enriquecer las plantillas 3C con sondas de mosaico es Tiled-C, que se aplicó para estudiar la arquitectura de la cromatina a alta resolución espacial y temporal durante la diferenciación eritroide del ratón43. En Tiled-C, se utiliza un panel de sondas biotiniladas de 70 pb para enriquecer los contactos dentro de regiones a gran escala en dos rondas consecutivas de captura para generar mapas de muy alta resolución de interacciones específicas43,81. El doble enriquecimiento de captura también hace que el protocolo sea más largo y complejo en comparación con Capture Hi-C. Sin embargo, a diferencia de las estrategias Capture-C dirigidas a sitios de restricción individuales, en Tiled-C la segunda ronda de captura no parece aumentar significativamente la eficiencia de captura y, por lo tanto, probablemente se pueda omitir43. Finalmente, se aplicó un enfoque de mosaico similar basado en la misma estrategia de enriquecimiento objetivo utilizada en este estudio a la disección de paisajes regulatorios que abarcan variantes estructurales descritas en pacientes con malformaciones congénitas y rediseñadas en ratones transgénicos41,42. En este caso, la matriz de mosaico de sondas se diseñó en todo el objetivo en lugar de en la proximidad de los sitios de restricción DpnII41. Sin embargo, este trabajo fue fundamental para resaltar la sensibilidad y el poder de esta estrategia para lograr la caracterización de alta resolución de grandes regiones genómicas en diferentes contextos41,42,48.
En conclusión, el protocolo descrito aquí representa una estrategia fácil, robusta y poderosa para la caracterización 3D de alta resolución de cualquier región genómica de interés. La aplicación de este enfoque a diferentes sistemas modelo, tipos de células, paisajes de cromatina regulados por el desarrollo y regulación génica en condiciones saludables y patológicas es probable que facilite nuestra comprensión de la interacción y la causalidad entre la topología del genoma y la regulación génica, una de las preguntas abiertas fundamentales en el campo de la epigenética. Además, la aplicación de Capture Hi-C para mapear interacciones de largo alcance y plegamiento de cromatina de orden superior de variantes de riesgo identificadas por estudios GWAS tiene el potencial de revelar la relevancia funcional de los loci genómicos no codificantes asociados con enfermedades humanas en diferentes contextos, proporcionando así nuevos conocimientos sobre los procesos potencialmente subyacentes a la patogénesis.
The authors have nothing to disclose.
El trabajo en el laboratorio Heard fue apoyado por un premio Advanced Investigator del Consejo Europeo de Investigación (XPRESS – AdG671027). A.L. cuenta con el apoyo de una beca individual Marie Skłodowska-Curie Actions de la Unión Europea (IF-838408). A.H. cuenta con el apoyo de ITN Innovative and Interdisciplinary Network ChromDesign, en virtud del acuerdo de subvención Marie Skłodowska-Curie 813327. Los autores agradecen a Daniel Ibrahim (MPI for Molecular Genetics, Berlín) por su útil asesoramiento técnico, a la plataforma NGS en el Institut Curie (París), y a Vladimir Benes y al Genomics Core Facility en EMBL (Heidelberg), por su apoyo y asistencia.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |