Elementos reguladores del ADN, como potenciadores, controlan la expresión génica físicamente en contacto con promotores de genes de la blanco, a menudo a través de interacciones cromosómicas largo alcance que abarca grandes distancias genómicas. Promotor de captura Hi-C (PCHi-C) identifica interacciones significativas entre promotores y regiones distales, permitiendo la asignación de posibles secuencias reguladoras a sus genes diana.
La organización tridimensional del genoma está ligada a su función. Por ejemplo, elementos reguladores como potenciadores transcripcionales controlan de la expresión espacio-temporal de sus genes diana a través del contacto físico, a menudo salvar distancias genómica considerable (en algunos casos cientos de kilobases) y pasando por alto genes cercanos. El genoma humano alberga un estimado potenciadores 1 millón, la mayoría de los cuales tiene desconocido objetivos gen. Así es crucial para entender el control de la expresión de gene asignar distales regiones reguladoras de sus genes diana. Hemos desarrollado promotor capturar Hi-C (PCHi-C) para permitir la detección de genoma de regiones de interacción promotor distales (PIR), para todos los promotores en un solo experimento. PCHi-c, altamente complejo Hi-C bibliotecas son enriquecidas específicamente para secuencias de promotor a través de la selección de híbridos en solución con miles de cebos biotinilado RNA complementarios a los extremos de los fragmentos de restricción que contiene el promotor. El objetivo es secuencias de promotor entonces hacia abajo y sus compañeros de interacción frecuente como potenciadores y otros posibles elementos reguladores. Después de la secuenciación de alto rendimiento extremo apareado, se aplica una prueba estadística a cada fragmento de restricción ligada promotor identificar PIRs significativas a nivel de fragmento de restricción. Hemos utilizado PCHi-C para generar un atlas de interacciones de largo alcance promotor en decenas de humanos y tipos de células de ratón. Estos mapas del interactoma promotor han contribuido a una mayor comprensión del control de la expresión de genes mamíferos asignando regiones reguladoras supuestas a sus genes diana y revela redes de interacción espacial preferencial promotor-promotora. Esta información también tiene gran importancia para entender la enfermedad genética humana y la identificación de genes de enfermedades potenciales, vinculando no codificante asociada a enfermedad secuencia variantes en o cerca de secuencias de control a sus genes diana.
La acumulación de pruebas sugiere que la organización tridimensional del genoma juega un papel funcional importante en una variedad de procesos nucleares, incluyendo gene activación1,2,3, represión4 ,5,6,7,8, recombinación9,10, DNA repair11, DNA replication12,13, y senescencia celular14. Potenciadores del distantes se encuentran en estrecha proximidad espacial a los promotores regulan15,16,17, que es esencial para el control de la expresión de gene spatio-temporal adecuada. Eliminaciones de reforzador muestran que potenciadores distales son esenciales para el objetivo gene transcripción18,19,20,21,22y ‘forzado cromatina bucles’ demuestra que es suficiente para impulsar la activación transcripcional23ingeniería tethering entre un intensificador y su promotor de destino en el lugar geométrico de la Hbb . Además, los cambios del genoma que llevan genes bajo el control de reforzadores ectópicos pueden resultar en activación de gen inadecuado y enfermedad24,25,26. Juntos, estos ejemplos ilustran que las interacciones promotor enhancer son esenciales para el control del gen y requieren regulación apretada para expresión génica adecuada. El ser humano y los genomas del ratón cada uno se estima que alrededor 1 millón potenciadores del puerto. Para la gran mayoría de estos potenciadores, genes de la blanco son desconocidos, y las reglas de enfrentamiento entre promotores y potenciadores son poco conocidas. Asignar sus genes diana transcripcionales enhancers así sigue siendo un desafío importante en descifrar el control de la expresión de genes mamíferos.
Nuestra comprensión de la arquitectura tridimensional del genoma ha sido revolucionado por la introducción de 3C27 (captura de la conformación de cromosoma) y sus variantes28,29,30,31 . La más poderosa de estas técnicas, Hi-C (captura de conformación de cromosoma de alto rendimiento) está diseñada para identificar todo el conjunto de interacciones cromosómicas dentro de una población celular. Hola C bibliotecas, normalmente generadas por millones de células, son altamente complejas con un estimado 1011 productos de ligadura independientes entre fragmentos de ~ 4 kb en el genoma humano32. Como una consecuencia, identificación confiable y reproducible de las interacciones entre la restricción individual fragmentos (como los que contienen un promotor o potenciador) de datos Hi-C no están factibles a menos que Hi-C bibliotecas son objeto de secuenciación profunda ultra, que no es una solución económicamente viable para preparar bibliotecas Hi-C rutinariamente los laboratorios. Para evitar esta carencia, hemos desarrollado promotor capturar Hi-C específicamente enriquecer productos de ligadura que contienen el promotor de Hi-C bibliotecas. Nos enfocamos en promotores por dos razones. En primer lugar, contactos promotor enhancer han demostrado ser cruciales para los niveles de expresión génica adecuada en numerosos estudios (ver referencias anteriores), y en segundo lugar, como promotores en gran medida invariantes entre tipos celulares, el mismo sistema de captura de cebo puede utilizarse para interrogar el circuito regulador en múltiples tipos celulares y condiciones. Nuestro enfoque se basa en la solución en hibridación de bibliotecas Hi-C con decenas de miles de 120mers biotinilado RNA complementario a los productos que contienen el promotor Hi-C ligadura y posterior captura de bolas magnéticas recubiertas de estreptavidina. Esto se traduce en bibliotecas PCHi-C con mucho menor complejidad en comparación con la original biblioteca de HI-c, centrándose sólo en la identificación de los fragmentos que se unen a los promotores a significativamente altas frecuencias.
Hemos utilizado PCHi-C en un número de humanos y tipos de células de ratón para contribuir a una mejor comprensión del control de expresión del gene por descubrir regiones interacción promotor distal largo alcance con supuesta función reguladora, así como no-al azar contactos de promotor-promotora en el espacio tridimensional del núcleo. Los estudios han asignado cientos de miles de contactos promotor potenciador a través de numerosas células tipos33,34,35,36,37,38, 39, identificado organización mediado Polycomb represivo complejo espacial genoma en células madre embrionarias de ratón7, demostró gran cableado de interactomes promotor durante la diferenciación celular37, 38 , 39y vinculado no codificante asociada a enfermedad de la secuencia de variantes de genes promotores35.
PCHi-C es un método ideal para mapear el genoma conjunto de secuencias de ADN interaccionando con los promotores. Enfoques relacionados, tales como captura de HI-c de regiones genómicas continuadas (ver discusión) son el método de elección para obtener perfiles de interacción de alta resolución para las regiones genómicas. PCHi-C y capturar Hi-C son muy similares desde el punto de vista experimental (la única diferencia es la elección del sistema de captura), para que los consejos y directrices que le ofrecemos son aplicables a ambos enfoques. Aquí, presentamos una descripción detallada de PCHi-C. Esquema de la lógica y el diseño de un experimento de PCHi-C, proporcionar un protocolo de generación de biblioteca PCHi-C paso a paso e ilustran cómo se puede supervisar la calidad de bibliotecas PCHi-C en varios pasos en el protocolo para producir datos de alta calidad.
Diseño modular del promotor capturar Hi-C
Promotor de captura Hi-C está diseñado para específicamente enriquecer bibliotecas Hi-C para interacciones con promotores. Estas interacciones constituyen sólo un subconjunto de productos de ligadura en una biblioteca de C Hi.
Captura de Hi-C puede modificarse fácilmente para enriquecer bibliotecas Hi-C para cualquier región genómica o regiones de interés por cambiar el sistema de captura. Captura de regiones pueden ser continua de segmentos genomic44,45,46,48, potenciadores que se han identificado en PCHi-C (‘ inversa capturar Hi-C’35), o DNasa y sitios hipersensibles49 . El tamaño del sistema de captura puede ajustarse dependiendo del ámbito experimental. Por ejemplo, Dryden et al. blanco 519 fragmentos de cebo en tres desiertos de genes asociados con cáncer de mama44. El sistema de captura por Martin et al. objetivos de ambos segmentos genomic continuo (‘Captura de región’: 211 regiones genómicas en total; 2.131 fragmentos de restricción) y promotores (3.857 promotores de genes)45.
SureSelect bibliotecas están disponibles en diferentes tamaños: 1 kb a 499 kb (5.190-4.806), 500 kb a 2,9 Mb (5.190-4.816) y 3 Mb a Mb 5,9 (5.190-4.831). Como cada captura individual biotina-RNA 120 nucleótidos de largo, estos capturan sistemas de acomodar a un máximo de 4.158, 24.166 y 49.166 individual captura las puntas de prueba, respectivamente. Esto corresponde a 2.079, 12.083 y fragmentos de restricción específicas 24.583, respectivamente (nota que los números de fragmentos de restricción son límites inferiores basadas en el supuesto que dos sondas de captura individual pueden ser diseñadas para cada restricción fragmento — en realidad debido a secuencias repetitivas esto no será el caso para cada restricción del fragmento (véase también figura 1B, C), resultando en un mayor número de fragmentos de restricción targetable para un número constante de sondas de captura disponible ).
El protocolo aquí descrito se basa en el uso de una enzima de restricción con un sitio de reconocimiento de bp 6 para descubrir las interacciones de largo alcance. Usando una enzima de restricción con un sitio de reconocimiento de bp 4 para una mayor resolución de interacciones más proximales es también posible40,49.
Limitaciones de PCHi-C
Una limitación inherente de todo cromosoma conformación captura de ensayos es que su resolución está determinada por la enzima de restricción utilizada para la generación de la biblioteca. Las interacciones que se producen entre elementos de ADN situados en el mismo fragmento de restricción son invisibles para los ensayos de ‘Tipo C’. Además, en PCHi-C, en algunos casos más de un sitio de inicio de transcripción puede encontrarse en el mismo fragmento de restricción que contiene el promotor y PIRs en algunos casos albergan ambas marcas histona activo y represivo, lo que es difícil de identificar que regulador elementos median las interacciones y para predecir la salida regulador de las interacciones del promotor. Usando enzimas de restricción con 4 sitios de reconocimiento de bp atenúa este problema pero viene a expensas de mucho mayor complejidad de biblioteca Hi-C (Hi-C bibliotecas generadas con enzimas de restricción de sitio de reconocimiento 4 de bp son al menos 100 veces más complejas que Hi-C bibliotecas generadas con enzimas de restricción de sitio de reconocimiento 6 de bp) y los costos asociados para la siguiente secuencia de generación.
Otra limitación es que el actual protocolo de PCHi-C requiere de millones de células como material, que el análisis de las interacciones de promotor en tipos raros de la célula de partida. Una versión modificada de PCHi-C para permitir que el interrogatorio de los contactos de promotor en poblaciones celulares con 10.000 a 100.000 células (por ejemplo durante el desarrollo embrionario o células madre hematopoyéticas) por lo tanto sería una adición valiosa a la captura Hola C caja de herramientas.
Por último, como todos los métodos que se basan en la fijación de formaldehído, PCHi-C sólo registra las interacciones que se ‘congelan’ en el momento de la fijación. Por lo tanto, para estudiar la cinética y dinámica de las interacciones del promotor, se requieren métodos como la microscopía de superresolución vivo de la célula junto con PCHi-C.
Métodos para disecar la organización espacial del cromosoma en alta resolución
La gran complejidad de las bibliotecas cromosómicas interacción prohíbe la identificación confiable de los productos de la interacción entre dos fragmentos de restricción específica con significación estadística. Para evitar este problema, captura de secuencia se ha utilizado para enriquecer Hi-C33,34,40,44 o50,de 3 C51 bibliotecas de interacciones específicas. La ventaja principal de usar bibliotecas de bibliotecas sobre 3C Hi-C para el paso de enriquecimiento es que Hi-C, a diferencia de C 3, incluye un paso de enriquecimiento de productos genuinos de la ligadura. Como consecuencia, el porcentaje de lecturas válidas en bibliotecas PCHi-C es aproximadamente 10 veces mayor que en captura-C Lee bibliotecas50, que contenía alrededor de 5 – 8% válido después de filtrar HiCUP. Sahlen et al han comparado directamente captura-C a HiCap, que como PCHi-C utiliza bibliotecas Hi-C para el enriquecimiento de la captura, en contraste con C de captura que utiliza bibliotecas C 3. De acuerdo con nuestros resultados, encontraron que las bibliotecas de captura de C se componen principalmente de fragmentos ligados no40. Además, las bibliotecas HiCap tenían una complejidad mayor de las bibliotecas de captura de C40.
Una variante de captura-C, llamado generación captura C52 NG captura-C utiliza un oligo por final de fragmento de restricción, como previamente establecidas en el PCHi-C33,34, en lugar de la superposición de las sondas utilizadas en el original Protocolo de captura de C50. Esto aumenta el porcentaje de lecturas válidas en comparación con C captura modestamente, pero NG captura-C emplea dos ciclos secuenciales de captura de enriquecimiento, y un número relativamente elevado de PCR ciclos (ciclos de 20 a 24 en total, en comparación con 11 ciclos típicamente PCHi-c), que inevitablemente resulta en un número de secuencia duplicados y menor complejidad de la biblioteca. En experimentos de prueba durante la optimización de PCHi-C, encontramos que el porcentaje de único (es decir, no duplicados) lee pares era solamente alrededor 15% cuando se utilizaron 19 ciclos PCR (13 ciclos de pre-capturan + 6 ciclos post capturan; datos no mostrados), sin embargo optimización a un menor número de ciclos de PCR, típicamente rinde 75 – 90% únicos pares de leer. Por lo tanto, reduce sustancialmente el número de ciclos PCR aumenta la cantidad de datos de la secuencia informativa.
Un método reciente combina ChIP con Hi-C para centrarse en las interacciones cromosómicas mediadas por una proteína específica de interés (HiChIP53). Comparado con el animal doméstico de ChIA54, que se basa en una lógica similar, HiChIP datos contienen un mayor número de lecturas de secuencia informativa, permitiendo mayor confianza interacción llamando a53. Sería muy interesante comparar directamente la correspondiente HiChIP y conjuntos de datos de captura Hi-C una vez que estén disponibles (por ejemplo HiChIP usando un anticuerpo contra la cohesina unidad Smc1a53 con captura de Hi-C para todos Smc1a obligado restricción fragmentos) lado a lado. Una diferencia inherente entre estos dos enfoques es que captura Hi-C no depende de inmunoprecipitación de cromatina y por lo tanto es capaz de interrogar a interacciones cromosómicas independientemente de la ocupación de la proteína. Esto permite la comparación de la organización del genoma 3D en la presencia o ausencia de atascamiento del factor específico, como se ha utilizado para identificar PRC1 como un regulador clave del ratón ESC genoma espacial arquitectura7.
PCHi-C y GWAS
Estudios de Asociación de genoma completo (GWAS) han revelado que más del 95% de enfermedad asociada a variantes de la secuencia se encuentran en regiones no codificantes del genoma, a menudo a grandes distancias para genes de codificación de la proteína55. Suelen ser variantes GWAS encontró en proximidad cercana a DNasa I sitios hipersensibles, que es una seña de identidad de secuencias con potencial actividad reguladora. PCHi-C y capturar Hi-C se han utilizado extensivamente para vincular promotores a loci de riesgo GWAS implicados en cáncer de mama44, cáncer colorrectal48y enfermedad autoinmune35,45,46. Un PCHi-C estudio de 17 células hematopoyéticas humano diferentes tipos encontrar SNPs asociados con enfermedad autoinmune se enriquecieron en el PIRs en células linfoides, mientras que variantes de la secuencia asociadas a rasgos específicos de plaquetas y glóbulos rojos se encontraron predominantemente en los macrófagos y eritroblastos, respectivamente35,56. Así, promotor específico tipo de tejido interactomes por PCHi-C puede ayudar a entender la función de no codificación asociada a enfermedad de variantes de secuencia e identificar nuevos genes de enfermedades potenciales para la intervención terapéutica.
Características de las regiones de interacción promotor
Varias líneas de evidencia enlace promotor interactomes al control de la expresión de genes. En primer lugar, varios estudios de PCHi-C han demostrado que regiones genómicas interactuando con los promotores de genes expresados (altamente) se enriquecen en marcas asociadas con actividad enhancer, como la acetilación de H3K27 y p300 enlace33,34 , 37. se encontró una correlación positiva entre el nivel de expresión génica y el número de reforzadores interactuantes, lo que sugiere que los efectos aditivos de resultado potenciadores en la expresión génica aumento niveles34,35. En segundo lugar, naturales loci de rasgos cuantitativos (eQTLs) están enriquecidos en PIRs que están conectados a los mismos genes cuya expresión se ve afectada por los eQTLs35de expresión. En tercer lugar, mediante la integración de viaje57 y PCHi-C datos, Cairns et al. encontrado que genes del reportero viaje a PIRs en ratón CES muestran a reportero más fuerte expresión génica de genes del reportero en los sitios de integración en las regiones de interacción de promotor no 58, lo que indica que los PIRs poseen actividad de regulación transcripcional. Juntos, estos resultados sugieren que promotor interactomes descubiertas por PCHi-C en varios tipos de células humanas y ratón incluyen módulos regulatorios claves para el control de la expresión de genes.
Cabe destacar que los Potenciadores representan sólo una pequeña fracción (~ 20%) de los PIRs por PCHi-C33,34. Otros PIRs podrían tener funciones estructurales o topológicas en lugar de funciones de regulación transcripcionales directas. Sin embargo, también hay evidencia que PCHi-C puede descubrir elementos de ADN con función reguladora que no albergan marcas clásica potenciador. En una línea de células linfoides humanas, el promotor BRD7 fue encontrado para interactuar con una región desprovista de marcas potenciador que fue demostrada para poseer actividad potenciador en reportero gene ensayos33. Elementos reguladores de similares características pueden ser más abundantes que actualmente apreciado. Por ejemplo, una pantalla basada en CRISPR para regulación ADN elementos identificados sin marcar elementos reguladores (UREs) que controlan la expresión génica pero están desprovistos de reforzador marca59.
En otros casos, han demostrado PIRs puerto marcas cromatina asociadas con la represión transcripcional. PIRs y promotores interactúan por PRC1 en ratón CES participaron en una extensa red espacial de genes reprimidos teniendo que el represivo Marcos H3K27me37. En células linfoblastoides humanas, un elemento distante interactuando con el promotor de BCL6 reprimido transgen reportero gene expresión33, sugiriendo que puede funcionar para reprimir la transcripción de BCL6 en su contexto nativo.
PIRs enriquecidas para la ocupación de la proteína del aislador de cromatina CTCF en CES y CNE humano37 puede representar otra clase de PIRs. Colectivamente, estos resultados sugieren que PIRs albergan una colección de actividades reglamentarias gene a caracterizarse funcionalmente.
The authors have nothing to disclose.
Agradecemos Valeriya Malysheva lectura crítica del manuscrito y ayuda de un experto con la figura 1. Este trabajo fue apoyado por el Consejo de investigación médica, Reino Unido (Señor/L007150/1) y el Reino Unido biotecnología y Consejo de investigación de ciencias biológicas, Reino Unido (BB/J004480/1).
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |