Questo protocollo descrive il metodo Capture Hi-C utilizzato per caratterizzare l’organizzazione 3D di regioni genomiche mirate di dimensioni megabased ad alta risoluzione, compresi i confini dei domini topologicamente associati (TAD) e le interazioni cromatiniche a lungo raggio tra elementi regolatori e altri elementi di sequenza del DNA.
L’organizzazione spaziale del genoma contribuisce alla sua funzione e regolazione in molti contesti, tra cui la trascrizione, la replicazione, la ricombinazione e la riparazione. Comprendere l’esatta causalità tra topologia e funzione del genoma è quindi cruciale e sempre più oggetto di un’intensa ricerca. Le tecnologie di cattura della conformazione cromosomica (3C) consentono di dedurre la struttura 3D della cromatina misurando la frequenza delle interazioni tra qualsiasi regione del genoma. Qui descriviamo un protocollo semplice e veloce per eseguire Capture Hi-C, un metodo di arricchimento del bersaglio basato su 3C che caratterizza l’organizzazione 3D specifica dell’allele di bersagli genomici di dimensioni megabased ad alta risoluzione. In Capture Hi-C, le regioni target vengono catturate da una serie di sonde biotinilate prima del sequenziamento ad alta produttività a valle. Pertanto, si ottengono una risoluzione più elevata e una specificità allele, migliorando al contempo l’efficacia temporale e l’accessibilità della tecnologia. Per dimostrare i suoi punti di forza, il protocollo Capture Hi-C è stato applicato al centro di inattivazione X del topo ( Xic), il principale luogo regolatore dell’inattivazione del cromosoma X (XCI).
Il genoma lineare contiene tutte le informazioni necessarie affinché un organismo subisca uno sviluppo embrionale e sopravviva per tutta l’età adulta. Tuttavia, istruire cellule geneticamente identiche a svolgere funzioni diverse è fondamentale per controllare con precisione quali informazioni vengono utilizzate in contesti specifici, inclusi diversi tessuti e / o fasi di sviluppo. Si ritiene che l’organizzazione tridimensionale del genoma partecipi a questa accurata regolazione spazio-temporale dell’attività genica facilitando o impedendo l’interazione fisica tra elementi regolatori che possono essere separati da diverse centinaia di kilobasi nel genoma lineare (per le recensioni 1,2,3). Negli ultimi 20 anni, la nostra comprensione dell’interazione tra ripiegamento del genoma e attività è rapidamente aumentata, in gran parte a causa dello sviluppo di tecnologie di cattura della conformazione cromosomica (3C) (per la revisione 4,5,6,7). Questi metodi misurano la frequenza delle interazioni tra qualsiasi regione del genoma e si basano sulla legatura delle sequenze di DNA che si trovano in stretta vicinanza 3D all’interno del nucleo. I protocolli 3C più comuni iniziano con la fissazione delle popolazioni cellulari con un agente reticolante come la formaldeide. La cromatina reticolata viene quindi digerita con un enzima di restrizione, sebbene sia stata utilizzata anche la digestione della MNasi 8,9. Dopo la digestione, le estremità del DNA libero in stretta vicinanza spaziale vengono ri-legate e la reticolazione viene invertita. Questo passaggio dà origine alla “libreria” o “modello” 3C, un pool misto di frammenti ibridi in cui le sequenze che erano in prossimità 3D del nucleo hanno maggiori probabilità di essere legate nello stesso frammento di DNA. La quantificazione a valle di questi frammenti ibridi consente di dedurre la conformazione 3D di regioni genomiche che si trovano a migliaia di coppie di basi distanti nel genoma lineare, ma potrebbero interagire nello spazio 3D.
Sono stati sviluppati molti approcci diversi per caratterizzare la libreria 3C, che differiscono sia in termini di quali sottoinsiemi di frammenti di legatura vengono analizzati sia in quale tecnologia viene utilizzata per la loro quantificazione a valle. Il protocollo originale 3C si basava sulla selezione di due regioni di interesse e sulla quantificazione della loro frequenza di interazione “uno contro uno” mediante PCR10,11. L’approccio 4C (cattura della conformazione cromosomica circolare) misura le interazioni tra un singolo locus di interesse (cioè il “view-point”) e il resto del genoma (“uno contro tutti”)12,13,14. In 4C, la libreria 3C subisce un secondo ciclo di digestione e re-legazione per generare piccole molecole di DNA circolari che vengono amplificate con PCR da primer specifici del punto di vista15. 5C (chromosome conformation capture carbon copy) consente la caratterizzazione delle interazioni 3D in regioni di interesse più ampie, fornendo approfondimenti sul ripiegamento della cromatina di ordine superiore all’interno di quella regione (“molti contro molti”)16. In 5C, la libreria 3C è ibridata in un pool di oligonucleotidi sovrapposti a siti di restrizione che possono essere successivamente amplificati mediante multiplex PCR con primer universali15. Sia in 4C che in 5C, i frammenti informativi di DNA sono stati inizialmente quantificati da microarray e successivamente da sequenziamento di nuova generazione (NGS)17,18,19. Queste strategie caratterizzano regioni di interesse mirate, ma non possono essere applicate per mappare le interazioni a livello di genoma. Quest’ultimo obiettivo è raggiunto con Hi-C, una strategia ad alto rendimento basata su 3C in cui il sequenziamento massivamente parallelo del modello 3C consente la caratterizzazione imparziale del ripiegamento della cromatina a livello dell’intero genoma (“tutti contro tutti”)20. Il protocollo Hi-C prevede l’incorporazione di un residuo biotinilato alle estremità dei frammenti digeriti, seguito dal pull-down dei frammenti di legatura con perle di streptavidina per aumentare il recupero dei frammenti legati20.
Hi-C ha rivelato che i genomi dei mammiferi sono strutturalmente organizzati su più scale nel nucleo 3D. Alla scala megabase, il genoma è diviso in regioni di cromatina attiva e inattiva, i compartimenti A e B, rispettivamente20,21. L’esistenza di ulteriori sottocompartimenti rappresentati da diversi stati di cromatina e attività è stata successivamente mostrata22. A una risoluzione più elevata, il genoma viene ulteriormente suddiviso in domini auto-interagenti sub-megabase chiamati domini topologicamente associati (TAD), rivelati per la prima volta dall’analisi Hi-C e 5C dei genomi umani e murini23,24. A differenza dei compartimenti che variano in modo tessuto-specifico, i TAD tendono ad essere costanti (anche se ci sono molte eccezioni). È importante sottolineare che i confini TAD sono conservati tra le specie25. Nelle cellule di mammifero, i TAD comprendono frequentemente geni che condividono lo stesso panorama regolatorio e hanno dimostrato di rappresentare un quadro strutturale che facilita la co-regolazione genica limitando le interazioni con i domini regolatori vicini (per la revisione 3,26,27,28). Inoltre, all’interno dei TAD, le interazioni dovute ai siti CTCF alla base dei loop estrusi di coesina possono aumentare la probabilità di interazioni promotore-potenziatore o enhancer-enhancer (per la revisione29).
In Hi-C, compartimenti e TAD possono essere rilevati con una risoluzione da 1 Mb a 40 kb, ma è possibile ottenere una risoluzione più elevata per caratterizzare contatti su scala più piccola come le interazioni di looping tra elementi distali su scala di 5-10 kb. Tuttavia, aumentare la risoluzione per essere in grado di rilevare tali loop in modo efficiente da HiC richiede un aumento significativo della profondità di sequenziamento e, quindi, dei costi di sequenziamento. Ciò è esacerbato se l’analisi deve essere allele-specifica. In effetti, un aumento X volte della risoluzione richiede un aumento di X2 della profondità di sequenziamento, il che significa che gli approcci ad alta risoluzione e allele-specifici dell’intero genoma possono essere proibitivamente costosi30.
Per migliorare l’economicità e l’accessibilità mantenendo al contempo un’alta risoluzione, le regioni target di interesse possono essere fisicamente estratte dalle librerie 3C o Hi-C a livello di genoma dopo la loro ibridazione con sonde oligonucleotidiche complementari marcate con biotina prima del sequenziamento a valle. Queste strategie di arricchimento del bersaglio sono indicate come metodi Capture-C e consentono l’interrogazione delle interazioni di centinaia di loci bersaglio sparsi nel genoma (ad esempio, Promoter Capture (PC) Hi-C; Next Generation (NG) Capture-C; Low Input (LI) Capture-C; Cattura nucleare titolata (NuTi); Tri-C)31,32,33,34,35,36,37,38,39,40, o attraverso regioni che si estendono fino a diverse megabasi (ad esempio, Capture HiC; HYbrid Capture Hi-C (Hi-C2); Piastrellato-C)41,42,43. Due aspetti possono variare nei metodi basati sulla cattura: (1) la natura e la progettazione degli oligonucleotidi biotinilati (cioè RNA o DNA, singoli oligo che catturano bersagli genomici dispersi o oligo multipli che piastrellano una regione di interesse); e (2) il modello utilizzato per abbattere i bersagli che possono essere la libreria 3C o Hi-C, quest’ultima costituita da frammenti di restrizione biotinilati estratti dalla libreria 3C.
Qui viene descritto un protocollo Capture Hi-C basato sull’arricchimento dei contatti target dalla libreria 3C. Il protocollo si basa sulla progettazione di una serie personalizzata di sonde di RNA biotinilato e può essere eseguito in 1 settimana dalla preparazione della libreria 3C al sequenziamento NGS. Il protocollo è veloce, semplice e consente di caratterizzare l’organizzazione 3D di ordine superiore di regioni di interesse di dimensioni megabase con una risoluzione di 5 kb, migliorando al contempo l’efficacia temporale e l’accessibilità rispetto ad altri metodi 3C. Il protocollo Capture Hi-C è stato applicato al locus regolatore principale dell’inattivazione del cromosoma X (XCI), il centro di inattivazione dell’X (Xic), che ospita l’RNA non codificante Xist. L’Xic è stato precedentemente oggetto di ampie analisi strutturali e funzionali (per la revisione44,45). Nei mammiferi, XCI compensa il dosaggio dei geni legati all’X tra femmine (XX) e maschi (XY) e comporta il silenziamento trascrizionale di quasi la totalità di uno dei due cromosomi X nelle cellule femminili. L’Xic ha rappresentato un potente locus gold standard per gli studi sulla topologia del genoma 3D e l’interazione con la regolazione genica44. L’analisi 5C dello Xic nelle cellule staminali embrionali di topo (mESC) ha portato alla scoperta e alla denominazione dei TAD, fornendo le prime intuizioni sulla rilevanza funzionale del partizionamento topologico e della co-regolazione genica24. L’organizzazione topologica dello Xic ha successivamente dimostrato di essere criticamente coinvolta nella tempistica di sviluppo appropriata della upregolazione di Xist e XCI 46, e sono stati recentemente scoperti anche elementi cis-regolatori insospettati che possono influenzare l’attività genica all’interno e tra i TAD all’interno dello Xic47,48,49. L’applicazione di Capture Hi-C a 3 Mb del cromosoma X del topo che attraversa l’Xic dimostra la potenza di questo approccio nel sezionare il ripiegamento della cromatina su larga scala ad alta risoluzione. Viene fornito un protocollo dettagliato e facile da seguire, a partire dalla progettazione della serie di sonde biotinilate in ogni sito di restrizione DpnII all’interno della regione di interesse fino alla generazione della libreria 3C genome-wide, all’ibridazione e cattura dei contatti target e all’analisi dei dati a valle. È inclusa anche una panoramica dei controlli di qualità appropriati e dei risultati attesi, e sia i punti di forza che i limiti dell’approccio sono discussi alla luce di metodi simili esistenti.
Qui descriviamo un protocollo Capture Hi-C relativamente semplice e veloce per caratterizzare l’organizzazione di ordine superiore di regioni genomiche di dimensioni megabase con una risoluzione di 5-10 kb. Capture Hi-C appartiene alla famiglia di tecnologie Capture-C progettate per arricchire le interazioni mirate della cromatina da modelli 3C o Hi-C a livello di genoma. Ad oggi, la grande maggioranza delle applicazioni di Capture-C sono state sfruttate per mappare i contatti della cromatina di elementi regolatori relativamente piccoli sparsi nell’intero genoma. Nel primo protocollo Capture-C, sono state utilizzate più sonde biotinilate di RNA sovrapposte per catturare >400 promotori preselezionati in librerie 3C preparate da cellule eritroidi31. La stessa strategia è stata successivamente migliorata in Next Generation (NG) e Nuclear Titrated (NuTi) Capture-C per ottenere profili di interazione ad alta risoluzione di >8.000 promotori utilizzando singole esche di DNA da 120 bp che coprono singoli siti di restrizione e due cicli sequenziali di cattura per massimizzare l’arricchimento dei frammenti di legatura informativi32,40. Queste strategie hanno portato alla dissezione funzionale degli elementi cis-agenti in molti contesti diversi, tra cui lo sviluppo embrionale del topo, la differenziazione cellulare, l’inattivazione del cromosoma X e la cattiva regolazione genica in condizioni patologiche 46,63,65,66,67,68,69,70,71.
In Promoter Capture Hi-C (PCHi-C), >22.000 promotori annotati contenenti frammenti di restrizione sono stati estratti dalle librerie Hi-C mediante ibridazione di singole sonde biotinilate RNA 120-mer a una o entrambe le estremità del frammento di restrizione34,72. Questo metodo ha permesso la dissezione dell’interattoma di migliaia di promotori in un numero rapidamente crescente di tipi cellulari, tra cui cellule staminali embrionali di topo, cellule epatiche fetali e adipociti 34,35,72,73, ma anche linee linfoblastoidi umane, progenitori ematopoietici, cheratinociti epidermici e cellule pluripotenti 37,74,75,76,77 .
Rispetto a queste tecnologie di arricchimento target, Capture Hi-C si rivolge a regioni genomiche contigue fino alla scala megabase, estendendo così uno o più TAD e comprendendo paesaggi regolatori di geni. L’intera regione di interesse deve essere piastrellata con una serie di sonde biotinilate che comprendano ogni sito di restrizione DpnII all’interno del target. L’ibridazione dell’array biotinilato al modello 3C, la sua successiva cattura basata sulla streptavidina e l’elaborazione per il sequenziamento multiplexato vengono eseguite utilizzando un sistema di arricchimento target per il sequenziamento multiplexato Illumina Paired-End. L’intero protocollo è veloce, in quanto può essere eseguito in 1 settimana dalla preparazione della libreria 3C fino al sequenziamento NGS e richiede solo piccoli adattamenti e / o risoluzione dei problemi specifici personalizzati.
Il protocollo offre anche vantaggi rispetto ad altri metodi basati su 3C. Per ottenere mappe di interazione con una risoluzione di 5-10 kb, abbiamo sequenziato letture accoppiate 100-120 M. A titolo di confronto, abbiamo usato qui un set di dati Hi-C di 571 M letture per raggiungere una risoluzione di 20 kb64 (GSM2053973), e almeno 1 miliardo di letture sarebbero necessarie per raggiungere una risoluzione di 5 kb con Hi-C22 cromosomico.
L’Hi-C di cattura utilizzato nel presente studio raggiunge una risoluzione molto più elevata rispetto al 5C precedentemente pubblicato sulla base di un enzima di restrizione della fresa 6-bp47 (Tabella supplementare 1). È importante sottolineare che la strategia progettata per arricchire e amplificare le interazioni mirate in 5C non consente un’analisi allele-specifica delle interazioni della cromatina. Al contrario, i dati di Capture Hi-C possono essere mappati allele-specific, consentendo la dissezione dei paesaggi strutturali 3D di coppie di cromosomi omologhi, ad esempio in cellule umane o in linee cellulari ibride F1 derivate incrociando ceppi di topo geneticamente diversi78. Per generare mappe di interazione Capture Hi-C specifiche per allele con una risoluzione di 5 kb, abbiamo sequenziato letture paired-end a 150 bp per aumentare la copertura SNP. Simili approcci allele-specifici possono essere applicati a linee cellulari umane, per le quali è disponibile l’annotazione degli SNP22.
È importante sottolineare che, sebbene Capture Hi-C garantisca generalmente un’alta risoluzione migliorando al contempo l’accessibilità economica dei costi di sequenziamento, la produzione di oligonucleotidi biotinilati su misura ha un impatto sul costo complessivo di questo metodo. Pertanto, la scelta del metodo 3C più adatto sarà diversa per le diverse applicazioni e dipenderà dalla questione biologica che viene affrontata e dalla risoluzione richiesta, nonché dalle dimensioni della regione di interesse. Altri protocolli Capture Hi-C sviluppati condividono le caratteristiche chiave con il protocollo descritto qui. Ad esempio, è stata applicata una strategia Capture Hi-C per caratterizzare regioni genomiche da ~ 50 kb a 1 Mb che coprono varianti non codificanti associate al rischio di cancro al seno e al colon-retto; in questo protocollo, le regioni bersaglio sono state estratte dalle librerie Hi-C ibridando esche di RNA 120-mer che piastrellano le regioni bersaglio con una copertura3x 33,38,79. Allo stesso modo, HYbrid Capture Hi-C (Hi-C 2) è stato utilizzato per indirizzare le interazioni all’interno delle regioni di interesse fino a2 Mb80. In entrambi i protocolli, l’uso di un modello Hi-C arricchito per frammenti di legatura tirati verso il basso della biotina ha aumentato la percentuale di letture informative totali rispetto al nostro protocollo. Ad esempio, nel set di dati Hi-C che abbiamo usato qui per il confronto64 (GSM2053973), la percentuale di coppie valide dopo la rimozione dei duplicati è 4,8 volte superiore alle coppie valide ottenute in Capture Hi-C come descritto nella Figura 3 e nella Tabella supplementare 1. Tuttavia, il pull-down consecutivo di frammenti legati biotinilati e sonde ibridate rende il protocollo significativamente più complesso e dispendioso in termini di tempo, riducendo al contempo la complessità della regione catturata.
Un altro metodo disponibile per arricchire i modelli 3C con sonde di piastrellatura è Tiled-C, che è stato applicato per studiare l’architettura della cromatina ad alta risoluzione spaziale e temporale durante la differenziazione eritroide del topo43. In Tiled-C, un pannello di sonde biotinilate da 70 bp viene utilizzato per arricchire i contatti all’interno di regioni su larga scala in due cicli consecutivi di cattura per generare mappe ad altissima risoluzione di interazioni mirate43,81. Il doppio arricchimento di cattura rende anche il protocollo più lungo e complesso rispetto a Capture Hi-C. Tuttavia, a differenza delle strategie Capture-C mirate a singoli siti di restrizione, in Tiled-C il secondo round di cattura non sembra aumentare significativamente l’efficienza di cattura, e quindi può probabilmente essere omesso43. Infine, un approccio simile basato sulla stessa strategia di arricchimento target utilizzata in questo studio è stato applicato alla dissezione di paesaggi regolatori che comprendono varianti strutturali descritte in pazienti con malformazioni congenite e reingegnerizzate in topi transgenici41,42. In questo caso, la serie di sonde di affiancamento è stata progettata su tutto il bersaglio piuttosto che in prossimità dei siti di restrizione DpnII41. Tuttavia, questo lavoro è stato fondamentale per evidenziare la sensibilità e il potere di questa strategia per ottenere una caratterizzazione ad alta risoluzione di grandi regioni genomiche in diversi contesti41,42,48.
In conclusione, il protocollo qui descritto rappresenta una strategia semplice, robusta e potente per la caratterizzazione 3D ad alta risoluzione di qualsiasi regione genomica di interesse. L’applicazione di questo approccio a diversi sistemi modello, tipi di cellule, paesaggi di cromatina regolati dallo sviluppo e regolazione genica in condizioni sane e patologiche è probabile che faciliti la nostra comprensione dell’interazione e della causalità tra topologia del genoma e regolazione genica, una delle questioni aperte fondamentali nel campo dell’epigenetica. Inoltre, l’applicazione di Capture Hi-C per mappare le interazioni a lungo raggio e il ripiegamento della cromatina di ordine superiore delle varianti di rischio identificate dagli studi GWAS ha il potenziale per rivelare la rilevanza funzionale dei loci genomici non codificanti associati a malattie umane in diversi contesti, fornendo così nuove informazioni sui processi potenzialmente alla base della patogenesi.
The authors have nothing to disclose.
Il lavoro nel laboratorio Heard è stato sostenuto da un premio Advanced Investigator del Consiglio europeo della ricerca (XPRESS – AdG671027). A.L. è sostenuta da una borsa di studio individuale Marie Skłodowska-Curie Actions dell’Unione Europea (IF-838408). A.H. è supportato dalla rete innovativa e interdisciplinare ITN ChromDesign, nell’ambito dell’accordo Marie Skłodowska-Curie Grant 813327. Gli autori sono grati a Daniel Ibrahim (MPI for Molecular Genetics, Berlino) per gli utili consigli tecnici, alla piattaforma NGS dell’Institut Curie (Parigi), a Vladimir Benes e alla Genomics Core Facility dell’EMBL (Heidelberg), per il supporto e l’assistenza.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |