Denne protokol beskriver Capture Hi-C-metoden, der bruges til at karakterisere 3D-organiseringen af megabaserede målrettede genomiske regioner ved høj opløsning, herunder grænser for topologisk associerende domæner (TAD’er) og langtrækkende kromatininteraktioner mellem regulatoriske og andre DNA-sekvenselementer.
Den rumlige organisering af genomet bidrager til dets funktion og regulering i mange sammenhænge, herunder transkription, replikation, rekombination og reparation. At forstå den nøjagtige kausalitet mellem genomtopologi og funktion er derfor afgørende og i stigende grad genstand for intensiv forskning. Kromosomkonformationsfangstteknologier (3C) gør det muligt at udlede 3D-strukturen af kromatin ved at måle hyppigheden af interaktioner mellem enhver region i genomet. Her beskriver vi en hurtig og enkel protokol til at udføre Capture Hi-C, en 3C-baseret målberigelsesmetode, der karakteriserer den allelspecifikke 3D-organisering af megabaserede genomiske mål i høj opløsning. I Capture Hi-C fanges målområder af en række biotinylerede sonder før nedstrøms high-throughput sekventering. Således opnås højere opløsning og allelspecificitet, samtidig med at teknologiens tidseffektivitet og overkommelige pris forbedres. For at demonstrere sine styrker blev Capture Hi-C-protokollen anvendt på musens X-inaktiveringscenter ( Xic), masterregulatorisk locus for X-kromosominaktivering (XCI).
Det lineære genom indeholder alle de oplysninger, der er nødvendige for, at en organisme kan gennemgå embryonal udvikling og overleve gennem voksenalderen. At instruere genetisk identiske celler til at udføre forskellige funktioner er imidlertid afgørende for nøjagtigt at kontrollere, hvilke oplysninger der anvendes i specifikke sammenhænge, herunder forskellige væv og/eller udviklingsstadier. Den tredimensionelle organisering af genomet menes at deltage i denne nøjagtige rumlige-tidsmæssige regulering af genaktivitet ved at lette eller forhindre den fysiske interaktion mellem regulatoriske elementer, der kan adskilles af flere hundrede kilobaser i det lineære genom (for anmeldelser 1,2,3). I de sidste 20 år er vores forståelse af samspillet mellem genomfoldning og aktivitet steget hurtigt, hovedsageligt på grund af udviklingen af kromosomkonformationsindfangningsteknologier (3C) (til gennemgang 4,5,6,7). Disse metoder måler hyppigheden af interaktioner mellem alle regioner i genomet og er afhængige af ligering af DNA-sekvenser, der er tæt på 3D-nærhed inden for kernen. De mest almindelige 3C-protokoller starter med fiksering af cellepopulationer med et tværbindingsmiddel, såsom formaldehyd. Det tværbundne kromatin fordøjes derefter med et restriktionsenzym, selvom MNase-fordøjelsen også er blevet anvendt 8,9. Efter fordøjelsen religeres frie DNA-ender i tæt rumlig nærhed, og tværbinding vendes. Dette trin giver anledning til 3C ‘biblioteket’ eller ‘skabelonen’, en blandet pulje af hybridfragmenter, hvor sekvenser, der var i 3D-nærhed til kernen, har større chancer for at blive ligeret i det samme DNA-fragment. Nedstrøms kvantificeringen af disse hybridfragmenter gør det muligt at udlede 3D-konformationen af genomiske regioner, der er placeret tusindvis af basepar fra hinanden i det lineære genom, men kan interagere i 3D-rummet.
Der er udviklet mange forskellige tilgange til at karakterisere 3C-biblioteket, der adskiller sig både med hensyn til hvilke delmængder af ligeringsfragmenter der analyseres, og hvilken teknologi der bruges til deres nedstrøms kvantificering. Den oprindelige 3C-protokol var baseret på udvælgelsen af to regioner af interesse og kvantificeringen af deres ‘en mod en’ interaktionsfrekvens ved PCR10,11. 4C-tilgangen (cirkulær kromosomkonformationsfangst) måler interaktionerne mellem et enkelt interessested (dvs. ‘synspunktet’) og resten af genomet (‘en versus alle’)12,13,14. I 4C gennemgår 3C-biblioteket en anden runde af fordøjelse og re-ligering for at generere små cirkulære DNA-molekyler, der er PCR forstærket af synspunktsspecifikke primere15. 5C (chromosome conformation capture carbon copy) muliggør karakterisering af 3D-interaktioner på tværs af større interesseområder og giver indsigt i højere ordens kromatinfoldning inden for denne region (‘mange versus mange’)16. I 5C hybridiseres 3C-biblioteket til en pulje af oligonukleotider, der overlapper restriktionssteder, der efterfølgende kan forstærkes af multiplex PCR med universelle primere15. I både 4C og 5C blev de informative DNA-fragmenter oprindeligt kvantificeret af mikroarrays og senere ved næste generations sekventering (NGS)17,18,19. Disse strategier karakteriserer målrettede interesseområder, men kan ikke anvendes til at kortlægge genom-dækkende interaktioner. Sidstnævnte mål opnås med Hi-C, en 3C-baseret high-throughput-strategi, hvor massiv parallel sekventering af 3C-skabelonen muliggør upartisk karakterisering af kromatinfoldning på genom-wide level (‘all versus all’)20. Hi-C-protokollen omfatter inkorporering af en biotinyleret rest i de fordøjede fragmenters ender, som efterfølges af nedtrækning af ligeringsfragmenter med streptavidinperler for at øge genvindingen af ligerede fragmenter20.
Hi-C afslørede, at pattedyrs genomer er strukturelt organiseret på flere skalaer i 3D-kernen. På megabaseskalaen er genomet opdelt i regioner med aktivt og inaktivt kromatin, henholdsvis A- og B-rummene20,21. Eksistensen af yderligere underafdelinger repræsenteret ved forskellige kromatin- og aktivitetstilstande blev også efterfølgende vist22. Ved højere opløsning opdeles genomet yderligere i sub-megabase selvinteragerende domæner kaldet topologisk associerende domæner (TAD’er), først afsløret ved Hi-C og 5C analyse af menneskets og musens genomer23,24. I modsætning til rum, der varierer på en vævsspecifik måde, har TAD’er tendens til at være konstante (selvom der er mange undtagelser). Det er vigtigt, at TAD-grænserne bevares på tværs af arter25. I pattedyrceller omfatter TAD’er ofte gener, der deler det samme regulatoriske landskab og har vist sig at repræsentere en strukturel ramme, der letter gensamregulering, samtidig med at interaktionerne med tilstødende regulatoriske domæner begrænses (til gennemgang 3,26,27,28). Inden for TAD’er kan interaktioner forårsaget af CTCF-steder i bunden af cohesinekstruderede sløjfer desuden øge sandsynligheden for interaktioner mellem promotor og forstærker eller forstærker/forstærker (for gennemgang29).
I Hi-C kan rum og TAD’er detekteres ved 1 Mb til 40 kb opløsning, men højere opløsning kan opnås for at karakterisere mindre kontakter såsom looping interaktioner mellem distale elementer i skalaen 5-10 kb. At øge opløsningen for at kunne detektere sådanne sløjfer effektivt af HiC kræver imidlertid en betydelig stigning i sekventeringsdybden og derfor sekventeringsomkostningerne. Dette forværres, hvis analysen skal være allelspecifik. Faktisk kræver en X-fold stigning i opløsning en X2-stigning i sekventeringsdybde, hvilket betyder, at højopløsnings- og allelspecifikke genom-dækkende tilgange kan være uoverkommeligt dyre30.
For at forbedre omkostningseffektiviteten og overkommelige priser, samtidig med at der opretholdes høj opløsning, kan målområder af interesse fysisk trækkes ned fra genomdækkende 3C- eller Hi-C-biblioteker efter deres hybridisering med komplementære biotinmærkede oligonukleotidprober inden nedstrøms sekventering. Disse målberigelsesstrategier kaldes Capture-C-metoder og tillader forhør af interaktioner mellem hundredvis af målloci spredt over genomet (dvs. Promoter Capture (PC) Hi-C; Næste generation (NG) Capture-C; Lav indgang (LI) Capture-C; nuklear titreret (NuTi) Capture-C; Tri-C)31,32,33,34,35,36,37,38,39,40 eller på tværs af regioner, der spænder over op til flere megabaser (dvs. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Flisebelagt-C)41,42,43. To aspekter kan variere i fangstbaserede metoder: (1) arten og designet af biotinylerede oligonukleotider (dvs. RNA eller DNA, enkelte oligoer, der fanger dispergerede genomiske mål eller flere oligoer, der fliser en region af interesse); og (2) skabelonen, der bruges til at trække mål ned, som kan være 3C- eller Hi-C-biblioteket, sidstnævnte består af biotinylerede restriktionsfragmenter trukket ned fra 3C-biblioteket.
Her beskrives en Capture Hi-C-protokol baseret på berigelse af målkontakter fra 3C-biblioteket. Protokollen er afhængig af designet af et skræddersyet flisebelægningsarray af biotinylerede RNA-sonder og kan udføres på 1 uge fra 3C-biblioteksforberedelsen til NGS-sekventeringen. Protokollen er hurtig, enkel og gør det muligt at karakterisere den højere orden 3D-organisering af megabase-størrelse regioner af interesse ved 5 kb opløsning, samtidig med at tidseffektiviteten og overkommeligheden forbedres sammenlignet med andre 3C-metoder. Capture Hi-C-protokollen blev anvendt på masterregulatorisk locus for X-kromosominaktivering (XCI), X-inaktiveringscentret (Xic), som er vært for Xist noncoding RNA. Xic har tidligere været genstand for omfattende strukturelle og funktionelle analyser (til gennemgang44,45). Hos pattedyr kompenserer XCI for doseringen af X-bundne gener mellem kvinder (XX) og mænd (XY) og involverer transkriptionel hæmning af næsten hele et af de to X-kromosomer i kvindelige celler. Xic har repræsenteret et kraftfuldt, guldstandard locus for studier i 3D genomtopologi og samspillet med genregulering44. 5C-analyse af Xic i embryonale stamceller fra mus (mESC’er) førte til opdagelsen og navngivningen af TAD’er, hvilket gav den første indsigt i den funktionelle relevans af topologisk partitionering og gensamregulering24. Den topologiske organisering af Xic viste sig efterfølgende at være kritisk involveret i den passende udviklingstiming af Xist-opregulering og XCI 46, og uventede cis-regulerende elementer, der kan påvirke genaktivitet inden for og mellem TAD’er, blev også for nylig opdaget inden for Xic47,48,49. Anvendelse af Capture Hi-C på 3 Mb af musens X-kromosom, der spænder over Xic, demonstrerer kraften i denne tilgang til dissekering af kromatinfoldning i stor skala ved høj opløsning. En detaljeret og let at følge protokol leveres, startende fra designet af rækken af biotinylerede sonder på tværs af hvert DpnII-begrænsningssted inden for interesseområdet til generering af det genomdækkende 3C-bibliotek, hybridisering og indfangning af målkontakter og downstream-dataanalyse. Der er også medtaget en oversigt over de relevante kvalitetskontroller og forventede resultater, og både styrkerne og begrænsningerne ved tilgangen diskuteres i lyset af lignende eksisterende metoder.
Her beskriver vi en relativt hurtig og nem Capture Hi-C-protokol til at karakterisere den højere ordens organisering af megabase-størrelse genomiske regioner ved 5-10 kb opløsning. Capture Hi-C tilhører familien af Capture-C-teknologier, der er designet til at berige målrettede kromatininteraktioner fra genomdækkende 3C- eller Hi-C-skabeloner. Hidtil er langt de fleste Capture-C-applikationer blevet udnyttet til at kortlægge kromatinkontakter af relativt små regulatoriske elementer spredt over hele genomet. I den første Capture-C-protokol blev flere overlappende RNA-biotinylerede sonder brugt til at fange >400 forudvalgte promotorer i 3C-biblioteker fremstillet af erythroidceller31. Den samme strategi blev efterfølgende forbedret i Next Generation (NG) og Nuclear Titrated (NuTi) Capture-C for at opnå interaktionsprofiler i høj opløsning på >8.000 promotorer ved at bruge enkelte 120 bp DNA-lokkemad, der spænder over enkelte restriktionssteder og to sekventielle runder af Capture for at maksimere berigelsen af informative ligeringsfragmenter32,40. Disse strategier førte til funktionel dissektion af cis-virkende elementer i mange forskellige sammenhænge, herunder museembryonal udvikling, celledifferentiering, X-kromosominaktivering og genfejlregulering under patologiske tilstande 46,63,65,66,67,68,69,70,71.
I Promoter Capture Hi-C (PCHi-C) blev >22.000 annoterede promotorer indeholdende restriktionsfragmenter trukket ned fra Hi-C-biblioteker ved hybridisering af enkelt RNA 120-mer biotinylerede sonder i den ene eller begge ender af restriktionsfragmentet34,72. Denne metode tillod dissektion af interaktomet hos tusindvis af promotorer i et hurtigt stigende antal celletyper, herunder embryonale stamceller fra mus, føtale leverceller og adipocytter 34,35,72,73, men også humane lymfoblastoidlinjer, hæmatopoietiske forfædre, epidermale keratinocytter og pluripotente celler 37,74,75,76,77.
I sammenligning med disse målberigelsesteknologier målretter Capture Hi-C sammenhængende genomiske regioner op til megabaseskalaen og spænder derved over en eller flere TAD’er og omfatter regulatoriske landskaber af gener. Hele interesseområdet skal flisebelægges med en række biotinylerede sonder, der omfatter hvert DpnII-begrænsningssted inden for målet. Hybridiseringen af det biotinylerede array til 3C-skabelonen, dets efterfølgende streptavidinbaserede indfangning og behandling til multiplexet sekventering udføres ved hjælp af et målberigelsessystem til Illumina Paired-End multiplexed sekventering. Hele protokollen er hurtig, da den kan udføres på 1 uge fra 3C-biblioteksforberedelse til NGS-sekventering, og den kræver kun mindre tilpasninger og / eller brugerdefineret specifik fejlfinding.
Protokollen giver også fordele i sammenligning med andre 3C-baserede metoder. For at opnå interaktionskort med en opløsning på 5-10 kb sekventerede vi 100-120 M parrede endelæsninger. Til sammenligning brugte vi her et Hi-C-datasæt på 571 M-læsninger for at nå en 20 kb opløsning64 (GSM2053973), og mindst 1 milliard læsninger ville være påkrævet for at nå en 5 kb opløsning med kromosombred Hi-C22.
Capture Hi-C, som anvendt i denne undersøgelse, når en meget højere opløsning end den tidligere offentliggjorte 5C baseret på et 6-bp cutter restriktionsenzym47 (supplerende tabel 1). Det er vigtigt, at strategien designet til at berige og forstærke målrettede interaktioner i 5C ikke tillader allelspecifik analyse af kromatininteraktioner. Tværtimod kan Capture Hi-C-data kortlægges allelspecifikt, hvilket muliggør dissektion af 3D-strukturelle landskaber af par homologe kromosomer, for eksempel i humane celler eller i F1-hybridcellelinjer afledt ved at krydse genetisk forskellige musestammer78. For at generere allelspecifikke Capture Hi-C-interaktionskort med 5 kb-opløsning sekventerede vi 150 bp-parrede endelæsninger for at øge SNP-dækningen. Lignende allelspecifikke tilgange kan anvendes på humane cellelinjer, for hvilke annotationen af SNP’er er tilgængelig22.
Det er vigtigt, at selvom Capture Hi-C generelt sikrer høj opløsning, samtidig med at det forbedrer overkommeligheden af sekventeringsomkostninger, har produktionen af skræddersyede biotinylerede oligonukleotider indflydelse på de samlede omkostninger ved denne metode. Derfor vil valget af den mest egnede 3C-metode variere for forskellige applikationer og afhænger af det biologiske spørgsmål, der behandles, og den krævede opløsning samt størrelsen af interesseområdet. Andre udviklede Capture Hi-C-protokoller deler nøglefunktioner med den protokol, der er beskrevet her. For eksempel blev en Capture Hi-C-strategi anvendt til at karakterisere ~ 50 kb til 1 Mb genomiske regioner, der spænder over ikke-kodende varianter forbundet med bryst- og kolorektal kræftrisiko; i denne protokol blev målregioner trukket ned fra Hi-C-biblioteker ved at hybridisere 120-mer RNA-lokkemad, der flisede målregionerne med en 3x dækning33,38,79. På samme måde blev HYbrid Capture Hi-C (Hi-C 2) brugt til at målrette interaktioner inden for områder af interesse op til2 Mb80. I begge protokoller øgede brugen af en Hi-C-skabelon beriget til biotinudtrækkede ligeringsfragmenter procentdelen af samlede informative læsninger sammenlignet med vores protokol. I Hi-C-datasættet, som vi brugte her til sammenligning64 (GSM2053973), er procentdelen af gyldige par efter fjernelse af dubletter f.eks. 4,8 gange højere end de gyldige par, der er opnået i Capture Hi-C som beskrevet i figur 3 og supplerende tabel 1. Imidlertid gør den fortløbende nedtrapning af biotinylerede ligerede fragmenter og hybridiserede sonder protokollen betydeligt mere kompleks og tidskrævende, samtidig med at den muligvis reducerer kompleksiteten af den fangede region.
En anden tilgængelig metode til at berige 3C-skabeloner med flisesonder er Tiled-C, som blev anvendt til at studere kromatinarkitektur ved høj rumlig og tidsmæssig opløsning under museerythroiddifferentiering43. I Tiled-C bruges et panel på 70 bp biotinylerede sonder til at berige kontakter inden for store regioner i to på hinanden følgende optagelsesrunder for at generere kort i meget høj opløsning over målrettede interaktioner 43,81. Den dobbelte optagelsesberigelse gør også protokollen længere og mere kompleks sammenlignet med Capture Hi-C. I modsætning til Capture-C-strategierne rettet mod enkelte restriktionssteder synes den anden fangstrunde i Tiled-C imidlertid ikke at øge fangsteffektiviteten væsentligt og kan derfor sandsynligvis udelades43. Endelig blev en lignende flisebelægningsmetode baseret på den samme målberigelsesstrategi, der blev anvendt i denne undersøgelse, anvendt til dissektion af regulatoriske landskaber, der omfatter strukturelle varianter beskrevet hos patienter med medfødte misdannelser og rekonstrueret i transgene mus41,42. I dette tilfælde blev flisebelægningsrækken af sonder designet på tværs af hele målet snarere end i nærheden af DpnII-begrænsningssteder41. Ikke desto mindre var dette arbejde skelsættende ved at fremhæve følsomheden og kraften i denne strategi for at opnå karakterisering i høj opløsning af store genomiske regioner i forskellige sammenhænge41,42,48.
Afslutningsvis repræsenterer protokollen beskrevet her en nem, robust og kraftfuld strategi til 3D-karakterisering i høj opløsning af genomiske regioner af interesse. Anvendelsen af denne tilgang på forskellige modelsystemer, celletyper, udviklingsregulerede kromatinlandskaber og genregulering under sunde og patologiske tilstande vil sandsynligvis lette vores forståelse af samspillet og kausaliteten mellem genomtopologi og genregulering, et af de grundlæggende åbne spørgsmål inden for epigenetikområdet. Desuden har anvendelse af Capture Hi-C til at kortlægge langtrækkende interaktioner og højere ordens kromatinfoldning af risikovarianter identificeret af GWAS-undersøgelser potentialet til at afsløre den funktionelle relevans af ikke-kodende genomiske loci forbundet med menneskelige sygdomme i forskellige sammenhænge og derved give ny indsigt i de processer, der potentielt ligger til grund for patogenese.
The authors have nothing to disclose.
Arbejdet i Heard-laboratoriet blev støttet af European Research Council Advanced Investigator Award (XPRESS – AdG671027). A.L. støttes af et individuelt Marie Skłodowska-Curie-stipendium fra Den Europæiske Union (IF-838408). A.H. støttes af ITN Innovative and Interdisciplinary Network ChromDesign under Marie Skłodowska-Curie-tilskudsaftalen 813327. Forfatterne takker Daniel Ibrahim (MPI for Molecular Genetics, Berlin) for hjælpsom teknisk rådgivning, NGS-platformen ved Institut Curie (Paris) og Vladimir Benes og Genomics Core Facility ved EMBL (Heidelberg) for støtte og assistance.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |