Denne protokollen beskriver Capture Hi-C-metoden som brukes til å karakterisere 3D-organisasjonen av megabaserte målrettede genomiske regioner ved høy oppløsning, inkludert grenser for topologisk assosierende domener (TAD) og langdistansekromatininteraksjoner mellom regulatoriske og andre DNA-sekvenselementer.
Den romlige organisasjonen av genomet bidrar til dets funksjon og regulering i mange sammenhenger, inkludert transkripsjon, replikering, rekombinasjon og reparasjon. Å forstå den eksakte årsakssammenhengen mellom genomtopologi og funksjon er derfor avgjørende og i økende grad gjenstand for intensiv forskning. Kromosomkonformasjonsfangstteknologier (3C) tillater utledning av kromatinets 3D-struktur ved å måle frekvensen av interaksjoner mellom en hvilken som helst region i genomet. Her beskriver vi en rask og enkel protokoll for å utføre Capture Hi-C, en 3C-basert målberikelsesmetode som karakteriserer den allelspesifikke 3D-organisasjonen av megabaserte genomiske mål ved høy oppløsning. I Capture Hi-C fanges målregioner opp av en rekke biotinylerte sonder før sekvensering av høy gjennomstrømning nedstrøms. Dermed oppnås høyere oppløsning og allelspesifisitet samtidig som teknologiens tidseffektivitet og overkommelige priser forbedres. For å demonstrere sine styrker ble Capture Hi-C-protokollen brukt på musens X-inaktiveringssenter (Xic), hovedreguleringsstedet for X-kromosominaktivering (XCI).
Det lineære genomet inneholder all informasjon som er nødvendig for at en organisme skal gjennomgå embryonal utvikling og overleve gjennom voksen alder. Å instruere genetisk identiske celler til å utføre forskjellige funksjoner er imidlertid grunnleggende for nøyaktig å kontrollere hvilken informasjon som brukes i bestemte sammenhenger, inkludert forskjellige vev og / eller utviklingsstadier. Den tredimensjonale organisasjonen av genomet antas å delta i denne nøyaktige spatio-temporale reguleringen av genaktivitet ved å lette eller forhindre det fysiske samspillet mellom regulatoriske elementer som kan skilles med flere hundre kilobaser i det lineære genomet (for vurderinger 1,2,3). I løpet av de siste 20 årene har vår forståelse av samspillet mellom genomfolding og aktivitet økt raskt, hovedsakelig på grunn av utviklingen av kromosomkonformasjonsfangstteknologier (3C) (for gjennomgang 4,5,6,7). Disse metodene måler frekvensen av interaksjoner mellom noen regioner i genomet og stole på ligering av DNA-sekvenser som er i nær 3D-nærhet i kjernen. De vanligste 3C-protokollene starter med fiksering av cellepopulasjoner med et kryssbindingsmiddel som formaldehyd. Det tverrbundne kromatinet fordøyes deretter med et restriksjonsenzym, selv om MNase-fordøyelsen også har blitt brukt 8,9. Etter fordøyelsen blir frie DNA-ender i nær romlig nærhet re-ligert, og kryssbinding reverseres. Dette trinnet gir opphav til 3C ‘bibliotek’ eller ‘mal’, et blandet basseng av hybridfragmenter der sekvenser som var i 3D-nærhet til kjernen har høyere sjanser for å bli ligert i det samme DNA-fragmentet. Nedstrøms kvantifisering av disse hybridfragmentene gjør det mulig å utlede 3D-konformasjonen av genomiske regioner som ligger tusenvis av basepar fra hverandre i det lineære genomet, men kan samhandle i 3D-rommet.
Mange forskjellige tilnærminger er utviklet for å karakterisere 3C-biblioteket, forskjellig både når det gjelder hvilke delmengder av ligeringsfragmenter som analyseres og hvilken teknologi som brukes til nedstrøms kvantifisering. Den opprinnelige 3C-protokollen baserte seg på valg av to interesseregioner og kvantifisering av deres ‘en mot en’ interaksjonsfrekvens med PCR10,11. 4C-tilnærmingen (sirkulær kromosomkonformasjonsfangst) måler samspillet mellom et enkelt lokus av interesse (dvs. ‘synspunktet’) og resten av genomet (‘en mot alle’)12,13,14. I 4C gjennomgår 3C-biblioteket en andre runde med fordøyelse og re-ligering for å generere små sirkulære DNA-molekyler som er PCR-forsterket av synspunktsspesifikke primere15. 5C (chromosome conformation capture carbon copy) muliggjør karakterisering av 3D-interaksjoner på tvers av større interesseområder, noe som gir innsikt i høyere ordens kromatinfolding innenfor den regionen (‘mange mot mange’)16. I 5C hybridiseres 3C-biblioteket til en pool av oligonukleotider som overlapper restriksjonssteder som senere kan forsterkes ved multiplex PCR med universelle primere15. I både 4C og 5C ble de informative DNA-fragmentene først kvantifisert av mikromatriser og senere ved neste generasjons sekvensering (NGS) 17,18,19. Disse strategiene karakteriserer målrettede regioner av interesse, men kan ikke brukes til å kartlegge genom-brede interaksjoner. Dette siste målet oppnås med Hi-C, en 3C-basert strategi med høy gjennomstrømning der massivt parallell sekvensering av 3C-malen tillater objektiv karakterisering av kromatinfolding på genombredt nivå (‘alle mot alle’)20. Hi-C-protokollen inkluderer inkorporering av en biotinylert rest ved de fordøyede fragmentenes ender, som etterfølges av nedtrekk av ligeringsfragmenter med streptapavidinperler for å øke utvinningen av ligerte fragmenter20.
Hi-C avslørte at pattedyrgenomer er strukturelt organisert på flere skalaer i 3D-kjernen. På megabaseskalaen er genomet delt inn i regioner av aktivt og inaktivt kromatin, henholdsvis A- og B-rommene20,21. Eksistensen av ytterligere underavdelinger representert ved forskjellige kromatin- og aktivitetstilstander ble også senere vist22. Ved høyere oppløsning er genomet videre delt inn i sub-megabase selvinteragerende domener kalt topologisk assosierende domener (TAD), først avslørt av Hi-C og 5C-analyse av human- og musegenomene23,24. I motsetning til rom som varierer på en vevsspesifikk måte, har TAD en tendens til å være konstant (selv om det er mange unntak). Det er viktig at TAD-grensene bevares på tvers av arter25. I pattedyrceller omfatter TADs ofte gener som deler det samme regulatoriske landskapet og har vist seg å representere et strukturelt rammeverk som letter genregulering samtidig som samspillet med nærliggende regulatoriske domener begrenses (for gjennomgang 3,26,27,28). Videre, innen TAD, kan interaksjoner på grunn av CTCF-steder ved foten av kohesin-ekstruderte sløyfer øke sannsynligheten for promotorforsterker- eller forsterkerinteraksjoner (for gjennomgang29).
I Hi-C kan rom og TAD-er detekteres ved 1 Mb til 40 kb oppløsning, men høyere oppløsning kan oppnås for å karakterisere kontakter i mindre skala som looping-interaksjoner mellom distale elementer i skalaen 5-10 kb. Å øke oppløsningen for å kunne oppdage slike sløyfer effektivt ved HiC krever imidlertid en betydelig økning i sekvenseringsdybden og dermed sekvenseringskostnadene. Dette forverres dersom analysen må være allelspesifikk. Faktisk krever en X-fold økning i oppløsning en X2 økning i sekvenseringsdybde, noe som betyr at høyoppløselige og allel-spesifikke genom-brede tilnærminger kan være uoverkommelig dyre30.
For å forbedre kostnadseffektivitet og overkommelig pris samtidig som høy oppløsning opprettholdes, kan målområder av interesse fysisk trekkes ned fra genombrede 3C- eller Hi-C-biblioteker etter hybridisering med komplementære biotinmerkede oligonukleotidprober før nedstrøms sekvensering. Disse målberikelsesstrategiene blir referert til som Capture-C-metoder og tillater avhør av interaksjoner av hundrevis av målsteder spredt over genomet (dvs. Promoter Capture (PC) Hi-C; Neste generasjons (NG) Capture-C; Lav inngang (LI) Capture-C; Nukleærtitrert (NuTi) Capture-C; Tri-C)31,32,33,34,35,36,37,38,39,40, eller på tvers av regioner som spenner over flere megabaser (dvs. HYbrid Capture Hi-C (Hi-C2); Flislagt-C)41,42,43. To aspekter kan variere i fangstbaserte metoder: (1) naturen og utformingen av biotinylerte oligonukleotider (dvs. RNA eller DNA, enkle oligoer som fanger dispergerte genomiske mål eller flere oligoer som flislegger et område av interesse); og (2) malen som brukes til å trekke ned mål som kan være 3C- eller Hi-C-biblioteket, sistnevnte bestående av biotinylerte restriksjonsfragmenter trukket ned fra 3C-biblioteket.
Her beskrives en Capture Hi-C-protokoll basert på anrikning av målkontakter fra 3C-biblioteket. Protokollen er avhengig av utformingen av et skreddersydd flisleggingsutvalg av biotinylerte RNA-prober og kan utføres på 1 uke fra 3C-bibliotekets forberedelse til NGS-sekvensering. Protokollen er rask, enkel og gjør det mulig å karakterisere 3D-organisasjonen av høyere ordens 3D-organisasjon av megabase-store regioner av interesse ved 5 kb oppløsning, samtidig som tidseffektiviteten og overkommeligheten forbedres sammenlignet med andre 3C-metoder. Capture Hi-C-protokollen ble brukt på hovedreguleringsstedet for X-kromosominaktivering (XCI), X-inaktiveringssenteret (Xic), som er vert for Xist-ikke-kodende RNA. Xic har tidligere vært gjenstand for omfattende strukturelle og funksjonelle analyser (for gjennomgang44,45). Hos pattedyr kompenserer XCI for doseringen av X-bundne gener mellom hunner (XX) og hanner (XY) og involverer transkripsjonell deaktivering av nesten hele ett av de to X-kromosomene i hunnceller. Xic har representert et kraftig, gullstandardlokus for studier i 3D-genomtopologi og samspillet med genregulering44. 5C-analyse av Xic i embryonale stamceller fra mus (mESC) førte til oppdagelsen og navngivningen av TAD, og ga den første innsikten i den funksjonelle relevansen av topologisk partisjonering og genkoregulering24. Den topologiske organiseringen av Xic ble senere vist å være kritisk involvert i riktig utviklingstidspunkt for Xist-oppregulering og XCI 46, og intetanende cis-regulatoriske elementer som kan påvirke genaktivitet i og mellom TADs ble også nylig oppdaget i Xic47,48,49. Bruk av Capture Hi-C på 3 Mb av musen X-kromosomet som spenner over Xic, demonstrerer kraften i denne tilnærmingen ved å dissekere storskala kromatinfolding i høy oppløsning. En detaljert og enkel å følge protokoll er gitt, med utgangspunkt i utformingen av rekken av biotinylerte sonder på tvers av hvert DpnII-restriksjonssted innenfor regionen av interesse for genereringen av det genombrede 3C-biblioteket, hybridisering og fangst av målkontakter og nedstrøms dataanalyse. En oversikt over hensiktsmessige kvalitetskontroller og forventede resultater er også inkludert, og både styrker og begrensninger ved tilnærmingen diskuteres i lys av lignende eksisterende metoder.
Her beskriver vi en relativt rask og enkel Capture Hi-C-protokoll for å karakterisere den høyere ordens organisasjonen av megabase-størrelse genomiske regioner ved 5-10 kb oppløsning. Capture Hi-C tilhører familien av Capture-C-teknologier som er designet for å berike målrettede kromatininteraksjoner fra genombrede 3C- eller Hi-C-maler. Hittil har det store flertallet av Capture-C-applikasjoner blitt utnyttet til å kartlegge kromatinkontakter av relativt små regulatoriske elementer spredt over hele genomet. I den første Capture-C-protokollen ble flere overlappende RNA-biotinylerte sonder brukt til å fange >400 forhåndsvalgte promotorer i 3C-biblioteker fremstilt fra erytroide celler31. Den samme strategien ble senere forbedret i Next Generation (NG) og Nuclear Titrated (NuTi) Capture-C for å oppnå høyoppløselige interaksjonsprofiler på >8,000 promotorer ved å bruke enkle 120 bp DNA-agn som spenner over enkeltbegrensningssteder og to sekvensielle runder med Capture for å maksimere anrikningen av informative ligeringsfragmenter 32,40. Disse strategiene førte til funksjonell disseksjon av cis-virkende elementer i mange forskjellige sammenhenger, inkludert musembryonal utvikling, celledifferensiering, X-kromosominaktivering og genfeilregulering ved patologiske forhold 46,63,65,66,67,68,69,70,71.
I Promoter Capture Hi-C (PCHi-C) ble >22 000 kommenterte promotorer som inneholdt restriksjonsfragmenter trukket ned fra Hi-C-biblioteker ved hybridisering av enkelt RNA 120-mer biotinylerte sonder i en eller begge ender av restriksjonsfragmentet34,72. Denne metoden tillot disseksjon av interaktomet av tusenvis av promotorer i et raskt økende antall celletyper, inkludert musembryonale stamceller, føtale leverceller og adipocytter 34,35,72,73, men også humane lymfoblastoidlinjer, hematopoietiske forfedre, epidermale keratinocytter og pluripotente celler 37,74,75,76,77.
Sammenlignet med disse målberikelsesteknologiene, retter Capture Hi-C seg mot sammenhengende genomiske regioner opp til megabase-skalaen, og spenner dermed over en eller flere TAD-er og omfatter regulatoriske landskap av gener. Hele interesseområdet må flislegges med en rekke biotinylerte sonder som omfatter hvert DpnII-restriksjonssted innenfor målet. Hybridiseringen av den biotinylerte matrisen til 3C-malen, dens påfølgende streptavidinbaserte fangst og prosessering for multiplekset sekvensering utføres ved hjelp av et målanrikningssystem for Illumina Paired-End multiplekset sekvensering. Hele protokollen er rask, da den kan utføres på 1 uke fra klargjøring av 3C-bibliotek til NGS-sekvensering, og den krever bare mindre tilpasninger og/eller spesialspesifikk feilsøking.
Protokollen gir også fordeler sammenlignet med andre 3C-baserte metoder. For å få interaksjonskart med en oppløsning på 5-10 kb, sekvenserte vi 100-120 M parede endeavlesninger. Til sammenligning brukte vi her et Hi-C-datasett på 571 M-avlesninger for å nå en oppløsningpå 20 kb 64 (GSM2053973), og minst 1 milliard avlesninger ville være nødvendig for å nå en 5 kb-oppløsning med kromosombrede Hi-C22.
Capture Hi-C som brukt i denne studien oppnår en mye høyere oppløsning enn den tidligere publiserte 5C basert på et 6-bp kutterrestriksjonsenzym47 (tilleggstabell 1). Det er viktig at strategien som er utformet for å berike og forsterke målrettede interaksjoner i 5C, ikke tillater allelspesifikk analyse av kromatininteraksjoner. Tvert imot kan Capture Hi-C-data kartlegges allel-spesifikt, slik at disseksjon av 3D-strukturelle landskap av par homologe kromosomer, for eksempel i humane celler eller i F1-hybridcellelinjer avledet ved å krysse genetisk forskjellige musestammer78. For å generere allelspesifikke Capture Hi-C-interaksjonskart med en oppløsning på 5 kb, sekvenserte vi 150 bp parvise avlesninger for å øke SNP-dekningen. Lignende allel-spesifikke tilnærminger kan brukes på humane cellelinjer, for hvilke annotasjonen av SNPs er tilgjengelig22.
Det er viktig at selv om Capture Hi-C generelt sikrer høy oppløsning samtidig som de forbedrer overkommeligheten til sekvenseringskostnadene, har produksjonen av skreddersydde biotinylerte oligonukleotider innvirkning på den totale kostnaden for denne metoden. Derfor vil valget av den mest passende 3C-metoden variere for forskjellige applikasjoner, og vil avhenge av det biologiske spørsmålet som tas opp og oppløsningen som kreves, samt størrelsen på interesseområdet. Andre Capture Hi-C-protokoller utviklet deler viktige funksjoner med protokollen beskrevet her. For eksempel ble en Capture Hi-C-strategi brukt for å karakterisere ~ 50 kb til 1 Mb genomiske regioner som spenner over ikke-kodende varianter assosiert med bryst- og kolorektal kreftrisiko; i denne protokollen ble målregioner trukket ned fra Hi-C-biblioteker ved å hybridisere 120-mer RNA-agn som flislegger målregionene med en 3x dekning33,38,79. På samme måte ble HYbrid Capture Hi-C (Hi-C 2) brukt til å målrette interaksjoner innenfor interesseområder opp til2 Mb80. I begge protokollene økte bruken av en Hi-C-mal beriket for biotin-nedtrukne ligeringsfragmenter prosentandelen av totale informative avlesninger sammenlignet med protokollen vår. For eksempel, i Hi-C-datasettet vi brukte her for sammenligning64 (GSM2053973), er prosentandelen gyldige par etter fjerning av duplikater 4,8 ganger høyere enn de gyldige parene oppnådd i Capture Hi-C som beskrevet i figur 3 og tilleggstabell 1. Imidlertid gjør den påfølgende nedtrekkingen av biotinylerte ligerte fragmenter og hybridiserte sonder protokollen betydelig mer kompleks og tidkrevende, samtidig som den muligens reduserer kompleksiteten til den fangede regionen.
En annen tilgjengelig metode for å berike 3C-maler med flisleggingsprober er Tiled-C, som ble brukt til å studere kromatinarkitektur ved høy romlig og tidsmessig oppløsning under musens erytroide differensiering43. I Tiled-C brukes et panel med 70 bp biotinylerte sonder til å berike kontakter i store regioner i to påfølgende fangstrunder for å generere svært høyoppløselige kart over målrettede interaksjoner43,81. Den doble fangstberikelsen gjør også protokollen lengre og mer kompleks sammenlignet med Capture Hi-C. I motsetning til Capture-C-strategiene rettet mot enkeltrestriksjonslokaliteter, ser det imidlertid ikke ut til at andre fangstrunde i Tiled-C øker fangsteffektiviteten vesentlig, og kan derfor trolig utelates43. Til slutt ble en lignende flisleggingstilnærming basert på den samme målberikelsesstrategien som ble brukt i denne studien, anvendt på disseksjon av regulatoriske landskap som omfatter strukturelle varianter beskrevet hos pasienter med medfødte misdannelser og rekonstruert i transgene mus41,42. I dette tilfellet ble flisleggingsmatrisen av sonder designet over hele målet i stedet for i nærheten av DpnII-restriksjonssteder41. Ikke desto mindre var dette arbeidet avgjørende for å fremheve følsomheten og kraften i denne strategien for å oppnå høyoppløselig karakterisering av store genomiske regioner i forskjellige sammenhenger41,42,48.
Avslutningsvis representerer protokollen beskrevet her en enkel, robust og kraftig strategi for høyoppløselig 3D-karakterisering av alle genomiske regioner av interesse. Anvendelsen av denne tilnærmingen til forskjellige modellsystemer, celletyper, utviklingsregulerte kromatinlandskap og genregulering under sunne og patologiske forhold vil sannsynligvis lette vår forståelse av samspillet og kausaliteten mellom genomtopologi og genregulering, et av de grunnleggende åpne spørsmålene innen epigenetikkfeltet. Videre har bruk av Capture Hi-C for å kartlegge langdistanseinteraksjoner og høyere ordens kromatinfolding av risikovarianter identifisert av GWAS-studier potensialet til å avsløre den funksjonelle relevansen av ikke-kodende genomiske loci assosiert med menneskelige sykdommer i forskjellige sammenhenger, og dermed gi ny innsikt i prosessene som potensielt ligger til grunn for patogenesen.
The authors have nothing to disclose.
Arbeidet i Heard-laboratoriet ble støttet av en European Research Council Advanced Investigator-pris (XPRESS – AdG671027). AL støttes av en EU Marie Skłodowska-Curie Actions Individual Fellowship (IF-838408). AH støttes av ITN Innovative and Interdisciplinary Network ChromDesign, under Marie Skłodowska-Curie Grant-avtalen 813327. Forfatterne er takknemlige til Daniel Ibrahim (MPI for Molecular Genetics, Berlin) for nyttige tekniske råd, til NGS-plattformen ved Institut Curie (Paris), og til Vladimir Benes og Genomics Core Facility ved EMBL (Heidelberg), for støtte og assistanse.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |