Detta protokoll beskriver Capture Hi-C-metoden som används för att karakterisera 3D-organisationen av megabaserade riktade genomiska regioner med hög upplösning, inklusive gränser för topologiskt associerande domäner (TADs) och långväga kromatininteraktioner mellan regulatoriska och andra DNA-sekvenselement.
Den rumsliga organisationen av genomet bidrar till dess funktion och reglering i många sammanhang, inklusive transkription, replikering, rekombination och reparation. Att förstå den exakta kausaliteten mellan genomtopologi och funktion är därför avgörande och alltmer föremål för intensiv forskning. Teknik för infångning av kromosomkonformation (3C) gör det möjligt att härleda kromatins 3D-struktur genom att mäta frekvensen av interaktioner mellan vilken region som helst i genomet. Här beskriver vi ett snabbt och enkelt protokoll för att utföra Capture Hi-C, en 3C-baserad målanrikningsmetod som karakteriserar den allelspecifika 3D-organisationen av megabaserade genomiska mål med hög upplösning. I Capture Hi-C fångas målregioner upp av en matris med biotinylerade avsökningar före sekvensering med högt dataflöde nedströms. Således uppnås högre upplösning och allelspecificitet samtidigt som teknikens tidseffektivitet och överkomliga priser förbättras. För att demonstrera dess styrkor applicerades Capture Hi-C-protokollet på musens X-inaktiveringscenter ( Xic), huvudregleringsplatsen för X-kromosominaktivering (XCI).
Det linjära genomet innehåller all information som behövs för att en organism ska genomgå embryonal utveckling och överleva under vuxen ålder. Att instruera genetiskt identiska celler att utföra olika funktioner är dock grundläggande för att exakt kontrollera vilken information som används i specifika sammanhang, inklusive olika vävnader och / eller utvecklingsstadier. Den tredimensionella organisationen av genomet tros delta i denna exakta spatio-temporala reglering av genaktivitet genom att underlätta eller förhindra den fysiska interaktionen mellan reglerande element som kan separeras med flera hundra kilobaser i det linjära genomet (för recensioner 1,2,3). Under de senaste 20 åren har vår förståelse av samspelet mellan genomveckning och aktivitet snabbt ökat, till stor del på grund av utvecklingen av kromosomkonformationsteknik (3C) (för granskning 4,5,6,7). Dessa metoder mäter frekvensen av interaktioner mellan alla regioner i genomet och förlitar sig på ligering av DNA-sekvenser som ligger i nära 3D-närhet inom kärnan. De vanligaste 3C-protokollen börjar med fixering av cellpopulationer med ett tvärbindningsmedel såsom formaldehyd. Det tvärbundna kromatinet spjälkas sedan med ett restriktionsenzym, även om MNas-rötning också har använts 8,9. Efter matsmältning återliggörs fria DNA-ändar i nära rumslig närhet och tvärbindningen vänds. Detta steg ger upphov till 3C-biblioteket eller mallen, en blandad pool av hybridfragment där sekvenser som var i 3D-närhet till kärnan har större chanser att ligeras i samma DNA-fragment. Nedströmskvantifieringen av dessa hybridfragment gör det möjligt att härleda 3D-konformationen av genomiska regioner som ligger tusentals baspar från varandra i det linjära genomet men kan interagera i 3D-rymden.
Många olika tillvägagångssätt har utvecklats för att karakterisera 3C-biblioteket, som skiljer sig både när det gäller vilka delmängder av ligeringsfragment som analyseras och vilken teknik som används för deras nedströms kvantifiering. Det ursprungliga 3C-protokollet förlitade sig på valet av två intressanta regioner och kvantifieringen av deras “en mot en” interaktionsfrekvens med PCR10,11. 4C-metoden (cirkulär kromosomkonformationsfångst) mäter interaktionerna mellan en enda plats av intresse (dvs. “synvinkeln”) och resten av genomet (“en mot alla”)12,13,14. I 4C genomgår 3C-biblioteket en andra omgång av matsmältning och religering för att generera små cirkulära DNA-molekyler som PCR-amplifieras av synvinkelspecifika primers15. 5C (kromosomkonformation fångar kolkopia) möjliggör karakterisering av 3D-interaktioner över större regioner av intresse, vilket ger insikter i högre ordningens kromatinveckning inom den regionen (“många mot många”)16. I 5C hybridiseras 3C-biblioteket till en pool av oligonukleotider som överlappar restriktionsställen som därefter kan förstärkas med multiplex PCR med universella primers15. I både 4C och 5C kvantifierades de informativa DNA-fragmenten initialt av mikroarrayer och senare av nästa generations sekvensering (NGS) 17,18,19. Dessa strategier karakteriserar riktade regioner av intresse men kan inte tillämpas för att kartlägga genomomfattande interaktioner. Det senare målet uppnås med Hi-C, en 3C-baserad strategi med hög genomströmning där massivt parallell sekvensering av 3C-mallen möjliggör opartisk karakterisering av kromatinvikning på genomomfattande nivå (“alla mot alla”)20. Hi-C-protokollet innefattar införlivande av en biotinylerad rest vid de smälta fragmentens ändar, vilket följs av neddragning av ligeringsfragment med streptavidinpärlor för att öka återvinningen av ligerade fragment20.
Hi-C avslöjade att däggdjursgenom är strukturellt organiserade i flera skalor i 3D-kärnan. På megabasskalan är genomet uppdelat i regioner av aktivt och inaktivt kromatin, A- respektive B-facken20,21. Förekomsten av ytterligare underavdelningar representerade av olika kromatin- och aktivitetstillstånd visades ocksåsenare 22. Vid högre upplösning delas genomet vidare upp i sub-megabas självinteragerande domäner som kallas topologiskt associerande domäner (TADs), först avslöjade genom Hi-C och 5C-analys av human- och musgenomerna23,24. Till skillnad från fack som varierar på ett vävnadsspecifikt sätt tenderar TAD att vara konstanta (även om det finns många undantag). Det är viktigt att TAD-gränserna bevaras över arter25. I däggdjursceller omfattar TAD ofta gener som delar samma reglerande landskap och har visat sig representera ett strukturellt ramverk som underlättar gensamreglering samtidigt som interaktionerna med angränsande regleringsdomäner begränsas (för granskning 3,26,27,28). Inom TAD kan dessutom interaktioner på grund av CTCF-platser vid basen av kohesin-extruderade slingor öka sannolikheten för promotor-förstärkare eller förstärkare-förstärkare-interaktioner (för granskning29).
I Hi-C kan fack och TAD detekteras med 1 Mb till 40 kb upplösning, men högre upplösning kan uppnås för att karakterisera mindre skalkontakter som looping interaktioner mellan distala element på skalan 5-10 kb. Att öka upplösningen för att kunna detektera sådana loopar effektivt med HiC kräver dock en betydande ökning av sekvenseringsdjupet och därmed sekvenseringskostnaderna. Detta förvärras om analysen måste vara allelspecifik. Faktum är att en X-faldig ökning av upplösningen kräver en X2-ökning av sekvenseringsdjupet, vilket innebär att högupplösta och allelspecifika genomomfattande tillvägagångssätt kan vara oöverkomligt dyra30.
För att förbättra kostnadseffektiviteten och överkomligheten samtidigt som hög upplösning bibehålls kan målregioner av intresse fysiskt dras ner från genomomfattande 3C- eller Hi-C-bibliotek efter deras hybridisering med komplementära biotinmärkta oligonukleotidprober före sekvensering nedströms. Dessa målanrikningsstrategier kallas Capture-C-metoder och möjliggör förhör av interaktioner mellan hundratals mållokus spridda över genomet (dvs. Promoter Capture (PC) Hi-C; Nästa generations (NG) Capture-C; Låg ingång (LI) Capture-C; Nukleär titrerad (NuTi) Capture-C; Tri-C)31,32,33,34,35,36,37,38,39,40, eller över regioner som sträcker sig upp till flera megabaser (dvs. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Kaklat C)41,42,43. Två aspekter kan variera i fångstbaserade metoder: (1) arten och utformningen av biotinylerade oligonukleotider (dvs. RNA eller DNA, enstaka oligos som fångar dispergerade genomiska mål eller flera oligos som kaklar en region av intresse); och (2) mallen som används för att dra ner mål som kan vara 3C- eller Hi-C-biblioteket, det senare består av biotinylerade restriktionsfragment som dras ner från 3C-biblioteket.
Här beskrivs ett Capture Hi-C-protokoll baserat på berikning av målkontakter från 3C-biblioteket. Protokollet bygger på utformningen av en skräddarsydd plattsättning av biotinylerade RNA-sonder och kan utföras på 1 vecka från 3C-biblioteksberedningen till NGS-sekvenseringen. Protokollet är snabbt, enkelt och gör det möjligt att karakterisera den högre ordningens 3D-organisation av megabasstora regioner av intresse med 5 kb upplösning samtidigt som tidseffektiviteten och prisvärdheten förbättras jämfört med andra 3C-metoder. Capture Hi-C-protokollet tillämpades på masterregulatorplatsen för X-kromosominaktivering (XCI), X-inaktiveringscentret (Xic), som är värd för Xist icke-kodande RNA. Xic har tidigare varit föremål för omfattande strukturella och funktionella analyser (för granskning44,45). Hos däggdjur kompenserar XCI för doseringen av X-länkade gener mellan honor (XX) och hanar (XY) och involverar transkriptionell tystning av nästan hela en av de två X-kromosomerna i kvinnliga celler. Xic har representerat en kraftfull, guldstandardplats för studier i 3D-genomtopologi och samspelet med genreglering44. 5C-analys av Xic i musembryonala stamceller (mESC) ledde till upptäckten och namngivningen av TADs, vilket gav de första insikterna i den funktionella relevansen av topologisk partitionering och gensamreglering24. Den topologiska organisationen av Xic visade sig senare vara kritiskt involverad i lämplig utvecklingstidpunkt för Xist-uppreglering och XCI 46, och oväntade cis-reglerande element som kan påverka genaktivitet inom och mellan TAD upptäcktes också nyligen inom Xic47,48,49. Att applicera Capture Hi-C på 3 Mb av musens X-kromosom som spänner över Xic visar kraften i detta tillvägagångssätt vid dissekering av storskalig kromatinveckning med hög upplösning. Ett detaljerat och lätt att följa protokoll tillhandahålls, med början från utformningen av uppsättningen biotinylerade sonder över varje DpnII-begränsningsplats inom regionen av intresse för generering av det genomomfattande 3C-biblioteket, hybridisering och fångst av målkontakter och nedströms dataanalys. En översikt över lämpliga kvalitetskontroller och förväntade resultat ingår också, och både styrkor och begränsningar i tillvägagångssättet diskuteras mot bakgrund av liknande befintliga metoder.
Här beskriver vi ett relativt snabbt och enkelt Capture Hi-C-protokoll för att karakterisera den högre ordningens organisation av genomiska regioner i megabasstorlek med 5-10 kb upplösning. Capture Hi-C tillhör familjen av Capture-C-tekniker som är utformade för att berika riktade kromatininteraktioner från genomomfattande 3C- eller Hi-C-mallar. Hittills har den stora majoriteten av Capture-C-applikationer utnyttjats för att kartlägga kromatinkontakter av relativt små reglerande element spridda över hela genomet. I det första Capture-C-protokollet användes flera överlappande RNA-biotinylerade sonder för att fånga > 400 förvalda promotorer i 3C-bibliotek framställda från erytroida celler31. Samma strategi förbättrades därefter i Next Generation (NG) och Nuclear Titrated (NuTi) Capture-C för att uppnå högupplösta interaktionsprofiler på >8 000 promotorer genom att använda enstaka 120 bp DNA-beten som spänner över enstaka restriktionsställen och två sekventiella omgångar av Capture för att maximera anrikningen av informativa ligeringsfragment32,40. Dessa strategier ledde till funktionell dissektion av cis-verkande element i många olika sammanhang, inklusive musembryonal utveckling, celldifferentiering, X-kromosominaktivering och felreglering av gener vid patologiska tillstånd 46,63,65,66,67,68,69,70,71.
I Promoter Capture Hi-C (PCHi-C) drogs > 22 000 kommenterade promotorer innehållande restriktionsfragment ner från Hi-C-bibliotek genom hybridisering av enstaka RNA 120-mer biotinylerade sonder i endera eller båda ändarna av restriktionsfragmentet34,72. Denna metod möjliggjorde dissektion av interaktomet hos tusentals promotorer i ett snabbt ökande antal celltyper, inklusive musembryonala stamceller, fosterleverceller och adipocyter 34,35,72,73, men också humana lymfoblastoidlinjer, hematopoetiska stamceller, epidermala keratinocyter och pluripotenta celler 37,74,75,76,77.
I jämförelse med dessa målanrikningstekniker riktar sig Capture Hi-C mot angränsande genomiska regioner upp till megabasskalan och spänner därmed över en eller flera TAD och omfattar reglerande landskap av gener. Hela regionen av intresse måste kaklas med en rad biotinylerade sonder som omfattar varje DpnII-begränsningsplats inom målet. Hybridiseringen av den biotinylerade matrisen till 3C-mallen, dess efterföljande streptavidinbaserade infångning och bearbetning för multiplexerad sekvensering utförs med hjälp av ett målanrikningssystem för Illumina Paired-End multiplexerad sekvensering. Hela protokollet är snabbt, eftersom det kan utföras på 1 vecka från 3C-biblioteksförberedelse till NGS-sekvensering, och det kräver endast mindre anpassningar och / eller anpassad felsökning.
Protokollet ger också fördelar jämfört med andra 3C-baserade metoder. För att få interaktionskartor med en upplösning på 5-10 kb sekvenserade vi 100-120 M parade läsningar. Som en jämförelse använde vi här en Hi-C-dataset på 571 M läser för att nå en 20 kb upplösning64 (GSM2053973), och minst 1 miljard läsningar skulle krävas för att nå en 5 kb upplösning med kromosomomfattande Hi-C22.
Capture Hi-C som används i den aktuella studien når en mycket högre upplösning än den tidigare publicerade 5C baserat på ett 6-bp skärrestriktionsenzym47 (kompletterande tabell 1). Viktigt är att strategin som är utformad för att berika och förstärka riktade interaktioner i 5C inte tillåter allelspecifik analys av kromatininteraktioner. Tvärtom kan Capture Hi-C-data kartläggas allelspecifikt, vilket möjliggör dissektion av 3D-strukturella landskap av par av homologa kromosomer, till exempel i mänskliga celler eller i F1-hybridcellinjer härledda genom att korsa genetiskt olika musstammar78. För att generera allelspecifika Capture Hi-C-interaktionskartor med en upplösning på 5 kB sekvenserade vi läsningar med 150 bp parkopplade ändar för att öka SNP-täckningen. Liknande allelspecifika tillvägagångssätt kan tillämpas på humana cellinjer, för vilka annotering av SNP är tillgänglig22.
Viktigt är att även om Capture Hi-C i allmänhet säkerställer hög upplösning samtidigt som de förbättrar överkomligheten för sekvenseringskostnader, har produktionen av skräddarsydda biotinylerade oligonukleotider en inverkan på den totala kostnaden för denna metod. Därför kommer valet av den lämpligaste 3C-metoden att skilja sig åt för olika applikationer och beror på den biologiska frågan som behandlas och den upplösning som krävs, liksom storleken på regionen av intresse. Andra utvecklade Capture Hi-C-protokoll delar viktiga funktioner med det protokoll som beskrivs här. Till exempel tillämpades en Capture Hi-C-strategi för att karakterisera ~ 50 kb till 1 Mb genomiska regioner som spänner över icke-kodande varianter associerade med risk för bröst- och kolorektal cancer; i detta protokoll drogs målregioner ner från Hi-C-bibliotek genom att hybridisera 120-mer RNA-beten som kakel målregionerna med en 3x täckning33,38,79. På liknande sätt användes HYbrid Capture Hi-C (Hi-C 2) för att rikta interaktioner inom intressanta regioner upp till2 Mb80. I båda protokollen ökade användningen av en Hi-C-mall berikad för neddragna ligeringsfragment med biotin procentandelen av de totala informativa läsningarna jämfört med vårt protokoll. Till exempel, i Hi-C-datasetet som vi använde här för jämförelse64 (GSM2053973) är procentandelen giltiga par efter borttagning av dubbletter 4,8 gånger högre än de giltiga par som erhållits i Capture Hi-C som beskrivs i figur 3 och kompletterande tabell 1. Den konsekutiva neddragningen av biotinylerade ligerade fragment och hybridiserade sonder gör dock protokollet betydligt mer komplext och tidskrävande samtidigt som det möjligen minskar komplexiteten i den fångade regionen.
En annan tillgänglig metod för att berika 3C-mallar med plattsättningssonder är Tiled-C, som användes för att studera kromatinarkitektur vid hög rumslig och tidsmässig upplösning under muserytroiddifferentiering43. I Tiled-C används en panel med 70 bp biotinylerade sonder för att berika kontakter inom storskaliga regioner i två på varandra följande fångstomgångar för att generera mycket högupplösta kartor över riktade interaktioner 43,81. Den dubbla infångningsanrikningen gör också protokollet längre och mer komplext jämfört med Capture Hi-C. Till skillnad från de Capture-C-strategier som är inriktade på enstaka begränsningsplatser verkar dock den andra fångstomgången i Tiled-C inte öka fångsteffektiviteten avsevärt och kan därför förmodligen utelämnas43. Slutligen tillämpades en liknande plattsättningsmetod baserad på samma målanrikningsstrategi som användes i denna studie på dissektion av regulatoriska landskap som omfattar strukturella varianter som beskrivs hos patienter med medfödda missbildningar och omkonstrueras i transgena möss41,42. I det här fallet utformades plattsättningsmatrisen av sonder över hela målet snarare än i närheten av DpnII-begränsningsplatser41. Ändå var detta arbete avgörande för att lyfta fram känsligheten och kraften i denna strategi för att uppnå högupplöst karakterisering av stora genomiska regioner i olika sammanhang41,42,48.
Sammanfattningsvis representerar protokollet som beskrivs här en enkel, robust och kraftfull strategi för högupplöst 3D-karakterisering av alla genomiska regioner av intresse. Tillämpningen av detta tillvägagångssätt på olika modellsystem, celltyper, utvecklingsreglerade kromatinlandskap och genreglering vid friska och patologiska tillstånd kommer sannolikt att underlätta vår förståelse av samspelet och orsakssambandet mellan genomtopologi och genreglering, en av de grundläggande öppna frågorna inom epigenetikområdet. Att tillämpa Capture Hi-C för att kartlägga långväga interaktioner och högre ordningens kromatinveckning av riskvarianter identifierade av GWAS-studier har dessutom potential att avslöja den funktionella relevansen av icke-kodande genomiska loci associerade med mänskliga sjukdomar i olika sammanhang, vilket ger nya insikter i de processer som potentiellt ligger bakom patogenesen.
The authors have nothing to disclose.
Arbetet i Heard-laboratoriet stöddes av European Research Council Advanced Investigator Award (XPRESS – AdG671027). A.L. stöds av Europeiska unionens Marie Skłodowska-Curie Actions Individual Fellowship (IF-838408). A.H. stöds av ITN Innovative and Interdisciplinary Network ChromDesign, enligt Marie Skłodowska-Curie Grant-avtalet 813327. Författarna är tacksamma till Daniel Ibrahim (MPI för molekylär genetik, Berlin) för hjälpsam teknisk rådgivning, till NGS-plattformen vid Institut Curie (Paris) och till Vladimir Benes och Genomics Core Facility vid EMBL (Heidelberg), för stöd och hjälp.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |