Summary

Determinar a probabilidade de patogenicidade variante usando análise de sinal-ruído nível de aminoácido da variação genética

Published: January 16, 2019
doi:

Summary

Análise de sinal-ruído nível de aminoácidos determina a prevalência da variação genética em uma posição de determinado aminoácido normalizada a variação genética de fundo de uma dada população. Isto permite a identificação de variantes “hotspots” dentro de uma sequência da proteína (sinal) que se eleva acima da frequência das variantes raras encontradas em uma população (ruído).

Abstract

Avanços no custo e velocidade de sequenciamento genético de próxima geração têm gerado uma explosão de exome toda clínico e testes de genoma inteiro. Enquanto isto conduziu à maior identificação de prováveis mutações patogénicas associado com síndromes genéticas, dramaticamente também aumentou o número de encontrados incidentalmente variantes genéticas de significado desconhecido (VU). Determinar a significância clínica destas variantes é um grande desafio para os cientistas e clínicos. Análise de sinal-ruído a nível de sequência de proteínas é uma abordagem para ajudar a determinar a probabilidade de patogenicidade. Este protocolo descreve um método para a análise de sinal-ruído nível de aminoácido que utiliza frequência variante em cada posição do ácido aminado da proteína com topologia de proteínas conhecidas para identificar áreas da sequência principal com elevada probabilidade de variação patológica (em relação a variação de população “fundo”). Esse método pode identificar a localização de resíduo de aminoácido “hotspots” de alto sinal patológico, que pode ser usado para refinar o diagnóstico peso de VUSs tais como as identificadas por testes genéticos na próxima geração.

Introduction

A melhoria rápida em plataformas de sequenciamento genético tem revolucionado a acessibilidade e o papel da genética na medicina. Uma vez que se limita a um único gene, ou um punhado de genes, a redução de custos e aumento na velocidade da próxima geração de sequenciamento genético levou rotineiro sequenciamento da totalidade do genoma da codificação de sequência (toda exome sequenciamento, WES) e o genoma inteiro ( sequenciamento do genoma inteiro, WGS) na prática clínica. WES e WGS têm sido utilizados com frequência no cenário de neonatos criticamente doentes e crianças com preocupação para síndrome genética onde é uma ferramenta de diagnóstico comprovada que pode mudar o manejo clínico1,2. Enquanto isto conduziu à maior identificação de prováveis mutações patogénicas associado com síndromes genéticas, dramaticamente também aumentou o número de variantes genéticas encontradas incidentalmente, ou inesperados resultados positivos, de diagnóstico desconhecido significado (VU). Enquanto algumas das variantes são tidas em conta e não relatadas, variantes localizando a genes associados a doenças potencialmente fatais ou altamente mórbidas frequentemente são relatados. As diretrizes atuais recomendam relatórios de incidentais variantes encontradas em genes específicos que podem ser de benefício médico ao paciente, incluindo genes associados com o desenvolvimento de doenças predisponentes de morte cardíacas súbitas como Miocardiopatias e canalopatias3. Embora esta recomendação foi projetada para capturar indivíduos em risco de uma doença SCD-predisponentes, a sensibilidade de detecção de variante excede a especificidade. Isto é refletido em um número crescente de VUSs e aliás identificadas variantes com utilitário de diagnóstico incerto que ultrapassam a frequência das respectivas doenças em uma dada população4. Uma tal doença, síndrome QT longo (LQTS), é um canônico channelopathy cardíaca causada por mutações de localização de genes que codificam os canais iônicos cardíacos, ou canal de interação de proteínas, resultando em atraso repolarização cardíaca5. Este repolarização retardada, vista por um intervalo QT prolongado no eletrocardiograma, de repouso resulta em uma elétrica predisposição para arritmias ventriculares potencialmente fatais como pointes de torsades de. Enquanto um número de genes têm sido associado ao desenvolvimento desta doença, mutações em KCNQ1-codificadoKs potássio canal (KCNQ1, Kv7.1) é a causa do LQTS tipo 1 e é utilizado como um exemplo abaixo de6. Ilustrando a complexidade na interpretação de variante, a presença de raras variantes em genes associados LQTS, assim chamados “variação genética do fundo” tem sido descrito anteriormente7,8.

Compêndio-estilo grandes bases de dados de variantes conhecidas patogênicas, além de várias estratégias existem para predizer que as variantes diferentes do efeito produzirá. Alguns são baseados em algoritmos, tais como SIFT e Polyphen 2, que pode filtrar um grande número de variantes não-sinônimo novela para prever deleteriousness9,10. Apesar do amplo uso dessas ferramentas, baixa especificidade limita sua aplicabilidade quando se trata de “chamar” clínica VUSs11. Análise de “Sinal-ruído” é uma ferramenta que identifica a probabilidade de uma variante a ser associada com doença, com base na frequência de variação patológica conhecida no locus em questão normalizada contra rara variação genética de uma população. Localizando a loci genéticos de variantes onde existe uma elevada prevalência de mutações associadas a doença em comparação com a variação populacional, um alto sinal-ruído, são mais propensos a ser associada a doença de si mesmos. Além disso, raras variantes encontradas incidentalmente localizando a um gene com uma alta frequência das variantes de população rara em comparação com frequência associada a doença, um baixo sinal-ruído, podem ser menos propensos a ser associada a doença. O utilitário de diagnóstico de análise de sinal-ruído tem sido ilustrado nas mais recentes orientações para testes genéticos para cardiomiopatias e canalopatias; no entanto, isso só tem sido empregado no nível do gene inteiro ou específicas de domínio nível12. Recentemente, dado o aumento da disponibilidade de variantes patológicas (doença bancos de dados, estudos de coorte na literatura) e variantes de controle populacional (Exome agregação consórcio, exacerbar e banco de dados de agregação do genoma, GnomAD13), Isto tem sido aplicado para as posições individuais de aminoácidos na sequência primária de uma proteína. Análise de sinal-ruído nível de aminoácido provou útil em categorizar aliás identificadas variantes em genes associados com LQTS como provável variação genética do “fundo”, ao invés de doença associada. Entre os três principais genes associados com LQTS, incluindo KCNQ1, essas variantes identificadas por acaso carecia de uma significativa rácios de sinal-ruído, sugerindo que a frequência dessas variantes em posições de aminoácidos individuais refletem rara variação de população ao invés de mutações associadas a doenças. Além disso, quando a topologia de domínio específico da proteína era revestida contra áreas de alta sinal-ruído, patológica mutação “hotspots” localizadas em domínios-chave funcionais das proteínas14. Esta metodologia é uma promessa para determinar que 1) a possibilidade de uma variante é associada a doença ou população e 2) identificando romance críticos domínios funcionais de uma proteína associada à doença humana.

Protocol

1. identificar o Gene e a isoforma Splice específicas de interesse Nota: Aqui, vamos mostrar o uso de Ensembl15 para identificar a sequência de consenso para o gene de interesse que está associado com a patogênese da doença de interesse (ou seja, KCNQ1 mutações estão associados com LQTS). Alternativas de Ensembl incluem RefSeq através do National Center for Biotechnology Information (NCBI)16 e da Universidade da Califórnia, Santa…

Representative Results

Um resultado representativo para o aminoácido-nível de sinal para análise de ruído para KCNQ1 é retratado na Figura 6. Neste exemplo, raras variantes identificadas a coorte de GnomAD (grupo controle), variantes de WES incidentalmente identificada (coorte experimental #1) e LQTS associadas caso variantes considerado provável doença associada (experimental coorte #2) é retratado. Além disso, a análise de sinal-ruído, comparando a frequência de varia…

Discussion

Testes genéticos do elevado-throughput avançou dramaticamente em sua aplicação e disponibilidade durante a última década. No entanto, em muitas doenças com fundamentos de genéticas bem estabelecidas, como cardiomiopatias, expandido teste falhou melhorar o rendimento diagnóstico21. Além disso, há uma incerteza significativa sobre o utilitário de diagnóstico de muitas variantes identificadas. Isto é parcialmente devido a um número crescente de aliás identificadas variantes raras desc…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL é suportado pelos institutos nacionais de saúde K08-HL136839.

Materials

1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

Cite This Article
Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

View Video