Summary

Determinazione del rischio di patogenicità variante usando l'analisi di segnale-rumore dell'amminoacido-livello di variazione genetica

Published: January 16, 2019
doi:

Summary

Analisi di segnale-rumore dell’amminoacido-livello determina la prevalenza della variabilità genetica in una posizione determinata dell’amminoacido normalizzata alla variazione genetica di sfondo di una determinata popolazione. Questo consente per l’identificazione della variante “hotspot” all’interno di una sequenza della proteina (segnale) che si erge sopra la frequenza delle varianti rare trovate in una popolazione (rumore).

Abstract

Gli avanzamenti del costo e velocità di sequenziamento genetico di nuova generazione hanno generato un’esplosione di clinica dell’esoma intero e test intero genoma. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di fortuito trovato varianti genetiche di importanza sconosciuta (VUS). Determinare il significato clinico di queste varianti è una grande sfida per gli scienziati e i medici. Un approccio per aiutare a determinare la probabilità di patogenicità è analisi di segnale-rumore al livello di sequenza della proteina. Questo protocollo descrive un metodo per l’analisi di segnale-rumore dell’amminoacido-livello che sfrutta la variante frequenza in ogni posizione dell’amminoacido della proteina con topologia di proteina nota per identificare le aree della sequenza primaria con elevata probabilità di variazione patologica (relativo alla variazione di popolazione “background”). Questo metodo può identificare la posizione di residui dell’amminoacido “hotspot” di alto segnale patologico, che possa essere utilizzate per perfezionare il peso diagnostico di VUSs come quelli identificati dai test genetici di prossima generazione.

Introduction

Il rapido miglioramento nelle piattaforme di sequenziamento genetico ha rivoluzionato l’accessibilità e il ruolo della genetica nella medicina. Una volta limitata a un singolo gene, o una manciata di geni, la riduzione dei costi e aumento della velocità di ultima generazione sequenziamento genetico ha portato sequenziamento sistematico della totalità del genoma di sequenza di codificazione (il sequenziamento dell’esoma intero, WES) e l’intero genoma ( sequenziamento del genoma intero, WGS) nella regolazione clinica. WES e WGS sono stati utilizzati frequentemente nella cornice di neonati criticamente malati e bambini con preoccupazione per sindrome genetica dove è uno strumento diagnostico collaudato che può cambiare la gestione clinica1,2. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di varianti genetiche fortuito trovati, o risultati imprevisti positivi, di diagnostica sconosciuto significato (VUS). Mentre alcune di queste varianti sono ignorate e non segnalati, varianti localizzazione di geni associati a malattie potenzialmente mortali o estremamente patologica sono spesso riportati. Attuali linee guida raccomandano di segnalazione delle eventuali varianti nei geni specifici che possono essere di beneficio medico al paziente, compreso i geni connessi con lo sviluppo di malattie predisponenti di morte cardiache improvvise come cardiomiopatie e canalopatie3. Anche se questa raccomandazione è stato progettato per catturare gli individui a rischio di una malattia predisponente SCD, la sensibilità di rilevazione variante supera di gran lunga specificità. Questo si riflette in un numero crescente di VUSs e incidentalmente identificato varianti con utilità di diagnostica poco chiaro che superano di gran lunga la frequenza delle rispettive malattie in una data popolazione4. Una tale malattia, sindrome del QT lungo (LQTS), è una canonica Canalopatia cardiaca causata da mutazioni in geni che codificano i canali ionici cardiaci eseguendo la localizzazione, o canale di interazione di proteine, con conseguente ritardo della ripolarizzazione cardiaca5. Questa ripolarizzazione in ritardo, vista da un prolungato intervallo QT all’elettrocardiogramma, a riposo si traduce in una predisposizione elettrica per potenzialmente fatali aritmie ventricolari quali torsioni di punta. Mentre un numero di geni sono stati collegati allo sviluppo di questa malattia, le mutazioni in KCNQ1-codificato inKs potassio canale (KCNQ1, Kv7.1) è la causa di LQTS tipo 1 e viene utilizzato come esempio inferiore a6. Che illustrano la complessità nell’interpretazione variante, la presenza di rare varianti nei geni di LQTS associata, così chiamati “sfondo variazione genetica” è stato descritto in precedenza7,8.

Oltre ai database di grande compendio di varianti conosciute di patogeni, diverse strategie esistono per predire che le varianti differenti di effetto produrrà. Alcuni sono basati su algoritmi, quali SIFT e Polyphen 2, che può filtrare un numero elevato di nuove varianti non-sinonimo di prevedere deleteriousness9,10. Nonostante l’ampio uso di questi strumenti, specificità bassa limita la loro applicabilità quando si tratta di “chiamata” clinica VUSs11. Analisi di “Signal-to-noise” sono uno strumento che identifica la probabilità di una variante essendo associata a malattia basata sulla frequenza di variazione patologica noto ai loci in questione normalizzata contro variazione genetica rara da una popolazione. Varianti di localizzazione di loci genetici dove c’è un’alta prevalenza di mutazioni associate a malattia rispetto alla variazione basati sulla popolazione, un alto segnale-rumore, hanno maggiori probabilità di essere associati a malattia se stessi. Varianti più ulteriormente, rari trovati incidentalmente localizzazione di un gene con un’alta frequenza di varianti di rara popolazione rispetto alla frequenza di malattia-collegati, un basso segnale-rumore, può essere meno probabilità di essere associati a malattia. L’utilità di diagnostica di analisi di segnale-rumore è stato illustrato nelle ultime linee guida per test genetici per malattie del miocardio e canalopatie; Tuttavia, è stato impiegato solo a livello di intero gene o dominio specifico livello12. Recentemente, data la maggiore disponibilità di varianti patologiche (database di malattia, studi di coorte nella letteratura) e di varianti di controllo basato sulla popolazione (Consorzio di aggregazione dell’esoma, ExAC e l’aggregazione di dati del genoma, GnomAD13), Questo è stato applicato alle posizioni individuali dell’amminoacido all’interno della sequenza primaria di una proteina. Analisi di segnale-rumore dell’amminoacido-livello si sono dimostrato utile nel categorizzare incidentalmente identificati varianti nei geni associati con LQTS come probabile variazione genetica “sfondo”, piuttosto che malattia-collegati. Tra i tre principali geni associati con LQTS, tra cui KCNQ1, queste varianti incidentalmente identificate mancavano un rapporti segnale-rumore significativo, suggerendo che la frequenza di queste varianti alle posizioni di singoli aminoacidi riflettono rara variazione di popolazione piuttosto che mutazioni associate a malattia. Inoltre, quando la topologia di dominio specifico della proteina era overlaid contro le zone di alto segnale-rumore, patologica mutazione “hotspot” localizzato in chiave domini funzionali delle proteine14. Questa metodologia tiene la promessa nella determinazione che 1) la probabilità che una variante è associata di malattia o di popolazione e 2) identificare nuovi critici domini funzionali di una proteina connessa con la malattia umana.

Protocol

1. identificare il Gene e Splice specifica isoforma di interesse Nota: Qui, noi dimostrare l’uso di Ensembl15 per identificare la sequenza di consenso per il gene di interesse che è associato con la patogenesi della malattia di interesse (cioè KCNQ1 mutazioni sono associate con LQTS). Alternative di Ensembl includono RefSeq tramite il National Center for Biotechnology Information (NCBI)16 e la University of California, Santa Cruz (UCSC) …

Representative Results

Un risultato rappresentativo dell’amminoacido-livello segnale per analisi del rumore per KCNQ1 è raffigurato in Figura 6. In questo esempio, varianti rare identificati nel gruppo GnomAD (gruppo di controllo), incidentalmente identificato WES varianti (coorte sperimentale #1) e varianti LQTS associata a caso ritenuto probabile malattia-collegati (sperimentale coorte #2) è raffigurati. Ulteriormente, l’analisi di segnale-rumore confrontando la frequenza varia…

Discussion

Test genetici di alto-rendimento ha avanzato notevolmente nella sua applicazione e la disponibilità nell’ultimo decennio. Tuttavia, in molte malattie con basi genetiche ben consolidate, come cardiomiopatie, test espanso ha fallito migliorare il rendimento diagnostico21. Inoltre, c’è notevole incertezza per quanto riguarda l’utilità di diagnostica di molte varianti identificate. Ciò è parzialmente dovuto un numero crescente di varianti rare identificati incidentalmente scoperto su WES e WGS, c…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL è supportato da istituti nazionali di salute K08-HL136839.

Materials

1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

Cite This Article
Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

View Video