Summary

Détermination du risque de pathogénicité Variant en utilisant l’analyse de Signal-bruit d’acides aminés au niveau de la Variation génétique

Published: January 16, 2019
doi:

Summary

Analyse de signal-bruit au niveau d’acides aminés détermine la prévalence de la variation génétique à une position donnée d’acides aminés normalisée à variation génétique de fond d’une population donnée. Cela permet l’identification des variantes « hotspots » dans une séquence de protéines (signal) qui s’élève au-dessus de la fréquence des variants rares trouvées dans une population (bruit).

Abstract

Avancements dans le coût et la rapidité du séquençage génétique de prochaine génération ont généré une explosion de l’exome toute clinique et tests du génome entier. Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a augmenté considérablement le nombre d’ailleurs trouvé des variantes génétiques d’importance inconnue (VUS). C’est un défi majeur pour les scientifiques et les cliniciens de déterminer la signification clinique de ces variantes. Une approche pour aider à déterminer la probabilité de pathogénicité est analyse de signal-bruit au niveau de séquences de protéines. Ce protocole décrit une méthode pour l’analyse de signal-bruit au niveau d’acides aminés qui exploite une fréquence variant à chaque position d’acides aminés de la protéine avec topologie protéiques connus pour identifier les domaines de la séquence primaire avec une probabilité élevée de variations pathologiques (par rapport à la variation de la population de « fond »). Cette méthode peut identifier l’emplacement de résidus d’acides aminés « points chauds » du signal pathologique élevé, ce qui permet d’affiner le diagnostic poids de VUSs tels que ceux identifiés par dépistage génétique de prochaine génération.

Introduction

L’amélioration rapide des plateformes de séquençage génétique a révolutionné l’accessibilité et le rôle de la génétique en médecine. Une fois limité à un seul gène, ou une poignée de gènes, la réduction des coûts et augmentation de la vitesse de prochaine génération séquençage génétique a conduit le séquençage systématique de la totalité du génome de codage séquence (séquençage de l’exome entier, WES) et le génome entier () le séquençage du génome entier, WGS) en milieu clinique. WES et groupes de travail ont été utilisés fréquemment dans le cadre des nouveau-nés gravement malades et les enfants avec le souci de syndrome génétique où c’est un outil diagnostique qui peut changer la prise en charge clinique1,2. Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a considérablement augmenté le nombre de variants génétiques trouvées ailleurs, ou des résultats positifs inattendus, de diagnostic inconnu signification (VUS). Tandis que certaines de ces variantes sont ignorées et non publiées, variantes, localisation de gènes associés à des maladies potentiellement mortelles ou très morbides sont souvent signalés. Lignes directrices actuelles recommandent déclaration des variantes accessoires trouvées dans les gènes spécifiques qui peuvent être d’utilité médicale du patient, y compris les gènes associés à l’apparition des maladies de prédisposant à la mort cardiaques soudaines comme les cardiomyopathies et Canalopathies3. Bien que cette recommandation a été conçue pour capturer des personnes présentant un risque d’une maladie prédisposant à la SCD, la sensibilité de détection variante dépasse de loin spécificité. Cela se reflète dans un nombre croissant de VUSs et par ailleurs identifié des variantes avec l’utilitaire de diagnostic difficile qui dépassent de loin la fréquence des maladies dans une population donnée4respectifs. Une telle maladie, le syndrome du QT long (SQTL), est un canonique canalopathie cardiaque causée par des mutations, localisation de gènes qui codent des canaux ioniques cardiaques ou canal interaction protéines, aboutissant à retard de repolarisation cardiaque5. Cette repolarisation retardée, vue par un intervalle prolongé de QT sur l’électrocardiogramme, de repos se traduit par une prédisposition électrique à des arythmies ventriculaires potentiellement mortelles telles que des torsades de pointes. Alors qu’un certain nombre de gènes ont été associé au développement de cette maladie, les mutations KCNQ1-j’ai codéKs potassium channel (KCNQ1, Kv7.1) est la cause du SQTL type 1 et est utilisé comme un exemple inférieur à6. Illustrant la complexité dans l’interprétation variant, la présence de variants rares dans les gènes associés à la SQTL, ce qu’on appelés « variation génétique de fond » a été décrite précédemment7,8.

En plus de bases de données grand recueil de style des variantes pathogènes connus, plusieurs stratégies existent pour prédire que les variantes différentes effet produira. Certains sont basés sur des algorithmes, tels que les EIPD et Polyphen 2, qui peut filtrer un grand nombre de nouvelles variantes non-synonyme de prédire prohibé9,10. Malgré une large utilisation de ces outils, faible spécificité limite leur applicabilité lorsqu’il s’agit de « vocation » clinique VUSs11. Analyse de « Signal sur bruit » est un outil qui identifie la probabilité d’une variante étant associée à la maladie basée sur la fréquence de la variation pathologique connue aux loci en question normalisée contre rare variation génétique d’une population. Variantes de localisation au locus génétiques où il y a une forte prévalence des mutations associées à la maladie par rapport à la variation sur la population, un signal sur bruit élevé, sont plus susceptibles d’être associés à la maladie eux-mêmes. En outre, rares variantes trouvées ailleurs localisation d’un gène ayant une fréquence élevée de variantes rares de population par rapport à la fréquence associés à la maladie, un faible signal-bruit, peut être moins susceptibles d’être associés à la maladie. L’utilitaire de diagnostic de l’analyse de signal-bruit a été illustré dans les dernières directives pour des tests génétiques pour les cardiomyopathies et Canalopathies ; Toutefois, il a seulement été utilisé au niveau du gène entier ou spécifiques à un domaine de niveau12. Récemment, étant donné la disponibilité accrue de variantes pathologiques (maladie bases de données, études de cohortes dans la littérature) et variantes de contrôle axée sur la population (Consortium d’agrégation de l’Exome, ExAC et les bases de données génomiques agrégation, GnomAD13), Ceci a été appliqué à la position de chaque acide aminé dans la séquence primaire d’une protéine. Analyse de signal-bruit au niveau d’acides aminés a révélé utile pour catégoriser les variantes d’ailleurs identifiés dans les gènes associés à SQTL comme probablement des variations génétiques « arrière-plan » plutôt que des associés à la maladie. Parmi les trois principaux gènes associés du SQTL, y compris KCNQ1, ces variants identifiés soit dit en passant n’avait pas un ratio signal-bruit significative, suggérant que la fréquence de ces variantes aux positions des acides aminés individuels représentent les rares variation de la population plutôt que des mutations associées à la maladie. En outre, lorsque la topologie de domaine spécifique à la protéine a été superposée contre les zones de forte mutation signal-bruit, pathologique « points chauds » localisés dans les principaux domaines fonctionnels de la protéines14. Cette méthodologie est prometteuse à déterminer 1) la probabilité d’une variante ou population-associés à la maladie et 2) identifier les nouveaux domaines fonctionnels critiques d’une protéine associée à la maladie humaine.

Protocol

1. identifier le gène et l’isoforme spécifique épissure d’intérêt NOTE : Ici, nous démontrons l’utilisationdes Ensembl15 pour identifier la séquence consensus pour le gène d’intérêt qui est associé à la pathogenèse de la maladie d’intérêt (c.-à-d. KCNQ1 de mutations sont associées par SQTL). Alternatives à Ensembl comprennent RefSeq via le National Center for Biotechnology Information (NCBI)16 et l’Universit?…

Representative Results

Un résultat représentatif pour les acides aminés au niveau de signal à l’analyse du bruit pour KCNQ1 est représenté à la Figure 6. Dans cet exemple, variants rares identifiés dans la cohorte GnomAD (cohorte de contrôle), soit dit en passant-identifiés des variantes de WES (cohorte expérimentale #1) et variantes associées aux cas de SQTL considérés comme probablement associés à la maladie (experimental cohorte #2) est représenté. En outre, …

Discussion

Tests génétiques haut débit a progressé considérablement dans sa demande et la disponibilité durant la dernière décennie. Toutefois, dans de nombreuses maladies avec des fondements génétiques bien établis, comme les cardiomyopathies, essai élargi a échoué à améliorer le rendement diagnostique21. En outre, il y a une incertitude importante concernant l’utilitaire de diagnostic de nombreux variants identifiés. Ceci est partiellement dû à un nombre croissant d’ailleurs identifi…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL est pris en charge par les instituts nationaux de santé K08-HL136839.

Materials

1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

Cite This Article
Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

View Video