Análisis de señal a ruido nivel de aminoácidos determina la prevalencia de la variación genética en una posición dada del aminoácido normalizada para la variación genética de fondo de una determinada población. Esto permite la identificación de la variante “puntos calientes” dentro de una secuencia de la proteína (señal) que se eleva por encima de la frecuencia de variantes raras en una población (ruido).
Los avances en el costo y la velocidad de secuenciación genética de próxima generación han generado una explosión de exoma toda clínica y pruebas de todo el genoma. Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha también aumentado espectacularmente el número de fortuito encontrado variantes genéticas de la significación desconocida (VUS). Determinar la significación clínica de estas variantes es un gran desafío para los científicos y médicos. Un enfoque para ayudar a determinar la probabilidad de patogenicidad es análisis de señal a ruido en el nivel de secuencia de la proteína. Este protocolo describe un método para el análisis de señal a ruido nivel de aminoácidos que aprovecha la frecuencia variante en cada posición del aminoácido de la proteína con la topología de la proteína conocida para identificar las áreas de la secuencia principal con elevada probabilidad de variación patológica (en relación con la variación de población “fondo”). Este método puede identificar la ubicación de residuos del aminoácido ‘hotspots’ de alta señal patológica, que se puede utilizar para refinar el peso diagnóstico de VUSs como los identificados por pruebas genéticas de próxima generación.
La mejora rápida en plataformas de secuenciación genética ha revolucionado la accesibilidad y el papel de la genética en medicina. Una vez confinado a un solo gen, o un puñado de genes, la reducción de costos y aumento en la velocidad de próxima generación de secuenciación genética ha llevado la secuencia sistemática de la totalidad del genoma de secuencia de codificación (secuenciación del exoma completo, WES) y la totalidad del genoma ( secuenciación del genoma entero, WGS) en el ajuste clínico. WES y WGS han utilizado con frecuencia en el ajuste de los recién nacidos críticamente enfermos y niños con preocupación por síndrome genético que es una probada herramienta de diagnóstico que puede cambiar el manejo clínico1,2. Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha aumentado dramáticamente el número de variantes genéticas por cierto encontradas o resultados positivos inesperados, de diagnóstico desconocido significación (VUS). Mientras que algunas de estas variantes son ignorados y no divulgados, variantes localizar a genes asociados a enfermedades potencialmente mortales o altamente morbosas se divulgan a menudo. Las directrices actuales recomiendan informes incidentales variantes en genes específicos que pueden ser de beneficio médico al paciente, incluyendo genes asociados con el desarrollo de repentinas enfermedades cardíacas predisponentes de muerte como miocardiopatías y canalopatías3. Aunque esta recomendación fue diseñada para capturar a personas en riesgo de una enfermedad predisponente de SCD, la sensibilidad de la detección de variantes supera especificidad. Esto se refleja en un número creciente de VUSs y por cierto identificado variantes con la utilidad de diagnóstico claro que exceden por mucho la frecuencia de las respectivas enfermedades en una población de4. Una de esas enfermedades, síndrome de QT largo (SQTL) es una canónica channelopathy cardiaca causada por mutaciones de localizar a los genes que codifican los canales iónicos cardiacos, o canal de interacción de proteínas, dando por resultado retrasa la repolarización cardiaca5. Esta repolarización retardada, vista por un intervalo QT prolongado en el electrocardiograma de reposo resulta en una eléctrica predisposición a arritmias ventriculares potencialmente fatales como el de pointes de torsades. Mientras que un número de genes se han relacionado con el desarrollo de esta enfermedad, las mutaciones en KCNQ1-codificado enKs potasio canal (KCNQ1, Kv7.1) es la causa del SQTL tipo 1 y es utilizado como un ejemplo a continuación6. Ilustrando la complejidad de la interpretación variable, la presencia de variantes raras de genes SQTL asociado, llamados “variación genética de fondo” ha sido descrito previamente7,8.
Además de compendio-estilo grande bases de datos de variantes patógenas conocidas varias estrategias existen para la predicción de que las diversas variantes de efecto producirá. Algunos se basan en algoritmos, como SIFT y Polyphen 2, que puede filtrar gran cantidad de nuevas variantes no sinónimo para predecir deleteriousness9,10. A pesar del amplio uso de estas herramientas, baja especificidad limita su aplicabilidad cuando se trata de “llamando” clínica VUSs11. Análisis de “Signal to noise” es una herramienta que identifica la probabilidad de que una variante se asoció a enfermedad basada en la frecuencia de la conocida variación patológica en el locus en cuestión normalizada contra rara variación genética de una población. Localización de loci genéticos variantes donde hay una alta prevalencia de mutaciones enfermedad-asociadas en comparación con la variación poblacional, un gran señal-ruido, son más propensos a ser asociada a enfermedad de ellos mismos. Variantes más, raras encontrar localizar a un gen con una alta frecuencia de variantes de población rara por cierto comparado con frecuencia asociada a la enfermedad, un baja señal-ruido, puede ser menos probables que asociada a la enfermedad. La utilidad de diagnóstico de análisis de señal a ruido ha sido ilustrada en las últimas guías para las pruebas genéticas para las miocardiopatías y canalopatías; sin embargo, sólo se ha empleado en el nivel del gene entero o nivel específico de dominio12. Recientemente, dado el aumento de la disponibilidad de variantes patológicas (bases de datos de la enfermedad, estudios de cohortes en la literatura) y variantes de control poblacional (Consorcio de agregación exoma, ExAC y la base de datos de genoma agregación, GnomAD13), Esto se ha aplicado a las posiciones de cada aminoácido en la secuencia primaria de una proteína. Análisis de señal a ruido nivel de aminoácidos ha demostrado su utilidad en la categorización por cierto identificadas variantes en los genes asociados con SQTL como probable variación genética del “fondo” en lugar de enfermedad asociados. Entre los tres genes principales asociados con SQTL, incluyendo KCNQ1, estas variantes identificadas por cierto carecían de un significativo cocientes signal-to-noise, lo que sugiere que la frecuencia de estas variantes en las posiciones de aminoácidos individuales reflejan rara variación de la población en lugar de mutaciones asociadas a la enfermedad. Además, cuando la topología de dominio específico de la proteína era overlaid contra áreas de alta señal a ruido, patológica mutación ‘hotspots’ localizadas a dominios funcionales claves de las proteínas14. Esta metodología es prometedor para determinar que 1) la probabilidad de una variante está asociada enfermedad o población y 2) identificando nuevos dominios funcionales críticos de una proteína asociada a la enfermedad humana.
Pruebas genéticas de alto rendimiento ha avanzado considerablemente en su aplicación y la disponibilidad de la última década. Sin embargo, en muchas enfermedades con bases genéticas bien establecidas, como las miocardiopatías, la prueba ampliada ha podido mejorar rendimiento diagnóstico21. Además, existe considerable incertidumbre con respecto a la utilidad de diagnóstico de muchas variantes identificadas. Esto es parcialmente debido a un creciente número de variantes raras por cierto id…
The authors have nothing to disclose.
APL es apoyado por el nacional institutos de salud K08-HL136839.
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |