Analisi di segnale-rumore dell’amminoacido-livello determina la prevalenza della variabilità genetica in una posizione determinata dell’amminoacido normalizzata alla variazione genetica di sfondo di una determinata popolazione. Questo consente per l’identificazione della variante “hotspot” all’interno di una sequenza della proteina (segnale) che si erge sopra la frequenza delle varianti rare trovate in una popolazione (rumore).
Gli avanzamenti del costo e velocità di sequenziamento genetico di nuova generazione hanno generato un’esplosione di clinica dell’esoma intero e test intero genoma. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di fortuito trovato varianti genetiche di importanza sconosciuta (VUS). Determinare il significato clinico di queste varianti è una grande sfida per gli scienziati e i medici. Un approccio per aiutare a determinare la probabilità di patogenicità è analisi di segnale-rumore al livello di sequenza della proteina. Questo protocollo descrive un metodo per l’analisi di segnale-rumore dell’amminoacido-livello che sfrutta la variante frequenza in ogni posizione dell’amminoacido della proteina con topologia di proteina nota per identificare le aree della sequenza primaria con elevata probabilità di variazione patologica (relativo alla variazione di popolazione “background”). Questo metodo può identificare la posizione di residui dell’amminoacido “hotspot” di alto segnale patologico, che possa essere utilizzate per perfezionare il peso diagnostico di VUSs come quelli identificati dai test genetici di prossima generazione.
Il rapido miglioramento nelle piattaforme di sequenziamento genetico ha rivoluzionato l’accessibilità e il ruolo della genetica nella medicina. Una volta limitata a un singolo gene, o una manciata di geni, la riduzione dei costi e aumento della velocità di ultima generazione sequenziamento genetico ha portato sequenziamento sistematico della totalità del genoma di sequenza di codificazione (il sequenziamento dell’esoma intero, WES) e l’intero genoma ( sequenziamento del genoma intero, WGS) nella regolazione clinica. WES e WGS sono stati utilizzati frequentemente nella cornice di neonati criticamente malati e bambini con preoccupazione per sindrome genetica dove è uno strumento diagnostico collaudato che può cambiare la gestione clinica1,2. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di varianti genetiche fortuito trovati, o risultati imprevisti positivi, di diagnostica sconosciuto significato (VUS). Mentre alcune di queste varianti sono ignorate e non segnalati, varianti localizzazione di geni associati a malattie potenzialmente mortali o estremamente patologica sono spesso riportati. Attuali linee guida raccomandano di segnalazione delle eventuali varianti nei geni specifici che possono essere di beneficio medico al paziente, compreso i geni connessi con lo sviluppo di malattie predisponenti di morte cardiache improvvise come cardiomiopatie e canalopatie3. Anche se questa raccomandazione è stato progettato per catturare gli individui a rischio di una malattia predisponente SCD, la sensibilità di rilevazione variante supera di gran lunga specificità. Questo si riflette in un numero crescente di VUSs e incidentalmente identificato varianti con utilità di diagnostica poco chiaro che superano di gran lunga la frequenza delle rispettive malattie in una data popolazione4. Una tale malattia, sindrome del QT lungo (LQTS), è una canonica Canalopatia cardiaca causata da mutazioni in geni che codificano i canali ionici cardiaci eseguendo la localizzazione, o canale di interazione di proteine, con conseguente ritardo della ripolarizzazione cardiaca5. Questa ripolarizzazione in ritardo, vista da un prolungato intervallo QT all’elettrocardiogramma, a riposo si traduce in una predisposizione elettrica per potenzialmente fatali aritmie ventricolari quali torsioni di punta. Mentre un numero di geni sono stati collegati allo sviluppo di questa malattia, le mutazioni in KCNQ1-codificato inKs potassio canale (KCNQ1, Kv7.1) è la causa di LQTS tipo 1 e viene utilizzato come esempio inferiore a6. Che illustrano la complessità nell’interpretazione variante, la presenza di rare varianti nei geni di LQTS associata, così chiamati “sfondo variazione genetica” è stato descritto in precedenza7,8.
Oltre ai database di grande compendio di varianti conosciute di patogeni, diverse strategie esistono per predire che le varianti differenti di effetto produrrà. Alcuni sono basati su algoritmi, quali SIFT e Polyphen 2, che può filtrare un numero elevato di nuove varianti non-sinonimo di prevedere deleteriousness9,10. Nonostante l’ampio uso di questi strumenti, specificità bassa limita la loro applicabilità quando si tratta di “chiamata” clinica VUSs11. Analisi di “Signal-to-noise” sono uno strumento che identifica la probabilità di una variante essendo associata a malattia basata sulla frequenza di variazione patologica noto ai loci in questione normalizzata contro variazione genetica rara da una popolazione. Varianti di localizzazione di loci genetici dove c’è un’alta prevalenza di mutazioni associate a malattia rispetto alla variazione basati sulla popolazione, un alto segnale-rumore, hanno maggiori probabilità di essere associati a malattia se stessi. Varianti più ulteriormente, rari trovati incidentalmente localizzazione di un gene con un’alta frequenza di varianti di rara popolazione rispetto alla frequenza di malattia-collegati, un basso segnale-rumore, può essere meno probabilità di essere associati a malattia. L’utilità di diagnostica di analisi di segnale-rumore è stato illustrato nelle ultime linee guida per test genetici per malattie del miocardio e canalopatie; Tuttavia, è stato impiegato solo a livello di intero gene o dominio specifico livello12. Recentemente, data la maggiore disponibilità di varianti patologiche (database di malattia, studi di coorte nella letteratura) e di varianti di controllo basato sulla popolazione (Consorzio di aggregazione dell’esoma, ExAC e l’aggregazione di dati del genoma, GnomAD13), Questo è stato applicato alle posizioni individuali dell’amminoacido all’interno della sequenza primaria di una proteina. Analisi di segnale-rumore dell’amminoacido-livello si sono dimostrato utile nel categorizzare incidentalmente identificati varianti nei geni associati con LQTS come probabile variazione genetica “sfondo”, piuttosto che malattia-collegati. Tra i tre principali geni associati con LQTS, tra cui KCNQ1, queste varianti incidentalmente identificate mancavano un rapporti segnale-rumore significativo, suggerendo che la frequenza di queste varianti alle posizioni di singoli aminoacidi riflettono rara variazione di popolazione piuttosto che mutazioni associate a malattia. Inoltre, quando la topologia di dominio specifico della proteina era overlaid contro le zone di alto segnale-rumore, patologica mutazione “hotspot” localizzato in chiave domini funzionali delle proteine14. Questa metodologia tiene la promessa nella determinazione che 1) la probabilità che una variante è associata di malattia o di popolazione e 2) identificare nuovi critici domini funzionali di una proteina connessa con la malattia umana.
Test genetici di alto-rendimento ha avanzato notevolmente nella sua applicazione e la disponibilità nell’ultimo decennio. Tuttavia, in molte malattie con basi genetiche ben consolidate, come cardiomiopatie, test espanso ha fallito migliorare il rendimento diagnostico21. Inoltre, c’è notevole incertezza per quanto riguarda l’utilità di diagnostica di molte varianti identificate. Ciò è parzialmente dovuto un numero crescente di varianti rare identificati incidentalmente scoperto su WES e WGS, c…
The authors have nothing to disclose.
APL è supportato da istituti nazionali di salute K08-HL136839.
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |