Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Allineamenti proteine sono comunemente utilizzati per valutare la somiglianza dei residui proteici, e la sequenza di consenso derivata utilizzati per identificare le unità funzionali (ad esempio domini). Modelli di costruzione del consenso tradizionali non riescono a spiegare le dipendenze interposizione – funzionalmente necessaria covarianza dei residui che tendono ad apparire contemporaneamente in tutta l'evoluzione e attraverso l'albero phylogentic. Queste relazioni possono rivelare importanti indizi circa i processi di ripiegamento delle proteine, termostabilità, e la formazione di siti funzionali, che a loro volta possono essere utilizzati per informare l'ingegneria delle proteine sintetiche. Purtroppo, queste relazioni essenzialmente formano sub-motivi che non può essere previsto da semplice "regola di maggioranza" o modelli di consenso anche a base di HMM, e il risultato può essere un "consenso" biologicamente non valido, che non è solo mai visto in natura, ma è meno praticabile di qualsiasi proteina esistente. Abbiamo sviluppato un un visivostrumento alytics, StickWRLD, che crea una rappresentazione interattiva 3D di un allineamento di proteine e chiaramente mostra covarying residui. L'utente ha la possibilità di pan e zoom, nonché dinamicamente modificare la soglia statistica alla base della individuazione di covarianti. StickWRLD è già stata utilizzata con successo per identificare i residui covarying funzionalmente necessarie in proteine come adenilato chinasi e in sequenze di DNA, come siti di destinazione endonuclease.
Allineamenti proteine sono da tempo utilizzati per valutare la somiglianza dei residui in una famiglia di proteine. Frequentemente le caratteristiche più interessanti di una proteina (per esempio, siti di legame catalitici o altri) sono il risultato di ripiegamento delle proteine portando regioni distali del sequenza lineare a contatto, e di conseguenza queste regioni apparentemente indipendenti l'allineamento tendono ad evolversi e cambiare modo coordinato. In altri casi, la funzione di una proteina può essere dipendente dalla sua firma elettrostatica, e mutazioni che influenzano il dipolo elettronica sono compensate da modifiche residui carichi lontane. Effetti allosterici possono anche indurre a lungo raggio dipendenze sequenziali e spaziali tra le identità di residui. Indipendentemente dalla loro origine, questi covariations funzionalmente richieste di residui – dipendenze tra posizionali (IPDS) – potrebbe non essere evidente con esame visivo del tracciato (Figura 1). Identificazione DPI – nonchéche i residui specifici all'interno di tali posizioni tendono ad covary come unità – può rivelare importanti indizi sui processi di folding delle proteine e la formazione di siti funzionali. Queste informazioni possono poi essere utilizzate per ottimizzare (ingegnerizzati) proteine sintetiche in termini di stabilità termica e di attività. E 'noto da tempo che non tutte le mutazioni puntiformi verso consenso forniscono una migliore stabilità o attività. Più recentemente, proteine progettati per sfruttare DPI noti loro sequenza hanno dimostrato di causare un aumento dell'attività della stessa proteina progettata rigorosamente da consensus 1,2 (manoscritto in preparazione), simile al concetto di stabilizzazione mutazioni puntiformi 3.
Purtroppo, i modelli di costruzione del consenso tradizionali (ad esempio, la regola di maggioranza) solo catturano DPI per caso. Metodi di consenso e posizione di punteggio specifico Matrix sono ignoranti di DPI e solo 'correttamente' li includono nei modelli, quando i residui dipendentisono anche i residui più popolari per quelle posizioni in famiglia. Modelli catena di Markov possono catturare DPI quando sono in sequenza prossimale, ma la loro tipica implementazione ignora tutto tranne vicini sequenziali immediati, e anche al loro meglio, calcoli Hidden Markov Model (vedi figura 2) diventano intrattabile quando le dipendenze sono separati nella sequenza di oltre una dozzina di posizioni 4. Dal momento che questi DPI essenzialmente formano "sub-motivi", che non può essere previsto da semplice "regola di maggioranza" o modelli consenso addirittura basati su HMM 5,6 il risultato può essere un "consenso" biologicamente non valido, che non è solo mai visto in natura, ma è meno praticabile di qualsiasi proteina esistente. I sistemi basati su Markov casuale Fields, quali GREMLIN 7, tentano di superare questi problemi. Inoltre mentre sofisticate tecniche biologiche / biochimici come noncontiguous ricombinazione 3,8 possono essere utilizzate per identify elementi essenziali di proteine per regione, richiedono molto tempo e banco di lavoro per singolo-base-pair di precisione da raggiungere.
StickWRLD 9 è un programma basato su Python che crea una rappresentazione interattiva 3D di un allineamento proteina che rende DPI chiaro e facile da capire. Ogni posizione nell'allineamento è rappresentata come una colonna nella visualizzazione, in cui ogni colonna è costituita da una pila di sfere, una per ciascuno dei 20 aminoacidi che potrebbero essere presenti in quella posizione entro l'allineamento. La dimensione della sfera dipende dalla frequenza di occorrenza degli aminoacidi, in modo tale che l'utente può raccogliere immediatamente il residuo consenso o la relativa distribuzione di amminoacidi all'interno di tale posizione semplicemente guardando le dimensioni delle sfere. Le colonne rappresentano ciascuna posizione sono avvolti attorno ad un cilindro. Questo dà ogni sfera che rappresenta una possibile amminoacido in ciascuna posizione l'allineamento, una chiara 'linea di vista'ad ogni altra possibilità ammino acido in ogni altra posizione. Prima della visualizzazione, StickWRLD calcola la forza della correlazione tra tutte le possibili combinazioni di residui per identificare il DPI 9. Per rappresentare DPI, linee sono disegnate tra i residui che sono coevolving ad una maggiore o minore di quanto ci si aspetterebbe se i residui presenti nelle posizioni erano indipendenti (DPI).
Non solo questa visualizzazione spettacolo che le posizioni di sequenza interagiscono evolutivamente, ma come le strisce di margine IPD sono disegnate tra le sfere di aminoacidi in ogni colonna, l'utente può determinare rapidamente che gli amminoacidi specifici tendono ad essere coevolving in ciascuna posizione. L'utente ha la possibilità di ruotare e di esplorare la struttura IPD visualizzato, nonché dinamicamente modificare le soglie statistiche che controllano la visualizzazione delle correlazioni, rendendo StickWRLD un potente strumento di scoperta per DPI.
Applicazioni come GREMLIN 7 similarly visualizzare le informazioni relazionali complesse tra i residui – ma queste relazioni sono calcolati con più modelli tradizionali di Markov, che non sono progettati per determinare eventuali relazioni condizionate. Come tali, questi sono in grado di essere visualizzato come proiezioni 2D. Per contro, StickWRLD può calcolare e visualizzare le dipendenze condizionali multi-nodo, che può essere offuscati se reso come un grafico 2D (un fenomeno noto come occlusione bordo).
Vista 3D di StickWRLD ha anche diversi altri vantaggi. Consentendo agli utenti di manipolare le visuali – caratteristiche che possono essere offuscati o poco intuitivo in una rappresentazione 2D può essere più facilmente visibile nel cilindro 3D di StickWRLD – panning, rotazione e zoom. StickWRLD è essenzialmente uno strumento di analisi visiva, sfruttando la potenza di pattern recognition capacità del cervello umano di vedere i modelli e le tendenze, e la possibilità di esplorare i dati da diversi punti di vista si presta a questo.
StickWRLD è stato utilizzato con successo per identificare tali DPI nel dominio coperchio adenilato chinasi 16, così come le basi del DNA associate in terminatori rho-dipendente 9, e un romanzo splice-site specificità archeali tRNA endonucleasi introni 6 siti di destinazione. Questi DPI non erano rilevabili attraverso un esame diretto degli allineamenti.
StickWRLD visualizza ogni posizione di allineamento come una colonna di 20 "sfere", dove ogni sfera rappresenta uno dei residui 20 aminoacidi e la dimensione della sfera indica la frequenza di occorrenza di quel particolare residuo dentro tale colonna (Figura 4). Le colonne sono disposte in un cilindro, con strisce di margine collegamento residui in colonne diverse (che indica un IPD). Queste strisce di margine sono disegnate solo se i residui corrispondenti sono covarying con una frequenza che supera sia il valore p (significato) e (attesi – osservate) residue soglie.
Il rilevamento di residui concomitanti interdipendenti, o DPI, nelle regioni distali di un allineamento di DNA o sequenze proteiche è difficile utilizzare la sequenza standard di strumenti di allineamento 6. Mentre tali strumenti generano un consenso, o motivo, la sequenza, questo consenso è in molti casi una semplice maggioranza regola media e non trasmettere relazioni covariazione che si possono formare uno o più sub-motivi – gruppi di residui che tendono a co-evolvere. Anche i modelli HMM, che sono in grado di rilevare le dipendenze vicini, non possono accuratamente modello motivi di sequenza con DPI distali 5. Il risultato è che il consenso calcolato può infatti essere una sequenza "sintetico" non trovato in natura – e proteine ingegnerizzate basate su tale consenso computazionale non può, infatti, essere ottimale. Infatti, la Pfam HMM per ADK suggerirebbe che una proteina chimerica contenente la metà del motivo tetracysteine, e la metà della H, S, D, T motivo, è funzionalmente altrettanto accettabilicome ogni ADK realmente esistente. Questo non è il caso, in quanto tali chimere (e molti altri blendings di questi motivi) sono cataliticamente morti 4,19.
Quando cerchi correlazioni, è fondamentale che la soglia residua essere regolata per consentire la scoperta di correlazioni pertinenti impostando la soglia al di sopra del livello al quale eventuali spigoli sono visti e poi gradualmente rampa soglia indietro. In questo modo solo i bordi più significativi sono considerati inizialmente.
Un approccio alternativo è quello di iniziare con la soglia impostata residua estremamente bassa. Ciò provoca la visualizzazione di tutti i bordi significativi. Da qui la soglia residuo può essere aumentata lentamente, permettendo bordi di drop out fino a modelli di emergere. Anche se questo approccio è meno utile quando si cerca per l'inserimento di nodi specifici (ad esempio, l'applicazione della conoscenza di dominio), permette la scoperta di relazioni inaspettate usando StickWRLD come a visUAL strumento analitico per scoprire modelli emergenti nella visualizzazione dei dati.
StickWRLD è limitata principalmente dalla memoria disponibile del sistema in cui viene eseguito e la risoluzione del dispositivo di visualizzazione. Mentre non vi è alcun limite teorico al numero di punti dati StickWRLD può esaminare, e sequenze fino a 20.000 posizioni sono stati testati, in pratica StickWRLD funziona meglio con le sequenze fino a circa 1.000 posizioni.
Il vantaggio principale di StickWRLD risiede nella sua capacità di identificare gruppi di residui che covary uno con l'altro. Questo è un vantaggio significativo rispetto all'approccio tradizionale della sequenza consenso statistica, che è una semplice media statistica e non tiene conto coevolution. Mentre in alcuni casi i residui covarying possono semplicemente essere un artefatto della filogenesi, anche questi residui hanno resistito alla "test di selezione", e come tale è improbabile che sminuire l'functionalità di ogni proteina progettata per includerli.
Durante l'utilizzo StickWRLD identificare DPI in una sequenza di DNA o proteine canonica consenso / motif prima varianti ingegneria sintetici ridurrà il potenziale di errore e sostenere ottimizzazione rapida della funzione, va notato che StickWRLD può essere usato come strumento di identificazione di correlazione generalizzato e non si limita esclusivamente ai dati di proteine. StickWRLD può essere utilizzato per scoprire visivamente la co-occorrenza di eventuali variabili in ogni insieme di dati codificati correttamente.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |