L’obiettivo del presente protocollo è quello di sviluppare un riferimento per le proteine divergenti in un gruppo che non dispone di criteri coerenti per la nomenclatura e classificazione. Questo riferimento faciliterà l’analisi e la discussione del gruppo nel suo complesso e può essere utilizzato in aggiunta nomi affermati.
Proteine correlate che sono state studiate in diversi laboratori utilizzando diversi organismi potrebbero non avere un sistema uniforme di nomenclatura e classificazione, rendendo difficile per discutere il gruppo nel suo complesso e di inserire nuove sequenze nel contesto appropriato. Lo sviluppo di un riferimento che la funzionalità importante sequenza di priorità relative alla struttura e/o attività può essere utilizzata oltre a nomi affermati per aggiungere qualche coerenza a un gruppo eterogeneo di proteine. Questa carta utilizza la superfamiglia di cisteina-stabilizzato alfa-elica (CS-αβ) come un esempio per mostrare come un riferimento generato nel software di foglio di calcolo può chiarire le relazioni tra proteine esistenti nella superfamiglia, nonché facilitare l’aggiunta di nuovi sequenze. Viene inoltre illustrato come il riferimento può contribuire a perfezionare gli allineamenti di sequenza generati in software comunemente usato, che compromette la validità delle analisi filogenetiche. L’utilizzo di un riferimento sarà probabilmente più utile per i gruppi di proteine che includono sequenze altamente divergenti da un ampio spettro di taxa, con caratteristiche che non vengono adeguatamente acquisite dalle analisi molecolari.
Nome di una proteina dovrebbe riflettere è caratteristiche e rapporto ad altre proteine. Purtroppo, i nomi vengono generalmente assegnati al momento della scoperta e, mentre la ricerca continua, la comprensione del contesto più ampio potrebbe cambiare. Questo può portare a più nomi se una proteina è stata identificata in modo indipendente da più di un laboratorio, ai cambiamenti nella nomenclatura o nelle caratteristiche pensate per essere definitiva quando si assegna il nome e il nome non è più sufficientemente differenziando la proteina dagli altri.
Invertebrati marini defensine forniscono un buon esempio di degenerazione nella nomenclatura e classificazione. Le defensine invertebrate prime sono state segnalate dagli insetti, e il nome “insetto defensine” è stato proposto basato sull’omologia percepita a mammiferi defensine1,2. Il termine defensine è ancora usata, anche se è ormai chiaro che defensine invertebrate e mammiferi non condividono un antenato comune3,4. A seconda della specie, un invertebrato “defensine” può avere sei o otto cisteine (che formano tre o quattro ponti disolfuro) e una varietà di attività antimicrobica. A complicare la situazione, proteine con le stesse caratteristiche come defensine non vengono sempre chiamate “defensine,” come la cremycins recentemente identificato da Caenorhabditis remanei5. Inoltre, defensine grande invertebrati marini sono più probabili essere evolutivamente correlato a vertebrati β-defensine rispetto a altri invertebrati defensine6. Nonostante questo, i ricercatori si affidano a volte il nome “defensine” quando si determina quali sequenze devono essere inclusi nelle analisi.
Gli studi strutturali hanno rivelato la somiglianza tra insetto defensine e Scorpione tossine7, e la piega di CS-αβ successivamente è stata stabilita come la caratteristica strutturale di defensine insetto8. Questo ovile definisce la superfamiglia di scorpione tossina-come (CS-αβ) nella classificazione strutturale delle proteine (SCOP) database9, che attualmente include cinque famiglie: insetto defensine, catena corta Scorpione tossine, tossine dello Scorpione lungo-catena, MGD-1 (da un mollusco) e pianta defensine. Questa superfamiglia è sinonima di cis-defensine recentemente descritto4 e superfamiglia 3.30.30.10 in CATH/Gene database 3D10,11. Studi da una varietà di taxa di invertebrati, piante e funghi show che i nomi delle proteine che contengono questa piega non sono chiaramente correlati al numero di cisteina o modello di incollaggio, attività antimicrobica o storia evolutiva12.
La mancanza di coerenza e criteri chiari rendono impegnativo per denominare e classificare le sequenze più recentemente identificati di questa superfamiglia. Un ostacolo importante al confronto di proteine in questa superfamiglia è che cisteine sono numerate rispetto ogni sequenza individuale (il prima cisteina in ogni sequenza è C1), con nessun modo per rappresentare il ruolo strutturale. Ciò significa che possono essere paragonate solo sequenze con lo stesso numero di cisteine. C’è poco sequenza conservazione tranne le cisteine che formano la piega di CS-αβ, che rende difficile allineamenti e analisi filogenetiche. Attraverso lo sviluppo di un sistema di numerazione che dà priorità caratteristiche strutturali, sequenze di superfamiglia possono essere più facilmente rispetto e allineati. Caratteristiche conservate, così come quelle che definiscono i sottogruppi, possono essere fruiti rapidamente, e nuove sequenze possono essere più facilmente collocati nel contesto appropriato.
Questo documento utilizza un software di foglio di calcolo (ad esempio, Excel) per generare un sistema per la superfamiglia CS-αβ di numerazione di riferimento. Essa mostra come questo chiarisce i confronti tra le sequenze e le applica nuove sequenze di CS-αβ identificati dai tardigradi. Utilizzando la superfamiglia CS-αβ come esempio, il protocollo è stato scritto per fornire una guida quando si utilizza sequenze di interesse; Tuttavia, non è inteso per essere specifici di questa superfamiglia o sequenze ricche di cisteina. Questo metodo sarà probabilmente più utile per i gruppi di proteine che sono state studiate in modo indipendente in taxa divergenti e/o hanno poca omologia di sequenza complessiva, con discrete caratteristiche che non possono essere facilmente riconosciuti dal software di analisi molecolare. Questo metodo richiede alcune decisioni a priori per quanto riguarda caratteristiche importanti, quindi sarà di limitata utilità se non importanti caratteristiche sono state identificate. L’obiettivo primario è quello di mostrare come una semplice visualizzazione delle relazioni di sequenza può essere raggiunto. Questo quindi può essere utilizzato per informare l’allineamento di sequenza e l’analisi, ma se l’allineamento e l’analisi sono gli obiettivi primari, un metodo di codice a barre sarebbe una valida alternativa che ha più capacità per automazione13. Il metodo corrente Visualizza le funzioni di ciascun peptide in una forma lineare, quindi non sarà disponibile per la visualizzazione diretta della struttura 3D.
I criteri per la denominazione di una proteina all’interno di un gruppo dovrebbero essere chiari, ma questo non è sempre il caso. Sequenze che hanno il CS-αβ piegare sono state studiate in molti laboratori utilizzando una varietà di organismi, risultante in diversi sistemi di nomenclatura, nonché a diversi livelli di caratterizzazione. Tentando di imporre una completamente nuova nomenclatura non è ragionevole e si tradurrebbe in una grande quantità di confusione durante la consultazione letteratura precedente. Un …
The authors have nothing to disclose.
Ricerca in corso tardigrade peptide antimicrobico è supportato da finanziamenti intramurale dalla Midwestern University Office of Research e sponsorizzato programmi (ORSP). Il ORSP non aveva alcun ruolo nel disegno dello studio, raccolta dati, analisi, interpretazione o preparazione del manoscritto.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |