O objetivo do presente protocolo é desenvolver uma referência para proteínas divergentes em um grupo que carece de critérios coerentes de nomenclatura e classificação. Esta referência irá facilitar as análises e discussões do grupo como um todo e pode ser usada além de nomes estabelecidos.
Proteínas relacionadas que têm sido estudadas em laboratórios diferentes, usando diferentes organismos podem carecer de um sistema uniforme de nomenclatura e classificação, dificultando a discutir no grupo como um todo e colocar novas sequências no contexto apropriado. Desenvolver uma referência que prioriza recursos sequência importantes relacionadas com a estrutura e/ou atividade pode ser usada para além de nomes estabelecidos para adicionar alguma coerência a um grupo diverso de proteínas. Este papel utiliza a superfamília da cisteína-estabilizado alfa-hélice (CS-αβ) como um exemplo para mostrar como uma referência gerada no software de planilha pode clarificar as relações entre proteínas existentes na superfamília, bem como facilitar a adição de novos sequências. Ele também mostra como a referência pode ajudar a refinar os alinhamentos de sequência gerados no software comumente usado, o que afeta a validade das análises filogenéticas. O uso de uma referência provavelmente será mais útil para grupos de proteínas que incluem sequências altamente divergentes de um amplo espectro de táxons, com características que não são adequadamente capturadas por análises moleculares.
Nome de uma proteína deve refletir é características e relação com outras proteínas. Infelizmente, geralmente os nomes são atribuídos no momento da descoberta e, como a investigação continua, pode mudar o entendimento do contexto maior. Isso pode levar a vários nomes se uma proteína independente foi identificada por mais de um laboratório, para mudanças na nomenclatura ou nas características supostamente definitivo ao atribuir o nome e o nome já não suficientemente diferenciando a proteína dos outros.
Invertebrados defensinas fornecem um bom exemplo de degeneração na nomenclatura e classificação. As primeiras defensinas invertebradas foram relatadas de insetos, e o nome “inseto defensina” foi proposto com base na homologia percebida para mamíferos defensinas1,2. O termo defensina ainda é usado, mesmo que é agora claro que defensinas invertebradas e mamíferos não compartilham um ancestral comum de3,4. Dependendo da espécie, um invertebrado “defensina” pode ter seis ou oito cisteínas (que formam três ou quatro ligações de bissulfeto) e uma variedade de atividades antimicrobianas. Para complicar a situação, as proteínas com as mesmas características como defensinas não são sempre chamadas “defensinas,” tais como o cremycins recentemente identificados de Caenorhabditis remanei5. Além disso, defensinas grandes invertebradas são mais propensos a ser evolutivamente relacionadas com vertebrados β-defensinas do que para outros invertebrados defensinas6. Apesar disso, pesquisadores às vezes contam com o nome “defensina” ao determinar quais sequências devem ser incluídas nas análises.
Estudos estruturais revelaram a similaridade entre insetos defensinas e Escorpião toxinas7, e a dobra de CS-αβ posteriormente foi estabelecida como a característica estrutural do inseto defensinas8. Esta dobra define superfamília (CS-αβ) semelhantes a toxina de Escorpião na classificação estrutural das proteínas (SCOP) banco de dados9, que atualmente inclui cinco famílias: defensinas insetos, toxinas de cadeia curta Escorpião, Escorpião de cadeia longa toxinas, MGD-1 (a partir de um molusco) e defensinas de plantas. Esta superfamília é sinônimo com o recentemente descrito cis-defensinas4 e superfamília 3.30.30.10 na base de dados 3D CATH/Gene10,11. Estudos de uma variedade de táxons de invertebrados, plantas e fungos mostrar que os nomes das proteínas que contêm esta dobra não estão claramente relacionados com número de cisteína ou padrão de ligação, atividade antimicrobiana ou história evolutiva12.
A falta de consistência e critérios claros torná-lo desafiador para nomear e classificar sequências recentemente identificados nesta superfamília. Um grande obstáculo para comparar as proteínas esta superfamília é que cisteínas estão contadas em relação a cada sequência individual (a primeira cisteína em cada sequência é C1), com nenhuma forma de contabilizar o papel estrutural. Isto significa que podem ser comparadas apenas sequências com o mesmo número de cisteínas. Há pouco conservação de sequência que não seja as cisteínas formando a dobra de CS-αβ, que dificulta a alinhamentos e análises filogenéticas. Através do desenvolvimento de um sistema de numeração que prioriza as características estruturais, superfamília sequências podem ser mais facilmente comparadas e alinhadas. Características conservadas, bem como aqueles definir subgrupos, podem ser visualizadas rapidamente, e novas sequências podem ser mais facilmente colocadas no contexto apropriado.
Este artigo usa um software de planilha (por exemplo, Excel) para gerar uma referência a numeração para a superfamília de CS-αβ. Ele mostra como isso esclarece comparações entre sequências e aplica a novas sequências de CS-αβ, identificadas a partir tardigrades. Usando a superfamília de CS-αβ como um exemplo, o protocolo foi escrito para fornecer orientação ao usar sequências de interesse; no entanto, não se destina especificamente para esta superfamília ou sequências de rica em cisteína. Este método provavelmente será mais útil para grupos de proteínas que foram pesquisadas independentemente dos táxons divergentes e/ou tem pouca homologia de sequência geral, com características distintas que não podem ser facilmente reconhecidos pelo software de análise molecular. Este método requer algumas decisões a priori sobre características importantes, por isso vai ser de utilidade limitada se não características importantes foram identificadas. O objetivo principal é mostrar como uma simples visualização das relações sequência pode ser alcançada. Isto pode ser usado para informar o alinhamento da sequência e análise, mas se o alinhamento e a análise são os principais objetivos, um método de código de barras seria uma alternativa adequada que tem mais capacidade para automação13. O método atual exibe as características de cada peptídeo de forma linear, por isso não vai ser útil para a visualização directa da estrutura 3D.
Os critérios para a nomeação de uma proteína dentro de um grupo devem ser claros, mas isso não é sempre o caso. Sequências que têm o CS-αβ dobre têm sido estudadas em muitos laboratórios usando uma variedade de organismos, resultando em diferentes sistemas de nomenclatura, bem como diferentes níveis de caracterização. A tentativa de impor uma completamente nova nomenclatura não é razoável e resultaria em uma grande quantidade de confusão quando consultar a literatura anterior. Uma sistema de numeraçã…
The authors have nothing to disclose.
Investigação em curso tardigrade peptídeo antimicrobiano é suportada pelo intramural de financiamento do centro-oeste Universidade escritório de pesquisa e programas patrocinados (ORSP). O ORSP não tinha qualquer papel no projeto de estudo, coleta de dados, análise, interpretação ou preparação do manuscrito.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |