Summary

Criando e aplicando uma referência para facilitar a discussão e a classificação das proteínas em diversos grupos

Published: August 16, 2017
doi:

Summary

O objetivo do presente protocolo é desenvolver uma referência para proteínas divergentes em um grupo que carece de critérios coerentes de nomenclatura e classificação. Esta referência irá facilitar as análises e discussões do grupo como um todo e pode ser usada além de nomes estabelecidos.

Abstract

Proteínas relacionadas que têm sido estudadas em laboratórios diferentes, usando diferentes organismos podem carecer de um sistema uniforme de nomenclatura e classificação, dificultando a discutir no grupo como um todo e colocar novas sequências no contexto apropriado. Desenvolver uma referência que prioriza recursos sequência importantes relacionadas com a estrutura e/ou atividade pode ser usada para além de nomes estabelecidos para adicionar alguma coerência a um grupo diverso de proteínas. Este papel utiliza a superfamília da cisteína-estabilizado alfa-hélice (CS-αβ) como um exemplo para mostrar como uma referência gerada no software de planilha pode clarificar as relações entre proteínas existentes na superfamília, bem como facilitar a adição de novos sequências. Ele também mostra como a referência pode ajudar a refinar os alinhamentos de sequência gerados no software comumente usado, o que afeta a validade das análises filogenéticas. O uso de uma referência provavelmente será mais útil para grupos de proteínas que incluem sequências altamente divergentes de um amplo espectro de táxons, com características que não são adequadamente capturadas por análises moleculares.

Introduction

Nome de uma proteína deve refletir é características e relação com outras proteínas. Infelizmente, geralmente os nomes são atribuídos no momento da descoberta e, como a investigação continua, pode mudar o entendimento do contexto maior. Isso pode levar a vários nomes se uma proteína independente foi identificada por mais de um laboratório, para mudanças na nomenclatura ou nas características supostamente definitivo ao atribuir o nome e o nome já não suficientemente diferenciando a proteína dos outros.

Invertebrados defensinas fornecem um bom exemplo de degeneração na nomenclatura e classificação. As primeiras defensinas invertebradas foram relatadas de insetos, e o nome “inseto defensina” foi proposto com base na homologia percebida para mamíferos defensinas1,2. O termo defensina ainda é usado, mesmo que é agora claro que defensinas invertebradas e mamíferos não compartilham um ancestral comum de3,4. Dependendo da espécie, um invertebrado “defensina” pode ter seis ou oito cisteínas (que formam três ou quatro ligações de bissulfeto) e uma variedade de atividades antimicrobianas. Para complicar a situação, as proteínas com as mesmas características como defensinas não são sempre chamadas “defensinas,” tais como o cremycins recentemente identificados de Caenorhabditis remanei5. Além disso, defensinas grandes invertebradas são mais propensos a ser evolutivamente relacionadas com vertebrados β-defensinas do que para outros invertebrados defensinas6. Apesar disso, pesquisadores às vezes contam com o nome “defensina” ao determinar quais sequências devem ser incluídas nas análises.

Estudos estruturais revelaram a similaridade entre insetos defensinas e Escorpião toxinas7, e a dobra de CS-αβ posteriormente foi estabelecida como a característica estrutural do inseto defensinas8. Esta dobra define superfamília (CS-αβ) semelhantes a toxina de Escorpião na classificação estrutural das proteínas (SCOP) banco de dados9, que atualmente inclui cinco famílias: defensinas insetos, toxinas de cadeia curta Escorpião, Escorpião de cadeia longa toxinas, MGD-1 (a partir de um molusco) e defensinas de plantas. Esta superfamília é sinônimo com o recentemente descrito cis-defensinas4 e superfamília 3.30.30.10 na base de dados 3D CATH/Gene10,11. Estudos de uma variedade de táxons de invertebrados, plantas e fungos mostrar que os nomes das proteínas que contêm esta dobra não estão claramente relacionados com número de cisteína ou padrão de ligação, atividade antimicrobiana ou história evolutiva12.

A falta de consistência e critérios claros torná-lo desafiador para nomear e classificar sequências recentemente identificados nesta superfamília. Um grande obstáculo para comparar as proteínas esta superfamília é que cisteínas estão contadas em relação a cada sequência individual (a primeira cisteína em cada sequência é C1), com nenhuma forma de contabilizar o papel estrutural. Isto significa que podem ser comparadas apenas sequências com o mesmo número de cisteínas. Há pouco conservação de sequência que não seja as cisteínas formando a dobra de CS-αβ, que dificulta a alinhamentos e análises filogenéticas. Através do desenvolvimento de um sistema de numeração que prioriza as características estruturais, superfamília sequências podem ser mais facilmente comparadas e alinhadas. Características conservadas, bem como aqueles definir subgrupos, podem ser visualizadas rapidamente, e novas sequências podem ser mais facilmente colocadas no contexto apropriado.

Este artigo usa um software de planilha (por exemplo, Excel) para gerar uma referência a numeração para a superfamília de CS-αβ. Ele mostra como isso esclarece comparações entre sequências e aplica a novas sequências de CS-αβ, identificadas a partir tardigrades. Usando a superfamília de CS-αβ como um exemplo, o protocolo foi escrito para fornecer orientação ao usar sequências de interesse; no entanto, não se destina especificamente para esta superfamília ou sequências de rica em cisteína. Este método provavelmente será mais útil para grupos de proteínas que foram pesquisadas independentemente dos táxons divergentes e/ou tem pouca homologia de sequência geral, com características distintas que não podem ser facilmente reconhecidos pelo software de análise molecular. Este método requer algumas decisões a priori sobre características importantes, por isso vai ser de utilidade limitada se não características importantes foram identificadas. O objetivo principal é mostrar como uma simples visualização das relações sequência pode ser alcançada. Isto pode ser usado para informar o alinhamento da sequência e análise, mas se o alinhamento e a análise são os principais objetivos, um método de código de barras seria uma alternativa adequada que tem mais capacidade para automação13. O método atual exibe as características de cada peptídeo de forma linear, por isso não vai ser útil para a visualização directa da estrutura 3D.

Protocol

1. determinar as características de definição do grupo de proteínas de interesse publicações anteriores de consulta para determinar se há um consenso sobre os recursos que são necessários para ser considerado parte do grupo. Tome nota de quaisquer inconsistências ou diferenças de opinião entre grupos de pesquisa e incluem características que podem servir para diferenciar um subgrupo de outro. Se a literatura anterior não resolver características definidoras, use sequências que são co…

Representative Results

Grupos de sequências na superfamília CS-αβ relatados na literatura são mostrados na Figura 4. Os pares de cisteína baseados a numeração para cada sequência de sugerem cinco grupos básicos (tabela 1, coluna do meio). Grupo 1 tem seis cisteínas que de bissulfeto de três títulos e inclui sequências de insetos, aracnídeos, moluscos, nematoides e fungos. Grupos 2, 3 e 4 têm 8 cisteínas que formam quatro ligações de bissulfeto. G…

Discussion

Os critérios para a nomeação de uma proteína dentro de um grupo devem ser claros, mas isso não é sempre o caso. Sequências que têm o CS-αβ dobre têm sido estudadas em muitos laboratórios usando uma variedade de organismos, resultando em diferentes sistemas de nomenclatura, bem como diferentes níveis de caracterização. A tentativa de impor uma completamente nova nomenclatura não é razoável e resultaria em uma grande quantidade de confusão quando consultar a literatura anterior. Uma sistema de numeraçã…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Investigação em curso tardigrade peptídeo antimicrobiano é suportada pelo intramural de financiamento do centro-oeste Universidade escritório de pesquisa e programas patrocinados (ORSP). O ORSP não tinha qualquer papel no projeto de estudo, coleta de dados, análise, interpretação ou preparação do manuscrito.

Materials

BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -. L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -. M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Play Video

Citer Cet Article
Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

View Video