Ce protocole vise à développer une référence pour les protéines divergentes dans un groupe qui n’a pas de critères cohérents pour la classification et la nomenclature. Cette référence facilitera l’analyse et la discussion du groupe dans son ensemble et peut être utilisée en plus de noms établis.
Protéines apparentées qui ont été étudiés dans des laboratoires différents utilisant des différents organismes n’ont pas un système uniforme de la nomenclature et classification, rendant difficile de discuter de l’ensemble du groupe et de placer de nouvelles séquences dans le contexte approprié. Développer une référence qui donne la priorité aux fonctionnalités importantes séquences liées à structure et/ou de l’activité peut être utilisée en plus des noms établis pour ajouter quelque cohérence à un groupe diversifié de protéines. Cet article utilise la super-famille des (CS-αβ) hélice alpha cystéine stabilisé à titre d’exemple pour montrer comment une référence générée en tableur peut clarifier les relations entre les protéines existantes dans la superfamille, ainsi que faciliter l’ajout de nouveaux séquences. Il montre également comment la référence peut aider à affiner les alignements de séquences générées dans les logiciels couramment utilisés, dont l’incidence sur la validité des analyses phylogénétiques. L’utilisation d’une référence sera probablement plus utile pour les groupes de protéines qui incluent des séquences très divergentes d’un vaste éventail de taxons, avec des fonctionnalités qui ne sont pas suffisamment couverts par les analyses moléculaires.
Nom de la protéine devrait refléter est caractéristiques et relation à d’autres protéines. Malheureusement, les noms sont généralement affectés au moment de la découverte et que les recherches se poursuivent, la compréhension de l’ensemble des contextes peut-être changer. Cela peut conduire à plusieurs noms si une protéine a été identifiée séparément par plus d’un laboratoire, à des changements dans la nomenclature ou dans les caractéristiques considérés comme définitif lorsque vous affectez le nom et le nom n’est plus suffisamment différenciant la protéine d’autres personnes.
Les défensines invertébrés offrent un bon exemple de la dégénérescence dans la nomenclature et la classification. Les premiers défensines d’invertébrés ont été signalés par les insectes, et le nom « defensin insecte » a été proposée basée sur l’homologie perçue à mammifères défensines1,2. Le terme defensin est toujours utilisé, même s’il est maintenant clair que défensines invertébrés et mammifères ne partagent pas un ancêtre commun3,4. Selon les espèces, un invertébré « defensin » peut avoir six ou huit des cystéines (qui forment trois ou quatre ponts disulfures) et une variété d’activités antimicrobiennes. Pour compliquer la situation, protéines ayant les mêmes caractéristiques que les défensines ne sont pas toujours appelés « défensines, » tels que le cremycins récemment identifié de Caenorhabditis remanei5. En outre, défensines gros invertébrés sont plus susceptibles de concerner évolutionnaire vertébrée β-défensines que d’autres invertébrés défensines6. Malgré cela, les chercheurs s’appuient parfois sur le nom « defensin » pour déterminer quelles séquences devraient être inclus dans les analyses.
Des études structurales ont révélé la similitude entre insectes défensines et scorpion toxines7, et le pli de CS-αβ a été établi par la suite comme la caractéristique structurelle de l’insecte défensines8. Cette bergerie définit la superfamille (CS-αβ) scorpion toxine dans la Classification structurale des protéines (SCOP) base de données9, qui comprend actuellement cinq familles : insectes défensines, toxines scorpion à chaîne courte, toxines de longue chaîne scorpion, MGD-1 (à partir de mollusque) et plante défensines. Cette superfamille est synonyme de la cis-défensines décrit récemment4 et super-famille 3.30.30.10 dans le CATH/Gene database 3D10,11. Études de divers invertébrés, plantes et champignons que les noms des protéines qui contiennent cette bergerie ne sont pas clairement liées à afficher numéro de cystéine ou dessin de collage, activité antimicrobienne ou histoire évolutive12.
Le manque de cohérence et de critères clairs rendent difficile de nommer et classer les séquences vient d’être identifié dans cette superfamille. Un obstacle majeur à comparer les protéines dans cette superfamille est que cystéines sont comptés à l’égard de chaque séquence individuel (la première cystéine dans chaque séquence est C1), sans aucun moyen pour expliquer le rôle structurel. Cela signifie que seules les séquences avec le même nombre de cystéines peuvent être comparés. Il y a peu conservation de séquence autre que les cystéines formant le pli de CS-αβ, ce qui complique les alignements et les analyses phylogénétiques. En développant un système de numérotation qui priorise les caractéristiques structurales, superfamille séquences peuvent être plus facilement par rapport et alignés. Caractéristiques conservées, ainsi que ceux définissant les sous-groupes, peuvent être visualisées rapidement, et de nouvelles séquences peuvent être placés plus facilement dans le contexte approprié.
Cet article utilise un tableur (par exemple, Excel) pour générer une référence à la numérotation de la super-famille des CS-αβ. Il montre comment cela clarifie les comparaisons entre les séquences et l’applique aux nouvelles séquences de CS-αβ identifiés des tardigrades. À l’aide de la super-famille des CS-αβ à titre d’exemple, le protocole a été écrit pour fournir des orientations pour l’utilisation de séquences d’intérêt ; Cependant, il n’est pas prévu pour être précis de cette superfamille ou de séquences riches en cystéine. Cette méthode sera probablement plus utile pour les groupes de protéines qui ont été étudiés séparément dans des taxons divergentes et/ou ont peu homologie de séquence globale, ayant des caractéristiques distinctes qui peut ne pas être facilement reconnu par le logiciel d’analyse moléculaire. Cette méthode requiert certaines décisions a priori au sujet des caractéristiques importantes, il sera d’une utilité limitée si aucune caractéristiques importantes n’ont été identifiées. L’objectif principal est de montrer comment une visualisation simple des relations séquence peut être atteints. Cela peut ensuite servir à informer l’alignement de séquences et d’analyse, mais si l’alignement et l’analyse sont les principaux objectifs, une méthode de code à barres serait une alternative appropriée qui a plus de capacité pour l’automatisation,13. La méthode actuelle affiche les caractéristiques de chaque peptide sous une forme linéaire, donc il ne sera pas utile pour la visualisation directe de la structure 3D.
Les critères pour nommer une protéine au sein d’un groupe doivent être clairs, mais ce n’est pas toujours le cas. Les séquences qui ont le CS-αβ plier ont été étudiés dans plusieurs laboratoires en utilisant une variété d’organismes, ayant pour résultat différents systèmes de nomenclature, ainsi que différents niveaux de qualification. Tentative d’imposer une toute nouvelle nomenclature n’est pas raisonnable et se traduirait par une grande confusion lors de la consultation de la littérature ant…
The authors have nothing to disclose.
Peptide antimicrobien tardigrade en cours recherche est appuyée par un financement intra-muros du Bureau de recherche de l’Université du Midwest et parrainé des programmes (ORSP). L’ORSP n’avait aucun rôle dans la conception de l’étude, la collecte de données, analyse, interprétation ou préparation du manuscrit.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |