OpenProt est une base de données librement accessible qui applique un modèle de polycistronique du génome des eucaryotes. Nous présentons ici un protocole pour l’utilisation des bases de données de OpenProt lors de l’interrogation des ensembles de données de spectrométrie de masse. À l’aide de OpenProt base de données pour l’analyse des expériences de la protéomique permet la découverte du roman et protéines indétectables.
Annotation du génome est au centre de recherche protéomique d’aujourd’hui qu’il dessine les contours du paysage protéomique. Les modèles traditionnels d’open lecture annotation de cadre (ORF) imposer deux critères arbitraires : une longueur minimale de 100 codons et une seule ORF par transcription. Toutefois, un nombre croissant d’études signalent l’expression de protéines provenant prétendument non codantes régions, contester l’exactitude des annotations de génome actuel. Ces roman protéines trouvées codés au sein non codantes RNAs, 5′ ou 3′ régions non traduites (RTNs) de l’ARNm, ou chevauchant une séquence codante connue (CD) dans une solution de rechange ORF. OpenProt est la première base de données qui permet d’appliquer un modèle de polycistronique des génomes eucaryotes, permettant l’annotation de multiples ORF par transcription. OpenProt est librement accessible et offre personnalisées téléchargements de séquences protéiques sur 10 espèces. À l’aide de OpenProt base de données pour les expériences de la protéomique permet la découverte de nouvelles protéines et met en évidence le caractère polycistronique des gènes eucaryotes. La taille de base de OpenProt (tous prédit protéines) est importante et doit être prise en compte pour l’analyse. Cependant, avec les paramètres de fréquence (FDR) découverte de faux appropriées ou l’utilisation d’une base de données OpenProt restreinte, utilisateurs gagneront une vision plus réaliste du paysage protéomique. Dans l’ensemble, OpenProt est un outil disponible gratuitement qui favorisera les découvertes de la protéomique.
Ces dernières décennies, protéomique de la spectrométrie de masse (MS-) basée est devenue la technique or à déchiffrer les protéomes de cellules eucaryotes1,2,3,4,5. Cette méthode s’appuie sur les annotations de génome actuel pour générer une base de référence protéine séquence qui décrit la portée des possibilités6,7,8. Toutefois, les annotations de génome tenir des critères arbitraires pour l’annotation de l’ORF, comme une longueur minimale de 100 codons et une seule ORF par transcription9,10. Un nombre croissant d’études conteste le modèle actuel d’annotation et de faire rapport des découvertes de non annotées ORF fonctionnelle dans les génomes eucaryotes8,11,12,13, 14. Ces nouvelles protéines se trouvent encodées en ARN prétendument non codantes, dans les 5′ ou 3′ non traduite régions (UTR) du mRNA, ou chevauchant la séquence codante canonique (cCDS) dans un autre cadre. Bien que la plupart de ces découvertes ont été heureux hasard, ils démontrent les mises en garde des annotations de génome actuel et la nature de polycistronique des gènes eucaryotes8.
Ici, nous mettons en évidence l’utilisation de bases de données OpenProt pour la protéomique axée sur le MS. OpenProt est la première base de données de détenir un modèle annotation polycistronique transcriptomes eucaryotes. Il est disponible gratuitement au www.openprot.org15. Une proportion d’entre eux prédit Qu’orfs serait aléatoire et non fonctionnelles, c’est pourquoi OpenProt cumule les preuves expérimentales et fonctionnelle d’accroître la confiance. Les preuves expérimentales incluent expression de la protéine (en MS) et traduction de preuve (par ribosome profilage)15. Preuves fonctionnelles comprennent le niveau de protéine (avec un In-paranoïaque comme approche) et le domaine fonctionnel prédiction15.
OpenProt offre la possibilité de télécharger plusieurs bases de données, de contenant uniquement des protéines bien soutenus aux bases de données sur mesure. Ici, nous présenterons un pipeline pour l’utilisation des bases de données OpenProt et offrira des aperçus de quelle base de données choisir étant donné le but expérimental. Le pipeline d’analyse protéomique présenté ici est pris en charge par l’infrastructure de la galaxie comme il est accessible et facile à utiliser, mais les bases de données peuvent fonctionner avec n’importe quel workflow16,17,18. Nous présenterons également comment utiliser le site Web OpenProt pour recueillir des informations complémentaires sur nouvelles protéines détectées par MS. Using OpenProt bases de données fournira une vue plus exhaustive du paysage protéomiques et favorisera la protéomique et les biomarqueurs découvertes dans une manière plus systématique que les méthodes actuelles.
Ce protocole met en évidence l’utilisation de bases de données de OpenProt15 lors de l’interrogation de datasets MS ; Elle n’examinera pas la conception de l’expérience elle-même, qui a été complètement revu ailleurs20,21,22. Dans le but de rester entièrement open source, le protocole est librement disponible (S1 de matériel complémentaire–S4). Pour faciliter la lecture, tous les termes utilisés en OpenProt et par les présentes tout au long de ce protocole sont définies au tableau 1.
Lors de l’analyse des données de spectromètres de masse, la qualité de l’identification des protéines s’appuie en partie sur l’exactitude de la base de données utilisée6,20. Les approches actuelles utilisent traditionnellement UniProtKB bases de données, mais ceux-ci soutiennent le modèle d’annotation du génome d’un ORF unique par transcription et une longueur minimale de 100 codons (à l’exception des exemples précédemment démontrées)40. Plusieurs études rapportent les lacunes de ces bases de données avec la découverte de l’ORF fonctionnelle du prétendument non codantes régions8,11,12,13. Maintenant, OpenProt permet l’identification de protéines plus exhaustive qu’il puise les annotations de transcriptome plusieurs séquences protéiques. OpenProt récupère RefSeq NCBI (GRCh38.p7) et les transcriptomes Ensembl (GRCh38.83) et les annotations de UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. Lorsque les annotations actuelles présentent peu de chevauchement, OpenProt affiche donc une vue plus exhaustive du paysage protéomiques potentiel que lorsque limité à une annotation15.
En outre, comme OpenProt applique un modèle de polycistronique, il permet plusieurs annotations de protéine par transcription. Pour des raisons de statistiques et de calculs, OpenProt détient toujours un seuil de longueur minimale de 30 codons15. Pourtant, il prédit des milliers de séquences de protéines nouvelles, élargissant ainsi le champ des possibilités pour l’identification des protéines. Avec cette approche, OpenProt prend en charge les découvertes de protéomique d’une manière plus systématique.
La qualité de l’identification des protéines peut également être affectée par les paramètres qui sont utilisés. Analyse protéomique axée sur le MS détiennent généralement un 1 % de protéines FDR. Toutefois, la base de données OpenProt entier contient environ 6 fois plus d’entrées (Figure 1). Pour expliquer cette augmentation substantielle dans l’espace de recherche, nous recommandons d’utiliser un FDR plus strict de 0,001 %. Ce paramètre a été optimisé à l’aide d’études comparatives et évaluation manuelle des spectres choisis au hasard15. Faux positif sont toujours une possibilité, bien que, et nous encourageons inspection approfondie et la validation de pièces justificatives pour une nouvelle protéine. Une norme recommandée pourrait être l’identification d’une protéine de deux séries différentes de MS, comme données de base et des faux positifs varient entre les ensembles de données15.
Le pipeline fournis ici et utilisés pour l’étude de cas peut être modifié aussi heureux d’adapter le protocole expérimental et paramètres. Nous recommandons l’utilisation de plusieurs moteurs de recherche car elle augmente la sensibilité et la sensibilité du peptide identification32. En outre, nous encourageons l’utilisation de la base de données correspondant le mieux au but expérimental (Figure 1). Comme à l’aide de la OpenProt toute base de données est livré avec un FDR rigoureux, véritables identifications peuvent être perdues. Ainsi, l’ensemble de la base devrait être destiné à la découverte de nouvelles protéines, tandis que profilage protéomique classique devrait utiliser les petites bases de données OpenProt (tels que les OpenProt_2pep utilisés dans l’étude de cas ci-dessus).
OpenProt prévoit actuellement des séquences commençant par un codon ATG, alors que plusieurs études ont souligné initiation de la traduction à autres codons44,45. Lorsqu’une nouvelle protéine est identifiée par un ou plusieurs peptides uniques, il est possible du que codon d’initiation véritable n’est pas l’ATG présumée. Utilisateurs peuvent chercher des preuves de traduction sur le site OpenProt. Actuellement, OpenProt signale uniquement les événements de traduction si elles concernent l’ensemble des protéines prédites séquence (100 % de chevauchement)15. Ainsi, l’absence de preuve de la traduction ne signifierait pas la protéine n’est pas traduite, mais que le codon de début ne peut pas être l’ATG présumée.
Malgré ses limites actuelles, OpenProt offre une vue plus exhaustive du potentiel de codage des génomes eucaryotes. OpenProt bases de données favorisent les découvertes de la protéomique et la compréhension des fonctions de la protéomique et les interactions. Les développements futurs de la base de données OpenProt comprendra annotation d’autres espèces, preuve de la traduction de non-ATG start codon et le développement d’un pipeline d’inclure des protéines nouvelles dans l’ensemble du génome et des études de séquençage de l’exome.
The authors have nothing to disclose.
Nous remercions Vivian Delcourt pour son aide, des discussions et des conseils sur ce travail. X.R. est membre du Fonds de Recherche du Québec Santé FRQS appuyés par le Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Cette recherche a été financée par une chaire de recherche du Canada en protéomique fonctionnelle et découverte de la protéine de roman à grant X.R. et IRSC MOP-137056. Nous remercions l’équipe Calcul Québec et calcul Canada pour leur soutien à l’utilisation de la mp2 supercalculateur de l’Université de Sherbrooke. Du supercalculateur mp2 est financée par la Fondation Canada de l’Innovation (FCI), le ministère de l’Économie, de la science et de l’innovation du Québec (MESI) et les Fonds de Recherche du Québec – Nature et technologies (FRQ-NT). Le serveur Galaxy qui a été utilisé pour des calculs de la protéomique est en partie financé par Collaborative Research Centre 992 médical épigénétique (subvention DFG SFB/992/1 2012) et ministère fédéral allemand de l’éducation et la recherche (BMBF accorde 031 RBC A538A/A538C, 031L0101B De /031L0101C. NBI-epi, 031L 0106 de. ESCALIER (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |