OpenProt ist eine frei zugängliche Datenbank, die eine Polycistronic Modell der eukaryotic Genome erzwingt. Hier präsentieren wir ein Protokoll für die Verwendung von OpenProt Datenbanken bei der Massenspektrometrie Datasets zu verhören. Mit OpenProt kann Datenbank zur Auswertung von Proteomic Experimenten für Entdeckung von Roman und bisher nicht nachweisbar Proteinen.
Genom-Anmerkung steht im Mittelpunkt der heutigen Proteomic Forschung wie die Umrisse der Proteomik Landschaft zieht. Traditionelle Modelle open Frame (ORF) Anmerkung lesen zwei willkürliche Kriterien auferlegen: eine Mindestlänge von 100 Codons und einem einzigen ORF pro Protokoll. Eine wachsende Zahl von Studien berichten jedoch Expression von Proteinen aus angeblich nicht-kodierenden Regionen, die Genauigkeit der aktuellen Genom Anmerkungen eine Herausforderung. Dieser Roman Proteine gefunden wurden kodiert entweder in nicht-kodierende RNAs, 5′ oder 3′ untranslatierten Regionen (wo) der mRNAs oder überlappende einer bekannten kodierenden Sequenz (CDS) in Alternative ORF. OpenProt ist die erste Datenbank, die eine Polycistronic Modell für eukaryotische Genome, erzwingt Annotation von mehrere ORFs pro Protokoll ermöglicht. OpenProt ist frei zugänglich und bietet benutzerdefinierte Downloads von Proteinsequenzen über 10 Arten. Mit OpenProt Datenbank für Proteomik Experimente ermöglicht neuartige Proteine Entdeckung und betont den Polycistronic Charakter von eukaryotischen Genen. Die Größe der OpenProt-Datenbank (alle vorausgesagt Proteine) ist beträchtlich und Konto für die Analyse getroffen werden muss. Allerdings erhalten Benutzer mit entsprechenden false Discovery Rate (FDR) Einstellungen oder den Einsatz einer eingeschränkten OpenProt Datenbank, einen realistischeren Blick auf die Proteomik-Landschaft. OpenProt ist eine frei verfügbare Tool, die Proteomic Entdeckungen fördern wird.
In den letzten Jahrzehnten geworden Massenspektrometrie (MS)-basierte Proteomics die goldenen Technik Proteome von eukaryotischen Zellen1,2,3,4,5zu entschlüsseln. Diese Methode beruht auf aktuellen Genom Anmerkungen Sequenz Referenzdatenbank Protein zu generieren, die den Umfang der Möglichkeiten6,7,8beschreibt. Allerdings halten Genom Anmerkungen willkürliche Kriterien für ORF-Annotation, z. B. einer Mindestlänge von 100 Codons und einem einzigen ORF pro Protokoll9,10. Eine wachsende Zahl von Studien fordern Sie das aktuelle Modell der Annotation und Entdeckungen der Genomsequenz funktionale ORFs in eukaryotischen Genomen8,11,12,13zu melden, 14. Diese neuartige Proteine codiert in angeblich nicht-kodierende RNAs befinden, in der 5′ oder 3′ unübersetzt Regionen (UTR) mRNAs oder Überschneidungen der kanonischen kodierenden Sequenz (cCDS) in einem alternativen Rahmen. Obwohl die meisten dieser Entdeckungen glückliche gewesen sind, zeigen sie die Vorbehalte der aktuellen Genom-Anmerkungen und die Polycistronic Art der eukaryotischen Genen8.
Hier heben wir die Verwendung von OpenProt Datenbanken für MS-basierte Proteomics. OpenProt ist die erste Datenbank eine Polycistronic Annotation Modell für eukaryotische Transkriptom festzuhalten. Es ist frei verfügbar bei www.openprot.org15. Ein Teil davon vorhergesagt wäre ORFs zufällig und nicht-funktionale, weshalb OpenProt experimentelle und funktionalen Beweise Vertrauen stärken kumulieren. Experimentelle Beweise sind Protein-Expression (von MS) und Übersetzung Beweis (durch Ribosom Profilierung)15. Funktionelle Beweis einschließen Protein Orthopädie (mit einer In-Paranoid wie Ansatz) und funktionale Domäne Vorhersage15.
OpenProt bietet die Möglichkeit, mehrere Datenbanken, herunterladen, die nur gut unterstützte Proteine auf maßgeschneiderte Datenbanken enthalten. Hier präsentieren wir eine Pipeline für die Verwendung von OpenProt Datenbanken und bieten Einblicke in die Datenbank zu wählen, wenn man bedenkt das experimentelle Ziel. Die Proteomik Analyse Pipeline hier vorgestellten ist von Galaxy Framework unterstützt, da es Open Access und einfach zu bedienende, aber die Datenbanken können mit jedem Workflow16,17,18arbeiten. Wir präsentieren auch wie mithilfe die OpenProt-Website für weitere Informationen über neuartige Proteine erkannt durch MS. Using OpenProt Datenbanken sammeln eine umfassendere Sicht der Proteomik Landschaft bieten wird und die Proteomik und Biomarker Entdeckungen in fördert systematischer als bisherige Methoden.
Dieses Protokoll wird die Verwendung von OpenProt Datenbanken15 hervorgehoben, wenn MS Datasets zu befragen; Es prüft nicht das Design des Experiments überprüft selbst, die gründlich wurde an anderer Stelle20,21,22. In dem Bemühen um vollständig Open Source bleiben ist das Protokoll frei verfügbar (Ergänzende Material S1–S4). Zur besseren Lesbarkeit sind alle Begriffe, die in OpenProt und hiermit in diesem Protokoll in Tabelle 1festgelegt.
Bei der Analyse der Daten von Massenspektrometern die Qualität der Proteinidentifizierung stützt sich teilweise auf die Genauigkeit der verwendeten Datenbank6,20. Aktuelle Ansätze verwenden traditionell UniProtKB Datenbanken, noch diese unterstützt das Genom Anmerkung Modell von einem einzigen ORF pro Abschrift und einer Mindestlänge von 100 Codons (mit Ausnahme der zuvor aufgezeigten Beispiele)40. Mehrere Studien beziehen sich die Mängel solcher Datenbanken mit der Entdeckung der funktionalen ORFs aus angeblich nicht-kodierenden Regionen8,11,12,13. Nun, erlaubt OpenProt für umfassendere Proteinidentifikation wie es mehrere Transkriptom Anmerkungen Proteinsequenzen entlockt. OpenProt ruft NCBI RefSeq (GRCh38.p7) und Ensembl (GRCh38.83) Transkriptom und UniProtKB Anmerkungen (UniProtKB-derjenigen, 2017-09-27)40,42,43. Wie aktuelle Anmerkungen wenig Überlappung präsentieren, zeigt OpenProt somit einen umfassenderen Blick auf die potenziellen Proteomic Landschaft als wenn beschränkt auf eine Anmerkung15.
Darüber hinaus als OpenProt eine Polycistronic Modell erzwingt, ermöglicht es mehrere Protein Anmerkungen pro Protokoll. Statistische und numerische Gründen hält OpenProt noch eine Mindestlänge Schwelle von 30 Codons15. Doch sagt es Tausende von neuartigen Proteinsequenzen, dadurch Erweiterung des Anwendungsbereichs der Möglichkeiten für Proteinidentifizierung voraus. Mit diesem Ansatz unterstützt OpenProt Proteomic Entdeckungen in systematischer Weise.
Die Qualität der Proteinidentifikation kann auch durch die Parameter beeinflusst werden, die verwendet werden. MS-basierte Proteomics Analysen halten in der Regel eine 1 % Protein FDR. Die gesamte OpenProt-Datenbank enthält jedoch ca. 6-Mal mehr Einträge (Abbildung 1). Um diesen erheblichen Anstieg des Suchraums berücksichtigen, empfehlen wir eine strengere FDR von 0,001 %. Dieser Parameter wurde mit Benchmark-Studien und manuelle Auswertung von nach dem Zufallsprinzip ausgewählte Spektren15optimiert. Fehlalarm immer noch eine Möglichkeit, und wir ermutigen gründliche Inspektion und Überprüfung der Belege für ein neuartiges Protein. Ein empfohlener Standard könnte die Identifizierung eines Proteins aus zwei verschiedenen MS-Läufen, sein, wie Datasets15Hintergrunddaten und Fehlalarmen unterscheiden.
Die Pipeline hier bereitgestellt und verwendet für die Fallstudie kann so gerne passen die Versuchsplanung und Parameter geändert werden. Wir würden empfehlen, mit mehreren Suchmaschinen zunehmender Empfindsamkeit und Empfindlichkeit des Peptids Identifikation32. Darüber hinaus fördern wir mit Hilfe der Datenbank entspricht am besten dem experimentellen Ziel (Abbildung 1). Als mit der ganzen OpenProt Datenbank mit einem strengen FDR kommt, können wahre Identifikationen verloren gehen. So sollten die gesamte Datenbank für Entdeckung der neuen Proteine bestimmt, während klassische Proteomics Profilierung der kleineren OpenProt-Datenbanken (z. B. OpenProt_2pep verwendet in der Fallstudie oben) verwendet werden sollte.
OpenProt prognostiziert derzeit Sequenzen beginnend mit ATG-Codon, während mehrere Studien Übersetzung Einleitung bei anderen Codons44,45hervorgehoben. Wenn ein neues Protein durch eine oder mehrere einzigartige Peptide identifiziert wird, ist es möglich die wahre Einleitung Codon nicht die vermuteten ATG ist. Benutzer können nach Übersetzung beweisen auf der Website OpenProt sehen. OpenProt meldet derzeit nur Übersetzung Ereignisse, wenn sie die gesamten prognostizierten Protein Sequenz (100 % Überlappung)15betreffen. So hieße fehlen Übersetzung Beweise nicht, dass das Protein nicht übersetzt wird, aber, dass das Start-Codon möglicherweise nicht die angeblichen ATG.
Trotz ihrer aktuellen Grenzen bietet OpenProt einen umfassenderen Blick auf eukaryotische Genome Codierung Potenzial. OpenProt Datenbanken Proteomic Entdeckungen und das Verständnis der Proteomik Funktionen und Interaktionen zu fördern. Zukünftige Entwicklungen der OpenProt Datenbank werden Anmerkung anderer Arten, Übersetzung Beweis von nicht-ATG beginnen Sie Codon und Entwicklung einer Pipeline, neue Proteine im gesamten Genom und Exome Sequenzierung Studien aufzunehmen.
The authors have nothing to disclose.
Wir danken Vivian Delcourt für seine Hilfe, Diskussionen und Beratung über diese Arbeit. X.R. ist Mitglied des Fonds de Recherche du Québec Santé FRQS unterstützt Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Diese Forschung wurde durch eine Canada Research Chair in funktionelle Proteomik und Entdeckung von Roman Proteine, X.R. und CIHR Zuschuss MOP-137056 unterstützt. Wir danken dem Team bei Calcul Québec und Compute Kanada für die Unterstützung bei der Nutzung der Supercomputer mp2 von Université de Sherbrooke. Betrieb der mp2-Supercomputer wird finanziert durch Kanada Foundation of Innovation (CFI), le Ministère de l’Économie, De La Science et de französischen du Québec (MESI) und Les Fonds de Recherche du Québec – Nature et Technologien (FRQ-NT). Die Galaxy-Server, der für einige Proteomics-Berechnungen verwendet wurde ist teilweise finanziert Collaborative Research Center 992 medizinische Epigenetik (DFG Stipendium SFB 992/1 2012) und Bundesministerium für Bildung und Forschung (BMBF gewährt 031 RBC A538A/A538C, 031L0101B /031L0101C de. NBI-Epi, 031L 0106 de. Treppe (de.) NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |