Hier stellen wir Ihnen das Proteogenomic-Tool PoGo und Protokolle für den schnellen, quantitativen, Post-translationale Modifikation und Variante aktiviert Zuordnung von Peptiden durch Massenspektrometrie auf Referenz Genomen identifiziert. Dieses Tool ist von nutzen, zu integrieren und Proteogenomic und persönliche Proteomik-Studien mit orthogonalen Genomik Daten zu visualisieren.
Übersprechen zwischen Genen, Abschriften und Proteinen ist der Schlüssel zur zellulären Reaktionen; Daher wird Analyse der molekularen Niveaus als getrennte Einheiten für integrative Studien um das Verständnis der molekularen Dynamik innerhalb der Zellen zu verbessern langsam ausgebaut. Aktuellen Tools für die Visualisierung und die Integration der Proteomik mit anderen Omics-Datasets sind unzureichend für groß angelegte Studien. Darüber hinaus erfassen sie nur grundlegende Sequenz identifiziert haben, verwerfen, Post-translationalen Modifikationen und Quantifizierung. Um diese Probleme anzugehen, entwickelten wir PoGo um Peptide mit zugehörigen Post-translationalen Modifikationen und Quantifizierung Genom Anmerkung verweisen zuzuordnen. Darüber hinaus wurde das Tool entwickelt, um die Zuordnung der Peptide identifiziert von angepassten Sequenzdatenbanken integrieren einzelne Aminosäure Varianten ermöglichen. PoGo ist ein Kommandozeilen-Tool, ermöglicht die grafische Oberfläche PoGoGUI nicht Bioinformatik Forschern problemlos Peptide 25 Arten von Ensembl Genome Annotation unterstützt zugeordnet. Die generierte Ausgabe leiht Datei-Formate aus dem Bereich Genomik und Visualisierung wird daher in den meisten Genom-Browsern unterstützt. Für groß angelegte Studien gestützt PoGo TrackHubGenerator Web zugänglichen Sammlungen von Daten zugeordnet, Genome, die es auch ermöglichen eine einfache Weitergabe von Proteogenomics Daten zu erstellen. Mit wenig Aufwand kann dieses Tool Millionen von Peptiden Genome in nur wenigen Minuten verweisen übertrifft andere Tools verfügbar-Sequenz-Identität zuordnen. Dieses Protokoll zeigt die besten Ansätze für die Proteogenomics Zuordnung durch PoGo mit öffentlich verfügbaren Datensätzen der quantitativen sowie Phosphoproteomics und groß angelegte Studien.
In Zellen Genom, Transkriptom und Proteom beeinflussen sich gegenseitig, um eine Reaktion auf interne und externe Reize zu modulieren und beeinflussen sich gegenseitig, bestimmte Aufgaben zu Gesundheit und Krankheit. Charakterisierung und Quantifizierung von Genen, Abschriften und Proteinen ist demzufolge entscheidend für zelluläre Prozesse vollständig zu verstehen. Next Generation Sequencing (NGS) ist eines der am häufigsten angewandten Strategien zu identifizieren und quantifizieren gen und Transkript Ausdruck. Protein-Expression wird jedoch häufig durch Massenspektrometrie (MS) bewertet. Bedeutende Fortschritte in der MS-Technologie in den letzten zehn Jahren hat es mehr eine vollständige Identifizierung und Quantifizierung der Proteome, sodass die Daten vergleichbar mit Transkriptom1ermöglicht. Proteogenomics und Multi-Omics als Mittel zur Integration von NGS und MS Daten geworden leistungsfähige Ansätze über mehrere Molekulare Ebenen, zelluläre Prozesse einzuschätzen Subtypen von Krebs zu erkennen und führt zu neuartigen mögliche Drogeziele Krebs2 , 3. es ist wichtig zu beachten, dass Proteogenomics wurde zunächst zur Proteomic gen und Transkript Anmerkungen4belegen. Mehrere vorher gedacht, um nicht-kodierende Gene wurden erst kürzlich eine erneute Bewertung unter Berücksichtigung der großen menschlichen Gewebes Datasets5,6,7durchgemacht. Darüber hinaus werden Proteomic Daten erfolgreich zur Annotation unterstützen-Modellorganismen8,9. Jedoch Proteogenomic-Daten-Integration weiter Höhepunkt Proteinexpression in Bezug auf genomische Funktionen genutzt werden kann und Übersprechen zwischen Transkripte und Proteine zu erhellen, indem Sie eine kombinierte Bezugssystem und Methoden für Co-Visualisierung.
Um einen gemeinsamen Referenzrahmen für Proteomics, Transkriptom und Genomik Daten zu gewährleisten, wurden zahlreiche Werkzeuge für Zuordnung Peptide identifiziert durch MS auf Genom Koordinaten10,11,12 implementiert ,13,14,15,16,17. Ansätze unterscheiden sich in Aspekten wie Zuordnung Referenz, Unterstützung von Genom-Browsern und Grad der Integration mit anderen Proteomics-Tools wie in Abbildung 1dargestellt. Während einige Tools reverse übersetzten Peptide auf ein Genom16Karte, verwenden andere eine Suchmaschine kommentiert Position im Protein und gen Annotation, um die Nukleotidsequenz der Peptid-15zu rekonstruieren. Noch verwenden andere 3 oder 6-Rahmen Übersetzung des Genoms Peptide gegen11,13zuordnen. Zu guter Letzt mehrere Tools überspringen die Nukleotidsequenzen und Verwendung Aminosäure-Sequenz Übersetzungen von RNA-Sequenzierung abgebildet Transkripte als Zwischenprodukt der zugehörigen Genom Koordinaten10,12Peptide zuordnen, 14,17. Aber die Übersetzung von Nukleotidsequenzen ist ein langsamer Prozess und benutzerdefinierte Datenbanken sind anfällig für Fehler, die an das Peptid Mapping weitergegeben. Für schnelle und Hochdurchsatz-Mapping ist eine kleine und umfassende Referenz entscheidend. Daher unbedingt eine standardisierte Protein-Referenz mit zugehörigen Genom Koordinaten für genaue Peptid Genom Zuordnung. Neue Aspekte in Proteogenomics, wie die Einbeziehung von Varianten und Post-translationalen Modifikationen (PTMs)2,3, werden durch neuere Studien immer wichtiger. Jedoch sind diese im Allgemeinen nicht unterstützt von aktuellen Proteogenomic mapping-Tools wie in Abbildung 1dargestellt. Zur Verbesserung der Geschwindigkeit und Qualität des Mappings wurde PoGo entwickelt, ein Tool, das die schnelle und quantitative Zuordnung von Peptiden, Genome18. Darüber hinaus ermöglicht PoGo die Zuordnung von Peptiden mit bis zu zwei Sequenzvarianten und kommentierten Post-translationalen Modifikationen.
PoGo wurde entwickelt, um mit der raschen Zunahme der quantitativen hochauflösenden Datasets Erfassung Proteome und globale Änderungen zu bewältigen und bietet ein zentrale Dienstprogramm für groß angelegte Analysen wie persönliche Variation und präzisionsmedizin. Dieser Artikel beschreibt die Anwendung dieses Instruments, das Vorhandensein von Post-translationale Modifikation in Bezug auf genomische Funktionen zu visualisieren. Darüber hinaus unterstreicht dieses Artikels die Identifizierung von alternativen Spleißen Ereignisse durch zugeordnete Peptide und die Zuordnung von Peptiden, die durch benutzerdefinierte Variante Datenbanken zu einer Referenz-Genoms identifiziert. Dieses Protokoll setzt öffentlich verfügbare Datensätzen heruntergeladen vom stolz Archiv19 um diese Funktionalitäten der PoGo zu demonstrieren. Dieses Protokoll beschreibt darüber hinaus die Anwendung von TrackHubGenerator für die Erstellung von online-zugänglichen Naben von Peptiden zugeordnet Genome für groß angelegte Proteogenomics Studien.
Dieses Protokoll beschreibt, wie das Software-Tool PoGo und seiner grafischen Benutzeroberfläche PoGoGUI eine schnelle Zuordnung der Peptide auf Genom-Koordinaten ermöglichen. Das Tool bietet einzigartige Features wie quantitative, Post-translationale Modifikation und Variante-fähigen Mapping mit Genomen mit Referenz-Beschriftung. Dieser Artikel veranschaulicht die Methode auf eine groß angelegte Proteogenomic-Studie und unterstreicht seine Geschwindigkeit und Effizienz im Vergleich zu anderen verfügbaren Tools18. In Kombination mit dem Tool TrackHubGenerator, schafft die online zugängliche Naben der genomischen und Genom verknüpft Daten, PoGo, mit seiner grafischen Benutzeroberfläche ermöglicht großflächige Proteogenomics Studien, ihre Daten in Zusammenhang mit genomischen schnell zu visualisieren. Darüber hinaus zeigen wir Ihnen die Besonderheiten des PoGo mit Datensätzen gesucht gegen Variante Datenbanken und quantitative Phosphoproteomics22,29.
Einzelne Dateien, z. B. die GCT-Datei bieten wertvolle Visualisierung und Links zwischen Peptid-Features und genomic Loci. Es ist jedoch wichtig zu beachten, dass eine Interpretation anhand dieser allein schwierig oder aufgrund ihrer Beschränkung auf einzelne Aspekte der Proteogenomics wie Einzigartigkeit, Post-translationalen Modifikationen und quantitative Werte irreführend sein kann. Daher ist es wichtig, sorgfältig zu wählen, welche Ausgabedateien, Optionen und Kombinationen eignen sich für die Proteogenomic-Frage auf der hand, und ändern Sie die Kombinationen. Z. B. möglicherweise Informationen über die Einzigartigkeit der Zuordnung zu einer spezifischen genomischen Locus von großem Wert für die Kommentierung der genomischen Funktion7, während die Quantifizierung über verschiedene Proben für Untersuchungen im Zusammenhang mit angebrachter sein könnte genomische-Features, Änderungen im Protein Fülle29. Die Ausgabe sollte für jede Einstellung von PoGo generiert. Für den Fall, dass keine Ausgabe generiert wird, oder leere Dateien im Ordner “Ausgabe” angezeigt werden, es empfiehlt sich, die input-Dateien für den gewünschten Inhalt und das gewünschte Dateiformat zu überprüfen. In Fällen, wo die Datei-Format oder den Inhalt nicht die Erwartungen der PoGo folgt (z. B.die FASTA-Datei angeblich mit der Abschrift Übersetzung Sequenzen enthält die Nukleotidsequenzen der Abschriften), Fehlermeldungen angezeigt werden, bitten Sie den Benutzer Überprüfen Sie die Eingaben-Dateien.
Einschränkungen des Protokolls und das Tool basieren meist auf die Wiederverwendung von Dateiformaten, die allgemein verwendet in der Genomik. Neuorientierung in der Genomik für Proteogenomic-Anwendungen verwendet Dateiformate wird begleitet von besonderen Beschränkungen. Diese werden durch die unterschiedlichen Sets von Anforderungen für Genom zentriert Visualisierung der genomischen und Proteogenomic Daten, wie zum Beispiel die Notwendigkeit, Post-translationalen Modifikationen von Proteomics-Daten zu visualisieren. Dies ist in den Dateiformaten Genomics durch Nutzung der einzelnen Features eingeschränkt. Viele Ansätze und Werkzeuge wurden für Proteomics, Post-translationalen Modifikationen innerhalb Peptid Sequenzen31,32,33,34selbstbewusst zu lokalisieren. Jedoch ist die Visualisierung von mehreren Änderungen in eine einzigartige und erkennbare Weise über das Genom durch die Struktur der genomischen Dateiformate behindert. Daher die Einzelsatz-Visualisierung von mehreren PTMs des gleichen Typs stellt keine Unklarheiten in der Modifikation Seiten aber ergibt sich aus der unterschiedlichen Anforderung aus der Genomik-Community, nur einzelne Funktionen gleichzeitig visualisieren. PoGo hat jedoch den Vorteil der Zuordnung Post-translationalen Modifikationen auf genomische Koordinaten, Studien über die Wirkung von genomischen Features wie Einzel-Nukleotid-Varianten auf Post-translationalen Modifikationen zu ermöglichen. Variant-Mapping erhöht mit PoGo, die Anzahl der insgesamt Zuordnungen. Allerdings zeigt die einzigartige Farbcodierung der zugeordneten Peptide zuverlässige Zuordnungen von unzuverlässigen. Die Zuordnung der variant Peptide identifiziert aus bekannten Einzel-Nukleotid-Varianten kann durch die Visualisierung der zugeordneten Peptide neben den Varianten im VCF-Format begleitet werden. Auf diese Weise den Farbcode zeigt eine unzuverlässige Zuordnung der variant Peptid wird durch die Anwesenheit von bekannten Nukleotid-Variante überstimmt.
Ein entscheidender Schritt für die Verwendung von PoGo ist die Verwendung der richtigen Dateien und Formate. Die Verwendung von übersetzte Abschrift Sequenzen als Proteinsequenzen, die Anmerkung im GTF-Format zu begleiten ist das Hauptkriterium. Ein weiteres wichtiges Element, wenn man bedenkt, mit PoGo Peptide mit Aminosäure Fehlanpassungen zu zuordnen ist Erinnerung. Während Speicher hocheffizient für eine Standardanwendung, führt die deutlich und exponentiell zunehmende Zahl von möglichen Zuordnungen mit ein oder zwei Fehlanpassungen zu einem ähnlich exponentiellen Anstieg der Speicher Verbrauch18. Wir schlagen eine inszenierte Zuordnung, wie beschrieben in diesem Protokoll zunächst Karte die Peptide ohne Fehlanpassungen und entfernen sie aus dem Satz. Die nachfolgenden bisher nicht zugeordnete Peptide dann abgebildet werden können mit einem Missverhältnis und das Verfahren kann mit zwei Abweichungen für die verbleibenden nicht zugeordnete Peptide wiederholt werden.
Da der Durchsatz der Massenspektrometrie deutlich gestiegen ist und Studien Anbindung genomic und Proteomic Daten häufiger in den letzten Jahren immer werden, sind Hilfsmittel, ohne weiteres erlauben solche Daten im gleichen Koordinatensystem Anbindung zunehmend unverzichtbar. Das hier vorgestellte Tool hilft die Notwendigkeit, genomische kombinieren und Proteomic Daten zu verbessern, ein besseres Verständnis der integrativen Studien über kleine und große Datenmengen durch die Zuordnung der Peptide auf eine Referenz-Beschriftung. Erfreulicherweise ist PoGo angewendet worden, um Peptide gen Kandidaten zur Verfügung gestellt, in das gleiche Format wie die Referenz-Anmerkung Anmerkung Anstrengungen der neuartige Gene in menschliche Hoden35unterstützen zuzuordnen. Der hier vorgestellte Ansatz ist unabhängig von Datenbanken für Peptid Identifikation verwendet. Das Protokoll möglicherweise Hilfe bei der Identifizierung und Visualisierung von Roman Übersetzung Produkte mithilfe von Eingabedateien von Übersetzung Sequenzen angepasst und damit verbundenen GTF Dateien von RNA-Seq-Experimente.
Mehrere Ansätze und Instrumente mit einer breiten Palette von speziellen Anwendungsszenarien genomische Koordinaten, angefangen bei Peptiden die Genomsequenz RNA-Sequenzierung geführte Zuordnung direkt zuordnen Peptide zuordnen wurden eingeführte10, 11 , 12 , 13 , 14 , 15 , 16 , 17. jedoch können diese Resultate in eine Nichtbeachtung der Peptide korrekt zuordnen, wenn Post-translationalen Modifikationen vorhanden sind und Fehler in der zugrunde liegenden Zuordnung des RNA-Sequenzierung lautet auf die Peptid-Ebene weitergegeben werden können. PoGo wurde entwickelt, speziell jene Hindernisse zu überwinden und zu bewältigen, die rasche Zunahme des quantitativen hochauflösenden Proteomic Datasets mit orthogonalen Genomics Plattformen zu integrieren. Das hier beschriebene Werkzeug kann Hochdurchsatz-Workflows integriert werden. Über die grafische Oberfläche PoGoGUI das Tool ist einfach zu bedienen und erfordert keine spezielle Bioinformatik Ausbildung.
The authors have nothing to disclose.
Diese Arbeit wurde von der Wellcome Trust (WT098051) und der NIH Grant (U41HG007234) zum GENCODE Projekt finanziert.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |