Hier presenteren we de proteogenomic tool PoGo en protocollen voor snelle, kwantitatieve, posttranslationele modificaties en variant ingeschakeld toewijzing van peptiden vastgesteld door middel van de Spectrometrie van de massa op referentie genomen. Dit hulpprogramma is van nut om te integreren en proteogenomic en persoonlijke proteomic studies interfacing met orthogonale genomics gegevens visualiseren.
Cross-talk tussen genen, afschriften en eiwitten is de sleutel tot cellulaire reacties; Vandaar, analyse van moleculaire niveaus als afzonderlijke entiteiten wordt langzaam uitgebreid naar integrative studies ter verbetering van het begrip van de moleculaire dynamica binnen cellen. Huidige instrumenten voor de visualisatie en de integratie van proteomics met andere omics datasets zijn ontoereikend voor grootschalig onderzoek. Bovendien, ze vangen alleen fundamentele reeks identificeren, teruggooi posttranslationele modificaties en kwantificatie. Om deze kwesties te behandelen, ontwikkelden we PoGo toewijzen van peptiden met bijbehorende posttranslationele modificaties en kwantificering verwijst naar de annotatie van het genoom. Daarnaast was het hulpprogramma ontwikkeld om de toewijzing van peptiden geïdentificeerd uit aangepaste volgorde databases waarin één aminozuur varianten. Terwijl PoGo een command-line tool is, de grafische interface, PoGoGUI kunnen niet-bioinformatics onderzoekers gemakkelijk toewijzen van peptiden aan 25 soorten ondersteund door Ensembl genoom-annotatie. De gegenereerde output leent bestandsindelingen uit het genomics-veld, en daarom, visualisatie wordt ondersteund in de meeste browsers van het genoom. Voor grootschalige studies, wordt PoGo ondersteund door TrackHubGenerator web toegankelijke repositories van gegevens die zijn toegewezen aan genomen waarmee ook een eenvoudig delen van gegevens van de proteogenomics maken. Met weinig inspanning, kan dit hulpprogramma miljoenen peptiden verwijzen naar genomen binnen slechts een paar minuten, overtreffen andere hulpmiddelen van de beschikbare sequentie-identiteit gebaseerd kaart. Dit protocol blijkt de beste benaderingen voor toewijzing van de proteogenomics door middel van PoGo met openbaar datasets van kwantitatieve en Fosfoproteomics, evenals grootschalig onderzoek.
In cellen beïnvloeden genoom, transcriptome en Proteoom elkaar te moduleren van een reactie op interne en externe stimuli en interactie met elkaar om specifieke taken leiden tot gezondheid en ziekte te vervullen. Daarom, karakterisering en kwantificeren van de genen, afschriften en eiwitten is cruciaal voor het volledig begrijpen van cellulaire processen. Volgende-generatie rangschikken (NGS) is een van de meest toegepaste strategieën voor het identificeren en kwantificeren van gene en afschrift expressie. Eiwit expressie wordt echter algemeen beoordeeld door massaspectrometrie (MS). Significante vooruitgang in MS technologie in het afgelopen decennium heeft ingeschakeld meer een volledige identificatie en kwantificering van proteomes, waardoor de gegevens vergelijkbaar met transcriptomics1. Proteogenomics en multi-omics als manieren om NGS en MS gegevens te integreren zijn geworden krachtige benaderingen te evalueren van de cellulaire processen over meerdere moleculaire niveau, identificeren van subtypen van kanker en leidt tot nieuwe doelwit drug in kanker2 , 3. het is belangrijk op te merken dat proteogenomics werd aanvankelijk gebruikt om te bewijzen van proteomic voor gen en afschrift aantekeningen4. Meerdere genen eerder beschouwd als niet-coderende hebben onlangs nieuwe evaluatie gezien van de grootschalige menselijke weefsels datasets5,6,7ondergaan. Daarnaast worden proteomic gegevens met succes gebruikt ter ondersteuning van de inspanningen van de aantekening in niet-modelorganismen8,9. Echter proteogenomic data integratie naar aanleiding van hoogtepunt eiwit expressie ten opzichte van genomic functies kan worden benut en verhelderen van cross-talk tussen afschriften en eiwitten door middel van een gecombineerde referentiesysteem en methoden voor Co visualisatie.
Teneinde een gemeenschappelijk referentiepunt voor de gegevens van de genomica, proteomics en transcriptomics, zijn tal van hulpmiddelen doorgevoerd voor toewijzing peptides door middel van MS vastgesteld op genoom coördinaten10,11,12 ,13,14,15,16,17. Benaderingen verschillen in aspecten zoals toewijzing referentie, ondersteuning van genoom-browsers, en de mate van integratie met andere proteomics tools zoals afgebeeld in Figuur 1. Terwijl sommige hulpmiddelen omgekeerde vertaalde peptiden op een genoom16 kaart, anderen gebruiken een geannoteerde zoekmachine positie binnen een eiwit en gene aantekening te reconstrueren van de nucleotide-volgorde van de peptide15. Anderen gebruiken nog steeds een 3 – of 6-frame vertaling van het genoom peptiden tegen11,13in kaart. Ten slotte verschillende tools overslaan de nucleotidesequenties en aminozuur reeks vertalingen van RNA-sequencing toegewezen afschriften gebruiken als intermediair peptiden toewijzen aan de bijbehorende genoom coördinaten10,12, 14,,17. Echter, de vertaling van nucleotidesequenties is een langzaam proces en aangepaste databases zijn vatbaar voor fouten die aan de peptide-toewijzing doorgeven. Voor snelle en hoge-doorvoer toewijzing is een kleine en uitgebreide referentie cruciaal. Een verwijzing van de gestandaardiseerde eiwit met bijbehorende genoom coördinaten is daarom essentieel voor nauwkeurige peptide genoom toewijzen aan. Nieuwe aspecten in proteogenomics, zoals de opneming van de varianten en posttranslationele modificaties (PTMs)2,3, zijn goed op stoom door middel van recente studies. Echter, deze zijn over het algemeen niet ondersteund door de huidige proteogenomic mapping tools zoals afgebeeld in Figuur 1. Ter verbetering van de snelheid en kwaliteit van de toewijzing, werd PoGo ontwikkeld, een hulpmiddel waarmee de toewijzing van het snel en de kwantitatieve van peptiden genoom18. Bovendien kan de PoGo de toewijzing van peptiden met maximaal twee reeks varianten en geannoteerde posttranslationele modificaties.
PoGo is ontwikkeld om te gaan met de snelle stijging van kwantitatieve hoge resolutie datasets vastleggen van de proteomes en globale wijzigingen en beschikt over een centraal hulpprogramma voor grootschalige analyses uitgevoerd, zoals persoonlijke variatie en precisie geneeskunde. Dit artikel beschrijft de toepassing van dit hulpprogramma op het visualiseren van de aanwezigheid van posttranslationele wijziging ten opzichte van genomic functies. Bovendien, dit artikel wordt gewezen op de identificatie van alternatieve splicing gebeurtenissen via toegewezen peptiden en de toewijzing van peptiden vastgesteld door middel van aangepaste variant databases aan het genoom van een verwijzing. Dit protocol maakt gebruik van openbaar beschikbare datasets van de trots archief19 om aan te tonen deze functionaliteiten van PoGo gedownload. Bovendien beschrijft dit protocol de toepassing van TrackHubGenerator voor het creëren van online toegankelijk hubs van peptiden toegewezen aan genomen voor grootschalige proteogenomics studies.
Dit protocol beschrijft hoe de softwaretool PoGo en de grafische gebruikersinterface PoGoGUI een snelle toewijzing van peptiden op genoom coördinaten inschakelen. Het hulpprogramma biedt unieke functies, zoals kwantitatieve, posttranslationele modificaties en variant ingeschakelde toewijzing wordt genomen met behulp van referentie aantekening. Dit artikel toont de methode op een grootschalige proteogenomic studie en markeert u de efficiëntie van het snelheid en geheugen in vergelijking met andere beschikbare hulpmiddelen18. In combinatie met het hulpprogramma TrackHubGenerator, waardoor online toegankelijk hubs van genomic en genoom gekoppeld gegevens, PoGo, met de grafische gebruikersinterface, maakt het mogelijk grootschalige proteogenomics studies te snel het visualiseren van hun gegevens in genomic context. Bovendien tonen we de unieke kenmerken van PoGo met datasets searched tegen variant databases en kwantitatieve Fosfoproteomics22,29.
Enkele bestanden, zoals het bestand GCT bieden waardevolle visualisatie en banden tussen peptide functies en genomische loci. Het is echter belangrijk op te merken dat een interpretatie gebaseerd op deze alleen moeilijk of misleidend als gevolg van hun beperking op enkele aspecten van de proteogenomics zoals uniciteit, posttranslationele modificaties en kwantitatieve waarden worden kan. Daarom is het belangrijk zorgvuldig kiezen welke uitvoerbestanden, opties en combinaties geschikt zijn voor de vraag van de proteogenomic bij de hand en de combinaties wijzigen. Bijvoorbeeld zou informatie over de uniciteit van de toewijzing aan een specifieke genomic locus van grote waarde voor de aantekening van een genomic functie7, terwijl de kwantificering over verschillende monsters zou gepaster zijn als studies met betrekking genomic functies aan veranderingen in eiwit overvloed29. De Output moet worden gegenereerd door PoGo voor elke instelling. Ingeval geen uitvoer wordt gegenereerd, of lege bestanden worden weergegeven in de output map, is het raadzaam om te controleren de inputdossiers voor de gewenste inhoud en de vereiste bestandsindeling. In gevallen waar de bestandsindeling of de inhoud is niet aan de verwachtingen van PoGo (bijvoorbeeldhet bestand van de FASTA zogenaamd met de transcript vertaling sequenties bevat de nucleotidesequenties van de afschriften), foutberichten vraagt de gebruiker Controleer de invoerbestanden.
Beperkingen van het protocol en het hulpprogramma zijn meestal gebaseerd op het hergebruik van bestandsindelingen gebruikte in de genomica. Herbestemming van bestandsindelingen gebruikt in de genomica voor proteogenomic toepassingen gaat gepaard met specifieke beperkingen. Deze zijn te wijten aan de verschillende sets van vereisten voor genoom gecentreerd visualisatie van genomic en proteogenomic gegevens, zoals de noodzaak om te visualiseren posttranslationele modificaties van proteomics gegevens. Dit is in de bestandsindelingen van genomics beperkt door het gebruik van de functie voor eenmalige. Vele benaderingen en instrumenten hebben ontwikkeld voor proteomics vol vertrouwen lokaliseren posttranslationele modificaties binnen peptide reeksen31,32,33,34. De visualisatie van meerdere wijzigingen in een unieke en waarneembare wijze op het genoom wordt echter belemmerd door de structuur van genomic bestandsindelingen. Dus de visualisatie van één blok van meerdere PTMs van hetzelfde type is geen dubbelzinnigheid van de wijziging sites maar is het gevolg van de uiteenlopende eis uit de Gemeenschap van de genomica te visualiseren slechts enkele functies tegelijk. PoGo heeft echter het voordeel van toewijzing posttranslationele modificaties op genomic coördinaten om studies gericht op het effect van de genomische functies zoals één nucleotide varianten op posttranslationele modificaties. Het gebruik van PoGo, verhoogt variant toewijzing het aantal totale toewijzingen. Echter hoogtepunten de unieke kleurcodering van toegewezen peptiden betrouwbare toewijzingen van onbetrouwbaar zijn. De toewijzing van variant peptiden geïdentificeerd van bekende één nucleotide varianten kan gepaard gaan met het visualiseren van de toegewezen peptiden naast de varianten in VCF-indeling. Op deze manier de kleurcode die aangeeft een onbetrouwbare kartering van een variant peptide is overruled door de aanwezigheid van de bekende nucleotide-variant.
Een belangrijke stap voor het gebruik van PoGo is het gebruik van de juiste bestanden en materiaalsoorten. Het gebruik van vertaalde transcript sequenties als proteïne sequenties ter begeleiding van de aantekening in GTF-indeling is het belangrijkste criterium. Een ander kritisch element wanneer overweegt PoGo toewijzen van peptiden met aminozuur incongruenties is geheugen. Terwijl geheugen-hoogefficiënte voor een standaardapplicatie, wordt het aanzienlijk en exponentieel toenemende aantal mogelijke toewijzingen met één of twee incongruenties leidt tot een evenzo exponentiële toename van de geheugen gebruik18. Wij stellen een geënsceneerde toewijzing zoals beschreven in dit protocol naar de eerste kaart van de peptiden zonder incongruenties en hen uit de set verwijderen. De daaropvolgende eerder ontkoppeld peptiden vervolgens kunnen worden toegewezen met behulp van een wanverhouding en de procedure kan worden herhaald met twee incongruenties voor de resterende ontkoppeld peptides.
Aangezien de doorvoer van massaspectrometrie aanzienlijk toegenomen en studies interfacing genomic en proteomic gegevens zijn steeds vaker in de afgelopen jaren, zijn hulpmiddelen om gemakkelijk interfacing van deze typen gegevens in het hetzelfde coördinatensysteem steeds onmisbaar. De hier gepresenteerde tool zal helpen de behoefte aan de genomic combineren en proteomic gegevens om een beter begrip van integrative studies over kleine en grote datasets door peptiden op een referentie-aantekening toe te wijzen. Bemoedigend is dat is PoGo vereffend peptiden om toe te wijzen ter ondersteuning van de inspanningen van de aantekening van nieuwe genen uitgedrukt in menselijke testis35genoemde in dezelfde indeling als de referentie-aantekening met gene kandidatenlijsten. De hier gepresenteerde benadering is onafhankelijk van databases die worden gebruikt voor de identificatie van de peptide. Het protocol zou kunnen helpen bij de identificatie en visualisatie van de nieuwe vertaling producten met behulp van aangepast invoerbestanden uit vertaling sequenties en bijbehorende GTF bestanden uit RNA-seq experimenten.
Verschillende benaderingen en instrumenten met een breed scala aan speciale toepassingsscenario toewijzen van peptiden aan de genomic coördinaten, variërend van het toewijzen van peptiden rechtstreeks aan het genoom naar RNA-sequencing begeleide toewijzing, geweest geïntroduceerde10, 11 , 12 , 13 , 14 , 15 , 16 , 17. echter kan hierdoor niet correct toewijzen peptiden wanneer posttranslationele modificaties aanwezig zijn en fouten in de onderliggende toewijzing van RNA-sequencing leest kunnen worden doorgegeven aan de peptide-niveau. PoGo is ontwikkeld specifiek die om obstakels te overwinnen en om te gaan met de snelle stijging van kwantitatieve high-resolution proteomic datasets te integreren met orthogonale genomics platforms. Het hier beschreven hulpprogramma kan worden geïntegreerd in high-throughput werkstromen. Via de grafische interface PoGoGUI, de tool is eenvoudig te gebruiken en vereist geen opleiding tot specialist in bio-informatica.
The authors have nothing to disclose.
Dit werk werd gefinancierd door de Wellcome Trust (WT098051) en de NIH grant (U41HG007234) aan het GENCODE project.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |