OpenProt is een vrij toegankelijke databank die wordt afgedwongen door een polycistronic model van eukaryotische genomen. Hier presenteren we een protocol voor het gebruik van OpenProt databases wanneer ondervragen massaspectrometrie datasets. Met behulp van OpenProt zorgt database voor analyse van proteomic experimenten voor de ontdekking van de roman en eerder niet detecteerbaar eiwitten.
Genoom-annotatie staat centraal in de hedendaagse Proteoom onderzoek, omdat het de contouren van het landschap van proteomic vestigt. Traditionele modellen van open lezen aantekening met kader (ORF) leggen twee willekeurige criteria: een minimale lengte van 100 codonen en een enkele ORF per transcript. Echter, een groeiend aantal studies verslag uitdrukking van eiwitten uit naar verluidt niet-coderende regio’s, de nauwkeurigheid van de huidige genoom aantekeningen uitdagend. Deze roman eiwitten bleken gecodeerd in niet-coderende RNAs 5′ en 3′ niet-vertaalde regio’s (UTRs) of mRNAs, overlappende een bekende codering opeenvolging (CDS) in een alternatief ORF. OpenProt is de eerste database die wordt afgedwongen door een polycistronic model voor eukaryotische genomen, waardoor annotatie van meerdere ORFs per transcript. OpenProt is vrij toegankelijk en biedt aangepaste downloads van proteïne sequenties tussen 10 soorten. Met behulp van OpenProt database voor proteomic experimenten kan nieuwe eiwitten ontdekking en hoogtepunten van de polycistronic aard van eukaryotische genen. De grootte van OpenProt database (alle voorspelde eiwitten) is aanzienlijk en in aanmerking voor de analyse moet worden genomen. Echter, met passende valse detectie tarief (FDR)-instellingen of het gebruik van een beperkte OpenProt-database, zal krijgen gebruikers een meer realistisch beeld van het landschap van proteomic. OpenProt is over het algemeen een vrij beschikbaar hulpmiddel dat proteomic ontdekkingen zullen bevorderen.
In de afgelopen decennia, is proteomics massaspectrometrie (MS-) gebaseerd geworden de gouden techniek te ontcijferen proteomes van eukaryotische cellen1,2,3,4,5. Deze methode is gebaseerd op de huidige genoom aantekeningen voor het genereren van een eiwit sequentie referentiedatabank die het toepassingsgebied van mogelijkheden6,7,8 schetst. Genoom aantekeningen houden echter willekeurige criteria voor ORF aantekening, zoals een minimale lengte van 100 codonen en een enkele ORF per transcript9,10. Een toenemend aantal studies uitdaging van het huidige model van de aantekening en ontdekkingen van unannotated functionele ORFs in eukaryotische genoom8,11,12,13, verslag 14. Deze roman proteïnen in gecodeerde naar verluidt niet-coderende RNAs zijn gevonden, in de 5′ of 3′ onvertaald (UTR) of delen van mRNAs, overlappen de canonieke codering volgorde (CCD’s) in een alternatieve frame. Hoewel de meeste van deze ontdekkingen serendipitous zijn, aantonen zij dat het voorbehoud van huidige genoom aantekeningen en de aard van de polycistronic van eukaryotische genen8.
We benadrukken hier, het gebruik van OpenProt databases voor proteomics op basis van MS. OpenProt is de eerste database te houden een polycistronic aantekening model voor eukaryotische transcriptomes. Het is vrij beschikbaar op www.openprot.org15. Een deel van deze voorspelde dat ORFS zou willekeurige en niet-functionele, dat is waarom OpenProt cumulates experimentele en functionele bewijs om vertrouwen te vergroten. Experimenteel bewijs omvatten eiwit expressie (door MS) en vertaling bewijsverkrijging (door het ribosoom profiling)15. Functionele bewijs bevatten eiwit orthology (met een In-Paranoid zoals aanpak) en domein met het domeinfunctionaliteitsniveau voorspelling15.
OpenProt biedt de mogelijkheid om te downloaden van verschillende databases, uit die alleen goed ondersteunde eiwitten tot op maat gemaakte databases bevatten. Hier presenteren we een pijpleiding voor het gebruik van OpenProt databases en biedt inzicht in welke database te kiezen gezien de experimentele doel. De pijpleiding van proteomics analyse hier gepresenteerd wordt ondersteund door het Galaxy-kader zoals het is open-access en easy-to-use, maar de databases met elke werkstroom16,17,18 werken kunnen. We zullen ook het gebruik van de website OpenProt voor verdere informatie te verzamelen over nieuwe eiwitten ontdekt door MS. Using OpenProt databases voor een meer volledig uitzicht over het landschap van proteomic zorgt en proteomics en biomarkers ontdekkingen in zal bevorderen presenteren een meer systematische wijze dan de huidige methoden.
Dit protocol onderstreept het gebruik van OpenProt databases15 bij het ondervragen van MS datasets; het zal niet het controleren van het ontwerp van het experiment zelf, die grondig is herzien elders20,21,22. In een poging te blijven volledig open-source, is het protocol vrij beschikbaar (Aanvullend materiaal S1–S4). Voor een betere leesbaarheid, zijn alle termen die worden gebruikt in OpenProt, en hierbij in dit protocol omschreven in tabel 1.
Bij het analyseren van gegevens van massaspectrometers, wordt de kwaliteit van het eiwit identificatie gedeeltelijk afhankelijk is op de juistheid van de gebruikte database6,20. Huidige benaderingen traditioneel UniProtKB databases gebruiken, maar deze steun het genoom aantekening model voor een enkele ORF per afschrift en een minimale lengte van 100 codonen (met uitzondering van de eerder bewezen voorbeelden)40. Meerdere studies hebben betrekking op de tekortkomingen van deze databanken met de ontdekking van functionele ORFs van naar verluidt niet-coderende regio’s8,11,12,13. Nu, OpenProt maakt meer uitputtende eiwit identificatie omdat het proteïne sequenties van meerdere transcriptome aantekeningen vestigt. OpenProt haalt NCBI RefSeq (GRCh38.p7) en Ensembl (GRCh38.83) transcriptomes en UniProtKB aantekeningen (UniProtKB-SwissProt, 27-09-2017)40,42,43. Als huidige aantekeningen aanwezig weinig overlappen, geeft OpenProt dus een meer uitputtende weergave van het potentiële proteomic landschap dan wanneer beperkt tot één annotatie15.
Bovendien, zoals OpenProt een polycistronic model dwingt, het staat voor meerdere eiwit aantekeningen per transcript. Omwille van de statistische en computationele houdt OpenProt nog steeds de drempel van een minimale lengte van 30 codonen15. Het voorspelt echter duizenden nieuwe proteïne sequenties, waardoor de uitbreiding van het toepassingsgebied van de mogelijkheden voor eiwit identificatie. Met deze benadering steunt OpenProt proteomic ontdekkingen in een meer systematische wijze.
De kwaliteit van het eiwit identificatie kan ook worden beïnvloed door de parameters die worden gebruikt. Op basis van MS proteomics analyses houden meestal een 1% eiwit FDR. Echter, de gehele OpenProt database bevat ongeveer 6 keer meer items (Figuur 1). Om deze substantiële stijging in de zoekruimte te verklaren, raden we een strengere FDR van 0,001%. Deze parameter is geoptimaliseerd door het gebruik van de benchmark-studies en handmatige evaluatie van willekeurig geselecteerde spectra15. Vals positief zijn nog steeds een mogelijkheid, hoewel, en we moedigen grondige inspectie en validatie van ondersteunend bewijsmateriaal voor een roman eiwit. Een aanbevolen standaard zou de identificatie van een eiwit van twee verschillende MS runs, zoals achtergrondgegevens en valse positieven tussen datasets15 variëren.
De pijpleiding hier verstrekte en gebruikte voor de case-study kan zo graag fit de proefopzet en parameters worden gewijzigd. Wij raden het gebruik van meerdere zoekmachines zoals het verhoogt de gevoeligheid en de gevoeligheid van peptide identificatie32. Bovendien stimuleren we met behulp van de database die is best overeenkomt met de experimentele doel (Figuur 1). Als het gebruik van de hele OpenProt database wordt geleverd met een strenge FDR, kunnen ware identificaties worden verloren. Dus moet de gehele database bestemd zijn voor ontdekking van nieuwe eiwitten, terwijl de klassieke proteomics profiling moet gebruik maken van de kleinere OpenProt databases (zoals OpenProt_2pep gebruikt in de case study hierboven).
OpenProt voorspelt momenteel sequenties die beginnen met een ATG-codon, overwegende dat verscheidene studies vertaling inleiding op andere codonen44,45 blijkt. Wanneer een nieuwe eiwit wordt aangeduid door één of meerdere unieke peptiden, is het mogelijk dat de ware initiatie codon is niet de vermoedelijke ATG. Gebruikers kunnen bekijken voor vertaling bewijs op de OpenProt website. Momenteel meldt OpenProt alleen vertaling gebeurtenissen als zij betrekking hebben op de gehele voorspelde eiwit sequentie (100% overlap)15. Dus, gebrek aan bewijzen van de vertaling zou niet het eiwit is niet vertaald, maar dat de start codon mogelijk niet de vermeende ATG.
Ondanks de huidige beperkingen biedt OpenProt een meer uitputtende weergave van eukaryotische genomen codering potentieel. OpenProt databases bevorderen proteomic ontdekkingen en het begrip van proteomic functies en interacties. Toekomstige ontwikkelingen van de OpenProt database houdt aantekening van andere soorten, vertaling bewijs van niet-ATG start codon en ontwikkeling van een pijpleiding naar de nieuwe eiwitten in het hele genoom en exome sequencing studies omvatten.
The authors have nothing to disclose.
Wij danken Vivian Delcourt voor zijn hulp, discussies en advies op dit werk. X.R. is een lid van het Fonds de Recherche du Québec Santé FRQS-ondersteunde Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Dit onderzoek werd gesteund door een Canada Research Chair in functionele Proteomics en ontdekking van de eiwitten van de roman tot X.R. en CIHR verlenen MOP-137056. Wij danken het team van Calcul Québec en Compute Canada voor hun ondersteuning bij het gebruik van de supercomputer mp2 van de Université de Sherbrooke. Werking van de supercomputer mp2 wordt gefinancierd door het Canada Stichting van innovatie (GEA), le ministère de l’Économie, de la science et de l’innovation du Québec (MESI) en les Fonds de Recherche du Québec – Nature et technologieën (FRQ-NT). De Galaxy-server die werd gebruikt voor sommige proteomics berekeningen wordt gedeeltelijk gefinancierd door Collaborative Research Centrum 992 Medische epigenetica (DFG grant SFB 992/1-2012) en Duitse federale ministerie van onderwijs en onderzoek (goedgekeurd verleent 031 RBC A538A/A538C, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAP (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |