OpenProt er en fritt tilgjengelig database som gjennomfører en polycistronic modell av eukaryote genomer. Her presenterer vi en protokoll for bruk av OpenProt databaser når avhør massespektrometri datasett. Med OpenProt gir database for analyse proteomic eksperimenter romanen og tidligere undetectable proteiner.
Genomet merknad er sentralt i dagens proteomic forskning som det trekker konturene av det proteomic landskapet. Tradisjonelle modeller av åpne lesing ramme (ORF) merknad innføre to vilkårlig kriterier: Minimumslengden på 100 kodon og en enkelt ORF per utskrift. Imidlertid stadig flere studier rapporterer uttrykk for proteiner fra angivelig ikke-koding regioner, utfordrende nøyaktigheten av gjeldende genomet merknader. Disse romanen proteiner fant kodet enten i ikke-koding RNAs 5′ og 3 uoversatt regioner (UTRs) mRNAs eller overlappende en kjent koding sekvens (CDS) i en alternativ ORF. OpenProt er den første databasen som gjennomfører en polycistronic modell for eukaryote genomer, slik at merknad av flere ORFs per utskrift. OpenProt er fritt tilgjengelig, og tilbyr tilpassede nedlastinger av protein sekvenser over 10 arter. Bruke OpenProt for proteomic eksperimenter kan romanen proteiner oppdagelsen og fremhever polycistronic natur eukaryote gener. Størrelsen på OpenProt databasen (alle spådd proteiner) er betydelig og må tas i kontoen for analyse. Men med riktig false oppdagelsen (FDR) innstillinger eller bruk av en begrenset OpenProt database få brukere et mer realistisk syn på proteomic landskapet. Samlet er OpenProt et fritt tilgjengelig verktøy som vil fremme proteomic funn.
De siste tiårene blitt massespektrometri (MS-) basert Proteomikk golden teknikken å dechiffrere proteomes eukaryote celler,1,,2,,3,,4,,5. Denne metoden er avhengig av gjeldende genomet merknader til å generere en referanse protein sekvens database som beskriver omfanget av muligheter6,7,8. Men holde genomet merknader vilkårlig kriterier for ORF merknaden, som Minimumslengden på 100 kodon og en enkelt ORF per utskrift9,10. Et økende antall studier utfordre gjeldende merknad modell og rapportere funn av unannotated funksjonelle ORFs i eukaryote genomer8,11,12,13, 14. Disse romanen proteiner finnes kodet i angivelig ikke-koding RNAs, i 5′ eller 3 uoversatt regioner (UTR) mRNAs eller overlappende kanoniske koding sekvensen (cCDS) i en alternativ ramme. Selv om de fleste av disse funnene har vært serendipitous, viser de begrensninger av gjeldende genomet merknader og polycistronic natur eukaryote gener8.
Her markere vi bruk av OpenProt databaser for baserte Proteomikk. OpenProt er den første databasen å holde en polycistronic merknad modell for eukaryote transcriptomes. Det er fritt tilgjengelig på www.openprot.org15. En andel av disse spådd ORFs ville være tilfeldig og ikke-fungerende, hvilke er hvorfor OpenProt cumulates eksperimentelle og funksjonelle bevis å øke tilliten. Eksperimentelle bevis inkluderer protein uttrykk (av MULTIPLE Sclerosis) og oversettelse bevis (ved ribosom profilering)15. Funksjonell bevis inkluderer protein orthology (med en i-Paranoid som tilnærming) og funksjonelle domene prediksjon15.
OpenProt tilbyr muligheten til å laste ned flere databaser, fra inneholder bare godt støttet proteiner til skreddersydd databaser. Her presenterer vi en rørledning for bruk av OpenProt databaser og tilbyr innsikt i hvilken database å velge vurderer eksperimentelle målet. Proteomikk analyse rørledningen presenteres her støttes av galaksen som det er fritt og lett-å-bruke, men databasene kan arbeide med en arbeidsflyt16,17,18. Vi vil også presentere hvordan du bruker webområdet OpenProt samle ytterligere informasjon om romanen proteiner oppdaget av MS. Using OpenProt databaser vil gi en mer detaljert visning av proteomic landskapet og vil fremme Proteomikk og biomarkers funn i en mer systematisk måte enn nåværende metoder.
Denne protokollen fremhever bruken av OpenProt databaser15 når avhør MS datasett; det vil ikke vurdere utformingen av forsøket selv, som er grundig vurdert andre steder20,21,22. I et forsøk på å være fullt åpen kildekode, er protokollen fritt tilgjengelig (Supplerende materiale S1–S4). For enklere lesing, er alle begrepene i OpenProt og herved gjennom denne protokollen definert i tabell 1.
Når du analyserer data fra masse spektrometre, avhengig kvaliteten på protein identifikasjon delvis nøyaktigheten av brukte database6,20. Gjeldende tilnærminger bruke tradisjonelt UniProtKB databaser, men disse støtter genomet merknad modell av en enkelt ORF per utskrift og Minimumslengden på 100 kodon (med unntak av tidligere viste eksempler)40. Flere undersøkelser relatert svakhetene i slike databaser med oppdagelsen av funksjonelle ORFs fra angivelig ikke-koding regioner8,11,12,13. OpenProt kan nå, for mer utfyllende protein identifikasjon som det trekker protein sekvenser fra flere transcriptome merknader. OpenProt henter NCBI RefSeq (GRCh38.p7) og Ensembl (GRCh38.83) transcriptomes og UniProtKB merknader (UniProtKB-SwissProt, 2017-09-27)40,42,43. Som gjeldende merknader presenterer lite overlapp, viser OpenProt dermed en mer detaljert visning av potensielle proteomic landskapet enn når begrenset til en merknad15.
Videre som OpenProt fremtvinger en polycistronic modell, tillater for flere protein merknader per utskrift. Statistisk og beregningsorientert årsaker innehar OpenProt fortsatt en minimumslengde terskel 30 kodon15. Likevel, det spår tusenvis av roman protein sekvenser, og dermed utvide omfanget av muligheter for protein identifikasjon. Med denne støtter OpenProt proteomic funn på en mer systematisk måte.
Kvaliteten på protein identifikasjon kan også påvirkes av parameterne som brukes. Baserte Proteomikk analyser vanligvis holder en 1% protein FDR. Hele OpenProt databasen inneholder imidlertid ca 6 ganger flere oppføringer (figur 1). Kontoen for denne betydelige økningen i søke plass, anbefaler vi en strengere FDR 0,001%. Denne parameteren var optimalisert benchmark studier og manuell vurdering av tilfeldig valgte spectra15. False positiv er fortsatt en mulighet, skjønt, og vi oppfordrer grundig inspeksjon og validering av støtte bevis for en roman protein. En anbefalt standard kunne identifikasjon av et protein fra to forskjellige MS kjører, bakgrunnsdata og falske positiver variere mellom datasett15.
Rørledningen her og brukt i undersøkelsen kan endres så glad for å passe på eksperimentell design og parametere. Vi vil anbefale å bruke flere søkemotorer øker følsomhet og følsomhet peptid identifikasjon32. Videre oppfordrer vi bruker databasen svarer best til eksperimentelle målet (figur 1). Som bruker hele OpenProt databasen kommer med en strenge FDR, gå sant identifikasjoner tapt. Dermed bør hele databasen være ment for oppdagelse av romanen proteiner, mens klassiske Proteomikk profilering skal bruke mindre OpenProt databasene (som OpenProt_2pep brukt i undersøkelsen ovenfor).
OpenProt spår foreløpig sekvenser med en ATG codon, mens flere studier uthevet oversettelse innvielsen andre kodon44,45. Når en roman protein er identifisert av en eller flere unike peptider, er det mulig sant innvielsen codon ikke er den antatte ATG. Brukere kan se etter oversettelse bevis på OpenProt nettsted. Foreløpig rapporterer OpenProt bare oversettelse hendelser hvis de gjelder hele spådd protein sekvens (100% overlapp)15. Dermed ville fravær av oversettelse bevis ikke at protein ikke er oversatt, men at start codon ikke kan være den påståtte ATG.
Til tross for sin nåværende begrensninger tilbyr OpenProt en mer detaljert visning av eukaryote genomer koding potensial. OpenProt databaser fremme proteomic funn og forståelse av proteomic funksjoner og interaksjoner. Fremtidig utvikling av OpenProt databasen vil omfatte merknad av andre arter, oversettelse bevis fra ikke-ATG codon og utviklingen av en rørledning med romanen proteiner i hele genomet og exome sekvensering studier.
The authors have nothing to disclose.
Vi takker Vivian Delcourt for hans hjelp, diskusjoner og råd om dette arbeidet. X.R. er medlem av den Fonds de Recherche du Québec Santé FRQS-støttet Centre de Recherche du sentrum Hospitalier Universitaire de Sherbrooke. Denne forskningen ble støttet av en Canada forskning stol i funksjonelle Proteomikk og oppdagelsen av romanen proteiner til X.R. og CIHR gi MOPP-137056. Vi takker teamet på Calcul Québec og beregne Canada for deres støtte med bruk av superdatamaskinen mp2 fra Université de Sherbrooke. Drift av mp2 superdatamaskinen er finansiert av den Canada Foundation av innovasjon (CFI), le ministère de l’Économie, de la vitenskap et de l’innovation du Québec (MESI) og les Fonds de Recherche du Québec – natur et teknologier (FRQ-NT). Galaxy serveren som ble brukt for noen Proteomikk beregninger er delvis finansiert av samarbeidende Research Centre 992 medisinsk Epigenetics (DFG grant SFB 992/1 2012) og tysk Federal Utdannings- og forskning (BMBF gir 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAPP (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |