Een bioinformatica-pijpleiding, namelijk miRDeep-P2 (kortweg miRDP2), met bijgewerkte plant miRNA-criteria en een gereviseerd algoritme, kan microRNA transcriptomes nauwkeurig en efficiënt analyseren in planten, vooral voor soorten met complexe en grote Genomes.
MicroRNAs (miRNAs) zijn 20-tot 24-nucleotide (NT) endogene kleine Rna’s (Srna’s) uitgebreid bestaande in planten en dieren die krachtige rollen spelen bij het reguleren van genexpressie op het post-transcriptional niveau. Sequentiëren sRNA-bibliotheken door Next generation sequencing (NGS) methoden zijn op grote schaal gebruikt om miRNA transcriptomes in de afgelopen tien jaar te identificeren en te analyseren, wat resulteerde in een snelle toename van miRNA Discovery. Echter, twee grote uitdagingen ontstaan in plant miRNA annotatie als gevolg van toenemende diepte van gesequentieerde sRNA Bibliotheken, evenals de grootte en de complexiteit van plant Genomes. Ten eerste, vele andere soorten Srna’s, in het bijzonder, korte interfererende Rna’s (Sirna’s) van sRNA Bibliotheken, worden foutief geannoeerd als miRNAs door veel computationele tools. Ten tweede wordt het een extreem tijdrovend proces voor het analyseren van miRNA transcriptomes in plantensoorten met grote en complexe Genomes. Om deze uitdagingen het hoofd te bieden, hebben we onlangs miRDeep-P (een populaire tool voor miRNA transcriptome-analyses) geüpgraded naar miRDeep-P2 (kortweg miRDP2) door gebruik te maken van een nieuwe filter strategie, het scorings algoritme te herzien en nieuw bijgewerkte plant miRNA te integreren annotatie criteria. We testten miRDP2 tegen geordend Srna populaties in vijf representatieve planten met toenemende genomische complexiteit, met inbegrip van Arabidopsis, rijst, tomaat, maïs en tarwe. De resultaten geven aan dat miRDP2 deze taken met zeer hoge efficiëntie verwerkt. Daarnaast presteerde miRDP2 beter dan andere Voorspellings hulpmiddelen met betrekking tot gevoeligheid en nauwkeurigheid. Samen met onze resultaten demonstreren we miRDP2 als een snel en nauwkeurig hulpmiddel voor het analyseren van plantaardige miRNA transcriptomes, dus een handig hulpmiddel om de Gemeenschap te helpen om miRNAs in planten beter te annoteren.
Een van de meest opwindende ontdekkingen in de laatste twee decennia in de biologie is de prolifererende rol van sRNA-soorten bij het reguleren van diverse functies van het genoom1. In het bijzonder vormen miRNAs een belangrijke klasse van 20-tot 24-NT srna’s in eukaryoten, en werken voornamelijk op post-transcriptional niveau als prominente genregulators gedurende de ontwikkelingsstadia van de levenscyclus, evenals in stimulus-en stress responsen2,3. In planten ontstaan mirna’s uit primaire transcripten genaamd pri-miRNAs, die over het algemeen worden getranscribeerd door RNA polymerase II als individuele transcriptie eenheden4,5. Verwerkt door evolutionair geagglomereerde cellulaire machines (drosha RNase III in dieren, Dicer-achtige in planten), worden pri-miRNAs in de onmiddellijke Mirna-precursoren, pre-miRNAs, opgenomen die sequenties vormen die intra-moleculaire stamlusconstructies6,7bevatten. Pre-miRNAs worden vervolgens verwerkt tot dubbel gestrande tussen producten, namelijk Mirna duplexen, bestaande uit het functionele strand, mature Mirna, en de minder vaak functionele partner, Mirna *2,8. Nadat ze in het RNA-geïnduceerde geluids dempings complex (RISC) zijn geladen, konden de volwassen miRNAs hun mRNA-doelen herkennen op basis van sequentie complementariteit, wat resulteerde in een negatieve regelgevende functie van2,8. miRNAs kan ofwel hun doel transcripten destabiliseren of doel vertaling voorkomen, maar de vroegere manier wordt gedomineerd in planten8,9.
Sinds de toevallige ontdekking van de eerste Mirna in de nematode Caenorhabditis elegans10,11, is veel onderzoek toegewijd aan de identificatie van Mirna en de functionele analyse ervan, vooral na de beschikbaarheid van ngs-methode. De brede toepassing van de NGS-methode heeft het gebruik van computationele tools die zijn ontworpen om het unieke kenmerk van miRNAs vast te leggen, sterk bevorderd, zoals de structuur van de stamlus van precursoren en hun preferentiële opeenhoping van sequentie leest op volwassen miRNA en miRNA *. Als gevolg daarvan hebben onderzoekers opmerkelijk succes geboekt bij het identificeren van miRNAs in verschillende soorten. Op basis van een eerder beschreven kansmodel12ontwikkelden we mirdeep-P13, de eerste computationele tool voor het ontdekken van installatie miRNAs van ngs data. mirdeep-P was specifiek gericht op het veroveren van de uitdagingen van het decoderen van planten miRNAs met een meer variabele precursor lengte en grote paralogous families13,14,15. Na de release is dit programma duizenden malen gedownload en gebruikt voor het annoteren van miRNA transcriptomes in meer dan 40 plantensoorten16. Aangedreven door NGS-gebaseerde tools zoals miRDeep-P, is er een dramatische toename van het aantal geregistreerde miRNAs in de openbare miRNA-repository miRBase17, waar meer dan 38.000 Mirna-items momenteel worden gehost (Release 22,1) in vergelijking met alleen ~ 500 Mirna-items (Release 2,0) in 200818.
Er zijn echter twee nieuwe uitdagingen ontstaan uit de annotatie van plant miRNA. Eerste, hoge verhoudingen van valse-positieven hebben sterk beïnvloed de kwaliteit van plant Mirna aantekeningen16,19 om de volgende redenen: 1) een stortvloed van endogene korte storende rna’s (sirna’s) van ngs Srna-bibliotheken werd ten onrechte geannoteerd als miRNAs vanwege het ontbreken van een strenge Mirna-annotatie criteria; 2) voor soorten zonder a priori miRNA informatie, valse-positieven voorspeld op basis van NGS-gegevens zijn moeilijk te elimineren. Met behulp van miRBase als voorbeeld vond Taylor et al.20 een derde van de vermeldingen van plant Mirna in de openbare repository21 (Release 21) ontbrak overtuigend ondersteunend bewijs en zelfs drie-vierde van plant Mirna families waren twijfelachtig. Ten tweede wordt het een extreem tijdrovend proces voor het voorspellen van planten miRNAs met grote en complexe genomen16. Om deze uitdagingen te overwinnen, hebben we miRDeep-P bijgewerkt door een nieuwe filter strategie toe te voegen, het scorings algoritme te herzien en nieuwe criteria te integreren voor de installatie van miRNA annotatie, en de nieuwe versie miRDP2 uitgebracht. Daarnaast testten we miRDP2 met behulp van NGS-gegevenssets met geleidelijk toenemende genoom groottes: Arabidopsis, rijst, tomaat, maïs en tarwe. In vergelijking met andere vijf veelgebruikte tools en de oude versie, heeft miRDP2 deze sRNA-gegevens geparseerd en miRNA transcriptomes sneller geanalyseerd met verbeterde nauwkeurigheid en gevoeligheid.
Inhoud van het pakket miRDP2
Het miRDP2-pakket bestaat uit zes gedocumenteerde perl-scripts die opeenvolgend door het voorbereide bash-script moeten worden uitgevoerd. Van de zes scripts worden drie (convert_bowtie_to_blast. pl, filter_alignments. plen excise_candidate. pl) overgenomen van mirdeep-P. De andere scripts worden gewijzigd van de oorspronkelijke versie. Functies van de zes scripts worden beschreven in het volgende:
preprocess_reads. pl filters invoer leest, met inbegrip van leesbewerkingen die te lang of te kort zijn ( 25 NT), en leest gecorreleerd met Rfam ncRNA sequenties, evenals leesbewerkingen met rpm (leesbewerkingen per miljoen) minder dan 5. Het script haalt vervolgens leesbewerkingen op die zijn gecorreleerd met bekende miRNA-volwassen sequenties. De invoerbestanden zijn originele leesbewerkingen in de FASTA/FASTQ-indeling en bowtie2-uitvoer van Lees toewijzing aan de reeksen miRNA en ncRNA.
De formule voor het berekenen van RPM is als volgt:
convert_bowtie_to_blast. pl verandert het bowtie formaat in Blast-geparseerde indeling. BLAST-parsed-indeling is een aangepaste in tabelvorm gescheiden indeling die is afgeleid van het standaard NCBI BLASToutput-formaat.
filter_alignments. pl filtert de overeenstemmingen van diepe sequentiëren naar een genoom. Het filtert gedeeltelijke overeenstemmingen en multi-uitgelijnde leesbewerkingen (door de gebruiker opgegeven frequentie cutoff). De basis invoer is een bestand in BLAST-parsed-indeling.
excise_candidate. pl snijdt potentiële voorloper sequenties uit een referentie reeks met behulp van uitgelijnde leesbewerkingen als richtlijnen. De basis invoer is een bestand in BLAST-parsed-indeling en een FASTA-bestand. De uitvoer is alle potentiële voorloper sequenties in FASTA formaat.
mod-miRDP.pl heeft twee invoerbestanden nodig, signatuurbestand en structuurbestand, die is gewijzigd van de kern mirdeep-P algoritme door het veranderen van het scoresysteem met specifieke parameters van de plant. De invoerbestanden zijn punt-bracket precursor structuurbestand en leest distributie handtekeningbestand.
mod-rm_redundant_meet_plant. pl heeft drie invoerbestanden nodig: chromosome_length, precursoren en original_prediction gegenereerd door mod-miRDP.pl. Het genereert twee uitvoerbestanden, niet-redundante voorspelde bestand en voorspelde bestand gefilterd door onlangs bijgewerkte plant miRNA criteria. Details over de indeling van het uitvoerbestand worden beschreven in paragraaf 1,4.
Met de komst van ngs is een groot aantal Mirna loci geïdentificeerd uit een steeds groter wordende hoeveelheid Srna sequentie gegevens in diverse soorten29,30. In de gecentraliseerde communitydatabase miRBase21zijn de gedeponeerde Mirna-items in de afgelopen tien jaar bijna 100 keer gestegen. Echter, in vergelijking met miRNAs in dieren, plant miRNAs hebben vele unieke kenmerken die de identificatie/aantekening ingewikkelder maken<sup cla…
The authors have nothing to disclose.
Dit werk werd gesteund door de Beijing Academy of land-en bosbouw Wetenschappen (KJCX201917, KJCX20180425 en KJCX20180204) aan XY en National Natural Science Foundation of China (31621001) tot LL.
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |