Summary

Analysera multifaktoriella RNA-Seq-experiment med DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress är ett skriptbaserat verktyg implementerat i R för att utföra en RNA-Seq-analys från kvalitetskontroll till samuttryck. DiCoExpress hanterar komplett och obalanserad design upp till 2 biologiska faktorer. Denna videohandledning guidar användaren genom de olika funktionerna i DiCoExpress.

Abstract

Korrekt användning av statistisk modellering i NGS-dataanalys kräver en avancerad expertisnivå. Det har nyligen funnits en växande konsensus om att använda generaliserade linjära modeller för differentialanalys av RNA-Seq-data och fördelen med blandningsmodeller för att utföra samuttrycksanalys. För att erbjuda en hanterad inställning för att använda dessa modelleringsmetoder utvecklade vi DiCoExpress som tillhandahåller en standardiserad R-pipeline för att utföra en RNA-Seq-analys. Utan någon särskild kunskap inom statistik eller R-programmering kan nybörjare utföra en komplett RNA-Seq-analys från kvalitetskontroller till samuttryck genom differentialanalys baserad på kontraster i en generaliserad linjär modell. En anrikningsanalys föreslås både på listorna över differentiellt uttryckta gener och de samuttryckta genklusterna. Denna videohandledning är tänkt som ett steg-för-steg-protokoll för att hjälpa användare att dra full nytta av DiCoExpress och dess potential att stärka den biologiska tolkningen av ett RNA-Seq-experiment.

Introduction

Nästa generations RNA-sekvenseringsteknik (RNA-Seq) är nu guldstandarden för transkriptomanalys1. Sedan teknikens tidiga dagar har de kombinerade ansträngningarna från bioinformatiker och biostatistiker resulterat i utvecklingen av många metoder som hanterar alla väsentliga steg i transkriptomiska analyser, från kartläggning till transkriptkvantifiering2. De flesta av de verktyg som idag finns tillgängliga för biologen är utvecklade inom R-mjukvarumiljön för statistisk beräkning och grafer3, och många paket för biologisk dataanalys finns tillgängliga i Bioconductor-förvaret4. Dessa paket erbjuder total kontroll och anpassning av analysen, men de kostar omfattande användning av ett kommandoradsgränssnitt. Eftersom många biologer är mer bekväma med en “peka och klicka” -metod5, kräver demokratiseringen av RNA-Seq-analyser utveckling av mer användarvänliga gränssnitt eller protokoll6. Det är till exempel möjligt att bygga webbgränssnitt för R-paket med Shiny7, och kommandoradsdataanalys görs mer intuitiv med R-studio 8-gränssnittet. Utvecklingen av dedikerade, steg-för-steg-handledning kan också hjälpa den nya användaren. I synnerhet kompletterar en videohandledning en klassisk text, vilket leder till en djupare förståelse för alla procedursteg.

Vi har nyligen utvecklat DiCoExpress9, ett verktyg för att analysera multifaktoriella RNA-Seq-experiment i R med metoder som anses vara de bästa baserade på neutrala jämförelsestudier10,11,12. Med utgångspunkt från en räkningstabell föreslår DiCoExpress ett datakvalitetskontrollsteg följt av en differentiell genuttrycksanalys (edgeR-paket13) med hjälp av en generaliserad linjär modell (GLM) och generering av samuttryckskluster med gaussiska blandningsmodeller (coseq-paket12). DiCoExpress hanterar komplett och obalanserad design upp till 2 biologiska faktorer (dvs. genotyp och behandling) och en teknisk faktor (dvs. replikera). DiCoExpress originalitet ligger i dess katalogarkitektur som lagrar och organiserar data, skript och resultat och i automatiseringen av skrivandet av kontrasterna så att användaren kan undersöka många frågor inom samma statistiska modell. Man försökte också tillhandahålla grafiska resultat som illustrerar de statistiska resultaten.

DiCoExpress-arbetsytan är tillgänglig på https://forgemia.inra.fr/GNet/dicoexpress. Den innehåller fyra kataloger, två pdf och två textfiler. Katalogen Data/ innehåller indatauppsättningarna. För det här protokollet använder vi datauppsättningen “Tutorial”. Katalogen Källor/ innehåller sju R-funktioner som är nödvändiga för att utföra analysen och får inte ändras av användaren. Analysen körs med hjälp av skript som lagras i katalogen Template_scripts/. Den som används i detta protokoll kallas DiCoExpress_Tutorial_JoVE.R och kan enkelt anpassas till alla transkriptomiska projekt. Alla resultat skrivs i katalogen Resultat/ och lagras i en underkatalog med namnet enligt projektet. Den README.md filen innehåller användbar installationsinformation, och eventuella specifika detaljer om metoden och dess användning finns i DiCoExpress_Reference_Manual.pdf filen.

Denna videohandledning guidar användaren genom de olika funktionerna i DiCoExpress i syfte att övervinna den motvilja som biologer känner med hjälp av kommandoradsbaserade verktyg. Vi presenterar här analysen av en artificiell RNA-Seq-dataset som beskriver genuttryck i tre biologiska replikat av fyra genotyper, med eller utan behandling. Vi kommer nu att gå igenom de olika stegen i DiCoExpress-arbetsflödet som illustreras i figur 1. Skriptet som beskrivs i avsnittet Protokoll och indatafiler finns på webbplatsen: https://forgemia.inra.fr/GNet/dicoexpress

Förbereda datafiler
De fyra csv-filerna som lagras i katalogen Data/ ska namnges enligt projektnamnet. I vårt exempel börjar därför alla namn med “Tutorial”, och vi kommer att ställa in Project_Name = “Tutorial” i steg 4 i protokollet. Avgränsaren som används i csv-filerna måste anges i sep-variabeln i steg 4. I vår “tutorial”-datauppsättning är avgränsaren en tabulering. För avancerade användare kan den fullständiga datauppsättningen reduceras till en delmängd genom att tillhandahålla en lista med instruktioner och en ny Project_Name via filtervariabeln. Det här alternativet undviker redundanta kopior av indatafilerna och verifierar FAIR-principerna14.

Bland de fyra csv-filerna är endast COUNTS- och TARGET-filerna obligatoriska. De innehåller råräkningarna för varje gen (här Tutorial_COUNTS.csv) och den experimentella designbeskrivningen (här Tutorial_TARGET.csv). I target.csv-filen beskrivs varje prov (ett prov per rad) med en modalitet för varje biologisk eller teknisk faktor (i kolumnerna). Vi rekommenderar starkt att namnen som valts för metoderna börjar med en bokstav, inte en siffra. Namnet på den sista kolumnen (“Replikera”) kan inte ändras. Slutligen måste exempelnamnen (första kolumnen) matcha namnen i rubrikerna i filen COUNTS.csv (Genotype1_control_rep1 i vårt exempel). Filen Berikning.csv där varje rad innehåller en Gene_ID och en anteckningsterm krävs endast om användaren planerar att köra berikningsanalysen. Om en gen har flera kommentarer måste de skrivas på olika linjer. Filen Annotation.csv är valfri och används för att lägga till en kort beskrivning av varje gen i utdatafilerna. Det bästa sättet att få en anteckningsfil är att hämta informationen från dedikerade databaser (t.ex. Thalemine: https://bar.utoronto.ca/thalemine/begin.do för Arabidopsis).

Installation av DiCoExpress
DiCoExpress kräver specifika R-paket. Använd kommandoradskällan(“.. /Sources/Install_Packages.R”) i R-konsolen för att kontrollera den nödvändiga paketinstallationsstatusen. För användare på Linux är en annan lösning att installera behållaren dedikerad till DiCoExpress och tillgänglig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definition innehåller den här containern DiCoExpress med alla delar som behövs, till exempel bibliotek och andra beroenden.

Protocol

1. DiCoExpress Öppna en R Studio-session och ange katalogen till Template_scripts. Öppna DiCoExpress_Tutorial.R-skriptet i R studio. Ladda DiCoExpress-funktioner i R-sessionen med följande kommandon:> källa(“.. /Källor/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Data”> Results_Directory = “.. /Resultat/” Läs in datafiler i R-sessionen med följande kommandon:> Project_Name = “Handledning”> filter = NULL> sep=”\t”> Data_Files = L…

Representative Results

Alla DiCoExpress-utgångar sparas i Tutorial / katalogen, som själv placeras i Resultat / katalogen. Vi ger här lite vägledning för att bedöma analysens övergripande kvalitet. KvalitetskontrollKvalitetskontrollutgången, som finns i Quality_Control / -katalogen, är avgörande för att verifiera att RNA-Seq-analysresultaten är tillförlitliga. Den Data_Quality_Control.pdf filen innehåller flera diagram som erhållits med råa och normaliserade data som kan använda…

Discussion

Eftersom RNA-Seq har blivit en allestädes närvarande metod i biologiska studier finns det ett ständigt behov av att utveckla mångsidiga och användarvänliga analysverktyg. Ett kritiskt steg inom de flesta analytiska arbetsflöden är ofta att med säkerhet identifiera de gener som uttrycks olika mellan biologiska tillstånd och/eller behandlingar15. Produktionen av tillförlitliga resultat kräver korrekt statistisk modellering, vilket har varit motivationen för utvecklingen av DiCoExpress.<…

Declarações

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes huvudsakligen av ANR PSYCHE (ANR-16-CE20-0009). Författarna tackar F. Desprez för byggandet av behållaren i DiCoExpress. KB-arbetet stöds av programmet Investment for the Future ANR-10-BTBR-01-01 Amaizing. GQE- och IPS2-laboratorierna får stöd från Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Referências

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Citar este artigo
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video