Summary

En Pathway Association Study Tool for GWAS analyser af metaboliske Pathway Information

Published: July 01, 2020
doi:

Summary

Ved at køre Pathway Association Study Tool (PAST), enten gennem Shiny ansøgning eller gennem R-konsollen, kan forskerne få en dybere forståelse af den biologiske betydning af deres genom-dækkende forening undersøgelse (GWAS) resultater ved at undersøge de metaboliske veje involveret.

Abstract

For nylig er der udviklet og frigivet en ny implementering af en tidligere beskrevet metode til fortolkning af genomdækkende foreningsundersøgelsesdata (GWAS) ved hjælp af metabolisk vejanalyse. Pathway Association Study Tool (PAST) blev udviklet for at løse problemer med brugervenlighed og langsomme analyser. Dette nye brugervenlige værktøj er blevet udgivet på Bioconductor og Github. I test kørte PAST analyser på mindre end en time, der tidligere krævede 24 eller flere timer. I denne artikel præsenterer vi protokollen for at bruge enten Shiny-applikationen eller R-konsollen til at køre FORBI.

Introduction

Genom-dækkende foreningsstudier (GWAS) er en populær metode til at studere komplekse træk og de genomiske regioner, der er forbundet med dem1,2,3. I denne type undersøgelse testes hundredtusindvis af enkelt nukleotidpolymorfi (SNP) markører for deres tilknytning til træk, og betydningen af foreningerne vurderes. Marker-træk foreninger, der opfylder den falske opdagelse sats (FDR) tærskel (eller en anden type betydning tærskel) bevares for undersøgelsen, men sande foreninger kan filtreres fra. For komplekse, polygene træk kan effekten af hvert gen være lille (og dermed filtreret ud), og nogle alleler udtrykkes kun i specifikke forhold, der måske ikke er til stede i undersøgelsen3. Således, mens mange SNPs kan bevares som forbundet med træk, hver kan have en meget lille effekt. Alt for mange SNP opkald vil mangle, og en fortolkning af den biologiske betydning og genetiske arkitektur af træk kan være ufuldstændig og forvirrende. Metabolisk vejanalyse kan bidrage til at løse nogle af disse problemer ved at fokusere på de kombinerede virkninger af gener grupperet i henhold til deres biologiske funktion4,5,6.

Flere undersøgelser blev afsluttet ved hjælp af en tidligere implementering af den metode, der er beskrevet i denne artikel. Aflatoksinakkumulering7, majsørmmodstand8og oliebiosyntese9 blev alle undersøgt med den tidligere implementering. Mens disse analyser var vellykkede, var analyseprocessen kompliceret, tidskrævende og besværlig, fordi analyseværktøjerne blev skrevet i en kombination af R, Perl og Bash, og rørledningen ikke blev automatiseret. På grund af den specialiserede viden, der kræves for at ændre denne metode til hver analyse, er der nu udviklet en ny metode, der kan deles med andre forskere.

Pathway Association Study Tool (PAST)10 var designet til at afhjælpe manglerne ved den tidligere metode ved at kræve mindre kendskab til programmeringssprog og ved at køre analyser på kortere tid. Mens metoden blev testet med majs, gør PAST ingen artsspecifikke antagelser. PAST kan køres gennem R-konsollen, som en Shiny app, og en online version forventes snart at være tilgængelig på MaizeGDB.

Protocol

1. Opsætning Installer R, hvis den ikke allerede er installeret.BEMÆRK: PAST er skrevet i R og kræver derfor, at brugerne har R installeret. I skrivende stund kræver installation af PAST direkte fra Bioconductor R4.0.  Ældre versioner af PAST kan installeres fra Bioconductor til R3.6, og PAST kan installeres fra Github til brugere med R3.5. R installationsvejledning kan hentes fra følgende link: https://www.r-project.org/. Installer den nyeste version af RStudio Desktop eller opdater RStudio (valgfrit).BEMÆRK: RStudio er et nyttigt miljø for at arbejde med R-sproget. Dens installation anbefales, især for dem, der vælger at køre forbi i kommandolinjen i stedet for gennem Shiny GUI-applikationen. RStudio og dens installationsvejledning kan findes på følgende link: https://rstudio.com/products/rstudio/. Installer PAST fra Bioconductor11 ved at følge instruktionerne på Bioconductor.BEMÆRK: Installation gennem Bioconductor skal håndtere installationen af PAST’s afhængigheder. Derudover kan PAST installeres fra Github12, men installation fra Github installerer ikke afhængigheder automatisk. Installer PAST Shiny (valgfrit). Download filen “app. R” fra siden Udgivelser i Github-lageret: https://github.com/IGBB/PAST/releases/, og husk, hvor den downloadede fil er placeret.BEMÆRK: PAST kan bruges ved at ringe til sine metoder direkte med R, men brugere, der er mindre fortrolige med R, kan køre PAST Shiny-applikationen, som giver en guidet brugergrænseflade. PAST Shiny er et R-script, der er tilgængeligt i shiny_app gren af PAST Github-lageret. PAST Shiny vil forsøge at installere sine afhængigheder under den første kørsel. Begynd analysen ved at starte ansøgningen på en af de tre måder, der er beskrevet nedenfor. PAST Skinnende med RStudio Opret et nyt projekt i den mappe, hvor appen skal findes, ved hjælp af RStudio. R er placeret. Klik på Filer | Nyt projekt, og vælg den pågældende mappe. Når et nyt projekt er oprettet, skal du åbne appen. R-fil, der er hentet tidligere. RStudio genkender den app. R er en skinnende app og opretter en knappen Kør app på linjen over den viste kildekode. Klik på Kør app. RStudio vil derefter starte et vindue, der viser PAST Shiny ansøgning. PAST Shiny med R Console Start R, og kør følgende kode for at starte PAST Shiny-programmet: skinnende::runApp(‘sti/til/mappe/med/skinnende/app. R’. Erstat teksten i anførselstegn med den mappe, som appen til. R blev downloadet, og holde citater. PAST uden R Shiny Kør biblioteket (PAST) i en R-konsol for at indlæse PAST. 2. Tilpas skinnende analyse (valgfrit) Skift analysetitlen fra “Ny analyse” til noget, der bedre afspejler den type analyse, der køres, hvilket hjælper med at holde styr på flere analyser (se figur 1). Figur 1. Klik her for at se en større version af dette tal. Rediger antallet af kerner og tilstanden. Indstil antallet af kerner til et vilkårligt antal mellem 1 og det samlede antal på maskinen, men vær opmærksom på, at det kan bremse andre operationer på maskinen at afsætte flere ressourcer til PAST. Angiv tilstanden baseret på beskrivelsen i afsnit 6. 3. Indlæs GWAS-data BEMÆRK: Kontroller, at GWAS-dataene er afgrænset. Kontroller, at tilknytningsfilen indeholder følgende kolonner: træk, markørnavn, locus eller kromosom, placering på kromosomet, p-værdien og R2-værdien for markøren. Sørg for, at effektfilen indeholder følgende kolonner: træk, markørnavn, locus eller kromosom, position på kromosomet og effekt. Rækkefølgen af disse kolonner er ikke vigtig, da brugeren kan angive navnene på kolonnerne ved indlæsning af dataene. Eventuelle yderligere kolonner ignoreres. KVAST13 kan bruges til at producere disse filer. Indlæs GWAS-data med PAST Shiny. Vælg en tilknytningsfil og en effektfil ved hjælp af felterne Tilknytningsfil og effekter. Rediger kolonnenavnene i inputfelterne Navn på tilknytningskolonnenavn og Effekter Under filmarkeringsboksene, så de afspejler kolonnenavnene i dataene. Figur 2. Klik her for at se en større version af dette tal. Indlæs GWAS-data med PAST i R-konsollen. Rediger og kør følgende kode:gwas_data = load_GWAS_data(“sti/til/association_file.tsv”, “sti/til/effects_file.tsv”, association_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “p”, “marker_R2”), effects_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “Effect”) BEMÆRK: Skift stierne til den faktiske placering af GWAS-filerne. De værdier, der er angivet for association_columns og effects_columns, er standardværdierne. Hvis navnene ikke svarer til standardværdierne, skal du angive kolonnenavnene. Ellers kan disse udelades. 4. Load linkage disequilibrium (LD) data BEMÆRK: Kontroller, at ld-dataene (linkage disequilibrium) er afgrænset afgrænset og indeholder følgende typer data: Locus, Position1, Site1, Position2, Site2, Afstand i basispar mellem Position1 og Position2 og R2-værdi. Indlæs LD-data med PAST Shiny. Vælg den fil, der indeholder LD-data. Rediger kolonnenavnene i inputfelterne LD-kolonnenavne under filmarkeringsboksen, så de om nødvendigt svarer til kolonnenavnene i LD-dataene. Figur 3. Klik her for at se en større version af dette tal. Indlæs LD-data med PAST i R-konsollen. Rediger og kør følgende kode for at indlæse LD-data:LD = load_LD(“sti/til/LD.tsv”, LD_columns = c(“Locus1”, “Position1”, “Site1”, “Position2”, “Site2”, “Dist_bp”, “R.2”)BEMÆRK: Skift stien til ld-filens faktiske placering. De værdier, der er angivet for LD_columns, er standardværdierne. Hvis navnene ikke svarer til disse standarder, skal du angive de korrekte navne på kolonnerne. Ellers kan disse udelades. 5. Tildel SNPs til gener BEMÆRK: Hent eller på anden måde finde anmærkninger i GFF-format. Disse anmærkninger kan ofte findes i online databaser for specifikke organismer. Vær forsigtig med anmærkninger af lav kvalitet, da kvaliteten af anmærkningsdataene vil påvirke kvaliteten af vejanalysen. Bekræft, at den første kolonne i disse anmærkninger (kromosomet) svarer til formatet af locus/kromosom i tilknytningen, effekter og LD-data. For eksempel bør anmærkningerne ikke kalde det første kromosom “chr1”, hvis GWAS- og LD-datafilerne kalder det første kromosom “1”. Tildel SNPs til gener med PAST Shiny.BEMÆRK: Mere information om bestemmelse af en passende R2 cutoff kan findes i Tang et al.6, i afsnittet kaldet “SNP til gen algoritme for pathway analyse”. Vælg den fil, der indeholder GFF-anmærkninger. Overvej, hvilken vinduesstørrelse og R2 cutoff der er mest egnede til de arter, der overvejes og ændres, hvis standarderne ikke passer til de uploadede data.BEMÆRK: Standardværdier i PAST afspejler primært værdier, der passer til majs. Antallet af kerner, der er indstillet i begyndelsen af PAST Shiny-analysen (trin 2.2), bruges i dette trin. Figur 4. Klik her for at se en større version af dette tal. Tildel SNPs til gener med PAST i R-konsollen. Rediger og kør følgende kode for at tildele SNPs til gener:gener = assign_SNPs_to_genes(gwas_data, LD, “sti/til/anmærkninger.gff”, c(“gen”), 1000, 0,8, 2)BEMÆRK: I denne eksempelkode leveres flere standardforslag: 1000 er størrelsen af vinduet omkring SNP for at søge efter gener; 0.8 er skæringsværdien for R2; 2 er antallet af kerner, der anvendes til parallel behandling. Stien til anmærkningerne skal også ændres til anmærkningsfilens faktiske placering. 6. Oplev vigtige veje BEMÆRK: Kontroller, at pathwaysfilen indeholder følgende data i tabulatorafgrænset format med én linje for hvert gen i hver vej: pathway ID – en identifikator som “PWY-6475-1”; pathway description – en længere beskrivelse af, hvad stierne gør, såsom “trans-lycopen biosyntese”; gen – et gen i stien, som skal matche de navne, der er angivet i anmærkningerne. Pathway information kan sandsynligvis findes i online databaser for specifikke organismer, såsom MaizeGDB. Den anden brugerdefinerede indstilling er tilstanden. “Stigende” refererer til fænotyper, der afspejler, når en stigende værdi af det målte træk er ønskeligt, såsom udbytte, mens “faldende” refererer til et træk, hvor et fald i de målte værdier er gavnligt, såsom insektskader ratings. Betydningen af veje testes ved hjælp af tidligere beskrevne metoder4,6,14. Oplev betydelige veje med PAST Shiny. Vælg den fil, der indeholder pathways data, og sørg for, at tilstanden er valgt i analyseindstillingerne. Hvis det er nødvendigt, ændre antallet af gener, der skal være i en vej til at bevare det til analysen og antallet af permutationer, der anvendes til at skabe null fordeling for at teste betydningen af effekt. Figur 5. Klik her for at se en større version af dette tal. BEMÆRK: Antallet af kerner og den tilstand, der er indstillet i begyndelsen af PAST Shiny-analysen (trin 2.2), bruges i dette trin. Standardantallet af gener er i øjeblikket sat til 5 gener, så veje med færre kendte gener vil blive fjernet. Brugeren kan sænke denne værdi til 4 eller 3, til at omfatte kortere veje, men at gøre det vil risikere falske positive resultater. At øge denne værdi kan øge analysens effekt, men vil fjerne flere veje fra analysen. Ændring af antallet af anvendte permutationer øger og reducerer testens effekt. Oplev vigtige veje med PAST i R-konsollen. Rediger og kør følgende kode for at finde vigtige veje:rugplots_data <- find_pathway_significance(gener, "vej/til/pathways.tsv", 5, "stigende", 1000, 2)BEMÆRK: I denne eksempelkode leveres flere foreslåede standarder. 5 er det mindste antal gener, der skal være i en vej for at holde vejen i analysen, stigende refererer til en stigende mængde af det målte træk (det anbefales, at brugeren kører både stigende og faldende, uanset træk; datafortolkning vil variere for de to, dog), 1000 er antallet af gange at prøve virkningerne for at bestemme null-fordelingen, og 2 er antallet af kerner, der anvendes til parallel behandling. Rediger stien til den faktiske placering af pathwaysfilen. 7. Se Rugplots Se Rugplots med PAST Shiny. Når alle input er overført og angivet, skal du klikke på Begynd analyse. Der vises en statuslinje, og der vises et trin i analysen, der sidst blev fuldført. Når analysen er fuldført, skifter PAST Shiny til fanen Resultater. En tabel med resultater vises i venstre kolonne (mærket “veje”), og Rugplots vises i højre kolonne (mærket “plots”). Brug skyderen til at styre filtreringsparametrene. Når filtreringsniveauet er tilfredsstillende, skal du klikke på knappen Hent resultater nederst til venstre for at hente alle billeder og tabeller individuelt til en ZIP-fil, der er navngivet med analysetitlen. Denne ZIP-fil indeholder den filtrerede tabel, den ufiltrerede tabel og ét billede pr. sti i den filtrerede tabel. Figur 6. Klik her for at se en større version af dette tal. Figur 7. Klik her for at se en større version af dette tal. Se Rugplots med PAST i R-konsollen Rediger og kør følgende kode for at gemme resultaterne:plot_pathways(rugplots_data, “pvalue”, 0,02, “stigende”, “output_folder”)BEMÆRK: I denne eksempelkode leveres flere foreslåede standarder. pvalue indeholder de data, der kan bruges til filtrering af ubetydelige veje, efter at brugeren har valgt en betydningstærskel 0.02 er den standardværdi, der anvendes til filtrering, og stigende refererer til en stigende mængde af det målte træk (det anbefales, at brugeren kører både stigende og faldende, uanset træk; datafortolkning vil dog variere for de to); output_folder er den mappe, hvor billederne og tabellerne skal skrives (denne mappe skal findes, før funktionen køres). En tabel med filtrerede resultater, de ufiltrerede resultater og individuelle billeder for hver vej i de filtrerede resultater skrives til denne mappe.

Representative Results

Hvis resultaterne ikke produceres efter en kørsel af PAST-softwareværktøjet, skal du kontrollere, at alle inputfiler er formateret korrekt. En vellykket kørsel ved hjælp af eksempeldataene i PAST-pakken, som er baseret på en majs-GWAS af kornfarve, vises i figur 8. Denne tabel og det resulterende billede kan hentes ved hjælp af knappen Hent resultater. Et eksempel på det downloadede billede vises i figur 210. Forkerte indstillinger kan føre til resultater, der ikke giver biologisk mening, men bestemmelse af ukorrekthed skal være op til forskeren, der skal dobbelttjekke gyldigheden af de valgte indstillinger og overveje alle kendte beviser vedrørende karakteren af interesse. Figur 910 viser rugplot produceret fra pathway analyse af GWAS resultater skabt med en majs panel af 288 indavlede linjer, der var blevet fænotyped for korn farve. Dette forenklede eksempel, hvor fænotyperne enten var “hvide” eller “gule”, blev brugt, fordi den vej, der er ansvarlig for at skabe de lyse gule carotenoidepigmenter, er kendt og bør være ansvarlig for det meste af fænotypen. Således forventede vi at se trans-lycopen biosyntese vej (som producerer carotenoider) at være signifikant forbundet med kornfarve, som det er. Pathway ID og navn er angivet øverst i grafen. Den vandrette akse af grafen rangerer alle gener, der var inkluderet i analysen, arrangeret fra venstre mod højre i rækkefølge efter største effekt på træk til mindste. Det er dog kun generne i trans-lycopen biosyntesevejen, der er markeret (øverst på grafen, som lugemærker, der optræder i genets rang af deres virkning sammenlignet med alle andre gener i analysen). Der er 7 gener i denne vej. Den løbende berigelsesscore (ES) afbildes langs den lodrette akse. ES for hvert gen tilsættes i den løbende total i rækkefølge efter effekt, og det samlede tal justeres til antallet af analyserede gener. Således ændres scoren, når man bevæger sig lige langs den vandrette akse og har tendens til at stige, da de større effektgener er inkluderet, men på et tidspunkt er stigningen i effekten mindre end justeringen for at have tilføjet et andet gen, og hele scoren begynder at falde. Toppen af den kørende ES-linje er markeret med en punkteret lodret linje. dette er ES for hele stien og bruges af programmet til at afgøre, om stien er valgt og præsenteret som en rugplot. Figur 8: Afsluttet kørsel af PAST Shiny. Klik her for at se en større version af dette tal. Figur 9: Pathway-billede fra afsluttet kørsel af PAST (eller downloadet fra Shiny). Dette tal er blevet citeret fra Thrash et al.10. Klik her for at se en større version af dette tal.

Discussion

Et primært mål for PAST er at bringe metaboliske pathway analyser af GWAS data til et bredere publikum, især for ikke-menneskelige og ikke-animalske organismer. Alternative metoder til PAST er ofte kommandolinjeprogrammer, der fokuserer på mennesker eller dyr. Brugervenlighed var et primært mål i udviklingen af PAST, både i at vælge at udvikle en Shiny ansøgning og i at vælge at bruge R og Bioconductor til at frigive ansøgningen. Brugere behøver ikke at lære at kompilere programmer for at bruge PAST.

Som med de fleste typer af analysesoftware er resultaterne af PAST kun så gode som inputdataene; Hvis inputdataene har fejl eller er formateret forkert, kan PAST ikke køre eller give uinformative resultater. Det er vigtigt at sikre, at GWAS-data, LD-data, anmærkninger og pathwaysfiler er formateret korrekt for at modtage korrekt output fra PAST. PAST analyserer kun bi-allelic markører og kan kun køre ét træk for hvert sæt inputdata. Desuden vil GWAS-data produceret af dårlig genotyping eller forkert eller upræcis phenotyping sandsynligvis heller ikke give klare eller gentagne resultater. PAST kan støtte i den biologiske fortolkning af GWAS resultater, men er usandsynligt, at afklare kaotiske datasæt, hvis miljøvariation, eksperimentel fejl, eller befolkningsstruktur ikke var korrekt tegnede sig for.

Brugere kan vælge at ændre nogle parametre for analysen, både i Shiny-applikationen og ved at overføre disse parametre til PAST’s funktioner i R-konsollen. Disse parametre kan ændre de resultater, der er rapporteret af PAST, og brugerne skal være forsigtig, når de ændrer disse fra standardindstillingerne. Da LD måles af brugerne, typisk ved hjælp af det samme markørdatasæt, som også blev brugt i GWAS, er LD-målingerne specifikke for populationen. For alle undersøgelser, især for andre arter end majs (især selvbestøvende, polyploid eller meget heterogene arter), kan det være berettiget at ændre misligholdelserne.

Declarações

The authors have nothing to disclose.

Acknowledgements

Ingen.

Materials

Computer NA NA Any computer with 8GB RAM should be sufficient
R R Project NA R 3.6 or greater is required to install from Bioconductor

Referências

  1. Rafalski, J. Association genetics in crop improvement. Current Opinion in Plant Biology. 13 (2), 174-180 (2010).
  2. Yan, J., Warburton, M., Crouch, J. Association Mapping for Enhancing Maize (Zea mays L.) Genetic Improvement. Crop Science. 51 (2), 433-449 (2011).
  3. Xiao, Y., Liu, H., Wu, L., Warburton, M., Yan, J. Genome-wide Association Studies in Maize: Praise and Stargaze. Molecular Plant. 10 (3), 359-374 (2017).
  4. Wang, K., Li, M., Bucan, M. Pathway-Based Approaches for Analysis of Genomewide Association Studies. The American Journal of Human Genetics. 81 (6), 1278-1283 (2007).
  5. Weng, L., et al. SNP-based pathway enrichment analysis for genome-wide association studies. BMC Bioinformatics. 12 (1), 99 (2011).
  6. Tang, J., Perkins, A., Williams, W., Warburton, M. Using genome-wide associations to identify metabolic pathways involved in maize aflatoxin accumulation resistance. BMC Genomics. 16 (1), 673 (2015).
  7. Warburton, M., et al. Genome-Wide Association Mapping of Aspergillus flavus and Aflatoxin Accumulation Resistance in Maize. Crop Science. 55 (5), 1857-1867 (2015).
  8. Warburton, M., et al. Genome-Wide Association and Metabolic Pathway Analysis of Corn Earworm Resistance in Maize. The Plant Genome. 11 (1), 170069 (2018).
  9. Li, H., Thrash, A., Tang, J., He, L., Yan, J., Warburton, M. Leveraging GWAS data to identify metabolic pathways and networks involved in maize lipid biosynthesis. The Plant Journal. 98 (5), 853-863 (2019).
  10. Thrash, A., Tang, J., DeOrnellis, M., Peterson, D., Warburton, M. PAST: The Pathway Association Studies Tool to Infer Biological Meaning from GWAS Datasets. Plants. 9 (1), 58 (2020).
  11. Adam, T., Mason, D. . PAST: Pathway Association Study Tool (PAST). Bioconductor version: Release (3.10). , (2020).
  12. Thrash, A., DeOrnellis, M. . IGBB/PAST. , (2019).
  13. Bradbury, P., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
  14. Subramanian, A., et al. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences U.S.A. 102, 15545-15550 (2005).

Play Video

Citar este artigo
Thrash, A., Warburton, M. L. A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. J. Vis. Exp. (161), e61268, doi:10.3791/61268 (2020).

View Video