1. Instellen Installeer R, als het nog niet is geïnstalleerd.OPMERKING: PAST is geschreven in R en vereist daarom dat de gebruikers R hebben geïnstalleerd. Op het moment van schrijven vereist het installeren van PAST rechtstreeks vanuit Bioconductor R4.0. Oudere versies van PAST kunnen worden geïnstalleerd vanuit Bioconductor voor R3.6 en PAST kan worden geïnstalleerd vanuit Github voor gebruikers met R3.5. R installatie-instructies kunnen worden gedownload via de volgende link: https://www.r-project.org/. Installeer de nieuwste versie van RStudio Desktop of werk RStudio bij (optioneel).OPMERKING: RStudio is een handige omgeving voor het werken met de R-taal. De installatie ervan wordt aanbevolen, vooral voor degenen die ervoor kiezen om PAST op de opdrachtregel uit te voeren in plaats van via de Shiny GUI-applicatie. RStudio en de installatie-instructies zijn te vinden op de volgende link: https://rstudio.com/products/rstudio/. Installeer PAST van Bioconductor11 door de instructies op Bioconductor te volgen.OPMERKING: Installatie via Bioconductor moet de installatie van de afhankelijkheden van PAST afhandelen. Bovendien kan PAST worden geïnstalleerd vanuit Github12, maar installeren vanuit Github zal niet automatisch afhankelijkheden installeren. Installeer PAST Shiny (optioneel). Download het bestand “app. R” op de pagina Releases van de Github-repository: https://github.com/IGBB/PAST/releases/ en onthoud waar het gedownloade bestand zich bevindt.OPMERKING: PAST kan worden gebruikt door de methoden rechtstreeks met R aan te roepen, maar gebruikers die minder bekend zijn met R kunnen de PAST Shiny-applicatie uitvoeren, die een begeleide gebruikersinterface biedt. PAST Shiny is een R-script dat beschikbaar is in de shiny_app tak van de PAST Github-repository. PAST Shiny zal proberen zijn afhankelijkheden te installeren tijdens de eerste run. Begin de analyse door de toepassing op een van de drie hieronder beschreven manieren te starten. PAST Shiny met RStudio Maak met RStudio een nieuw project in de map waarin de app zich bevindt. R bevindt zich. Klik op Bestand | Nieuw Project en selecteer die map. Zodra een nieuw project is gemaakt, opent u de app. R-bestand eerder gedownload. RStudio herkent die app. R is een Shiny-app en maakt een Knop App uitvoeren op de balk boven de weergegeven broncode. Klik op App uitvoeren. RStudio start dan een venster waarin de toepassing PAST Shiny wordt weergegeven. PAST Shiny met R Console Start R en voer de volgende code uit om de PAST Shiny-applicatie te starten: shiny::runApp(‘path/to/folder/with/shiny/app. R’. Vervang de tekst tussen aanhalingstekens door de map naar welke app. R is gedownload en bewaar de citaten. VERLEDEN zonder R Shiny Voer library(PAST) uit in een R-console om PAST te laden. 2. Pas shiny analyse aan (optioneel) Wijzig de titel van de analyse van “Nieuwe analyse” in iets dat beter het type analyse weergeeft dat wordt uitgevoerd, wat helpt om meerdere analyses bij te houden (zie figuur 1). Figuur 1. Klik hier om een grotere versie van deze figuur te bekijken. Wijzig het aantal kernen en de modus. Stel het aantal kernen in op een willekeurig getal tussen 1 en het totale aantal op de machine, maar houd er rekening mee dat het besteden van meer bronnen aan PAST andere bewerkingen op de machine kan vertragen. Stel de modus in op basis van de beschrijving in sectie 6. 3. Laad GWAS-gegevens OPMERKING: Controleer of de GWAS-gegevens door tabs zijn gescheiden. Zorg ervoor dat het associatiebestand de volgende kolommen bevat: eigenschap, markernaam, locus of chromosoom, positie op het chromosoom, p-waarde en R2-waarde voor de marker. Zorg ervoor dat het effectenbestand de volgende kolommen bevat: eigenschap, markernaam, locus of chromosoom, positie op het chromosoom en effect. De volgorde van deze kolommen is niet belangrijk, omdat de gebruiker de namen van de kolommen kan opgeven bij het laden van de gegevens. Eventuele extra kolommen worden genegeerd. TASSEL13 kan worden gebruikt om deze bestanden te produceren. Laad GWAS-gegevens met PAST Shiny. Selecteer een koppelingsbestand en een effectbestand met behulp van de selectievakken Associatiebestand en Effectbestand. Wijzig de kolomnamen in de invoervakken Naam van koppelingskolom en Naam van effectkolommen onder de bestandsselectievakken om de kolomnamen in de gegevens weer te geven. Figuur 2. Klik hier om een grotere versie van deze figuur te bekijken. Laad GWAS-gegevens met PAST in de R-console. Wijzig en voer de volgende code uit:gwas_data = load_GWAS_data(“path/to/association_file.tsv”, “path/to/effects_file.tsv”, association_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “p”, “marker_R2”), effects_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “Effect”) OPMERKING: Wijzig de paden naar de werkelijke locatie van de GWAS-bestanden. De waarden voor association_columns en effects_columns zijn de standaardwaarden. Als de namen niet overeenkomen met de standaardwaarden, geeft u de kolomnamen op. Anders kunnen deze worden weggelaten. 4. Load linkage disequilibrium (LD) gegevens OPMERKING: Controleer of de linkage disequilibrium (LD)-gegevens door tabs zijn gescheiden en de volgende typen gegevens bevatten: Locus, Position1, Site1, Position2, Site2, Distance in base pairs between Position1 and Position2, en R2 value. Laad LD-gegevens met PAST Shiny. Selecteer het bestand met LD-gegevens. Wijzig indien nodig de kolomnamen in de invoervakken LD-kolomnamen onder het bestandsselectievak om overeen te komen met de kolomnamen in de LD-gegevens. Figuur 3. Klik hier om een grotere versie van deze figuur te bekijken. Laad LD-gegevens met PAST in de R-console. Wijzig en voer de volgende code uit om LD-gegevens te laden:LD = load_LD(“path/to/LD.tsv”, LD_columns = c(“Locus1”, “Position1”, “Site1”, “Position2”, “Site2”, “Dist_bp”, “R.2”)OPMERKING: Wijzig het pad naar de werkelijke locatie van het LD-bestand. De waarden voor LD_columns zijn de standaardwaarden. Als de namen niet overeenkomen met deze standaardwaarden, geeft u de juiste namen van de kolommen op. anders kunnen deze worden weggelaten. 5. Wijs SNP’s toe aan genen OPMERKING: Download annotaties in GFF-indeling of zoek ze anderszins. Deze annotaties zijn vaak te vinden in online databases voor specifieke organismen. Wees voorzichtig met annotaties van lage kwaliteit, omdat de kwaliteit van de annotatiesgegevens van invloed is op de kwaliteit van de pathway-analyse. Controleer of de eerste kolom van deze annotaties (het chromosoom) overeenkomt met het formaat van de locus/chromosoom in de associatie-, effecten- en LD-gegevens. De annotaties mogen bijvoorbeeld het eerste chromosoom niet “chr1” noemen als de GWAS- en LD-gegevensbestanden het eerste chromosoom “1” noemen. Wijs SNP’s toe aan genen met PAST Shiny.OPMERKING: Meer informatie over het bepalen van een geschikte R2-cutoff is te vinden in Tang et al.6, in de sectie genaamd “SNP naar genalgoritme voor de pathway-analyse”. Selecteer het bestand met SFF-annotaties. Overweeg welke venstergrootte en R 2-afsnijding het meest geschikt zijn voor de soort die wordt overwogen en wijzig deze als de standaardinstellingen niet geschikt zijn voor de geüploade gegevens.OPMERKING: Standaardwaarden in het VERLEDEN weerspiegelen voornamelijk waarden die geschikt zijn voor maïs. Het aantal kernen dat aan het begin van de PAST Shiny-analyse (stap 2.2) is ingesteld, wordt in deze stap gebruikt. Figuur 4. Klik hier om een grotere versie van deze figuur te bekijken. Wijs SNP’s toe aan genen met PAST in de R Console. Wijzig en voer de volgende code uit om SNP’s aan genen toe te wijzen:genen = assign_SNPs_to_genes(gwas_data, LD, “path/to/annotations.gff”, c(“gen”), 1000, 0.8, 2)OPMERKING: In deze voorbeeldcode worden verschillende standaardsuggesties gegeven: 1000 is de grootte van het venster rond de SNP om naar genen te zoeken; 0,8 de onderwaarde voor R2is; 2 is het aantal kernen dat wordt gebruikt voor parallelle verwerking. Het pad naar de annotaties moet ook worden gewijzigd in de werkelijke locatie van het annotatiesbestand. 6. Ontdek belangrijke paden OPMERKING: Controleer of het pathways-bestand de volgende gegevens bevat in door tabs gescheiden indeling, met één regel voor elk gen in elk pathway: Pathway ID – een id zoals “PWY-6475-1”; routebeschrijving – een langere beschrijving van wat de routes doen, zoals “trans-lycopeen biosynthese”; gen – een gen in de route, dat moet overeenkomen met de namen in de annotaties. Route-informatie is waarschijnlijk te vinden in online databases voor specifieke organismen, zoals MaizeGDB. De tweede door de gebruiker opgegeven optie is de modus. “Toenemend” verwijst naar fenotypen die weerspiegelen wanneer een toenemende waarde van de gemeten eigenschap wenselijk is, zoals opbrengst, terwijl “afnemend” verwijst naar een eigenschap waarbij een afname van de gemeten waarden gunstig is, zoals insectenschadeclassificaties. De significantie van pathways wordt getest met behulp van eerder beschreven methoden4,6,14. Ontdek belangrijke paden met PAST Shiny. Selecteer het bestand met pathwaygegevens en zorg ervoor dat de modus is geselecteerd in de analyseopties. Verander indien nodig het aantal genen dat zich in een route moet hebben om het te behouden voor de analyse en het aantal permutaties dat wordt gebruikt om de nulverdeling te creëren om de significantie van het effect te testen. Figuur 5. Klik hier om een grotere versie van deze figuur te bekijken. OPMERKING: Het aantal kernen en de modus die aan het begin van de PAST Shiny-analyse (stap 2.2) is ingesteld, wordt in deze stap gebruikt. Het standaard aantal genen is momenteel ingesteld op 5 genen, dus paden met minder bekende genen zullen worden verwijderd. De gebruiker kan deze waarde verlagen tot 4 of 3, om kortere paden op te nemen, maar dit riskeert vals-positieve resultaten. Het verhogen van deze waarde kan de kracht van de analyse vergroten, maar zal meer paden uit de analyse verwijderen. Het wijzigen van het aantal gebruikte permutaties verhoogt en verlaagt het vermogen van de test. Ontdek belangrijke paden met PAST in de R Console. Wijzig en voer de volgende code uit om belangrijke paden te ontdekken:rugplots_data <- find_pathway_significance(genen, "path/to/pathways.tsv", 5, "toenemend", 1000, 2)OPMERKING: In deze voorbeeldcode worden verschillende voorgestelde standaardwaarden weergegeven. 5 is het minimum aantal genen dat zich in een pathway moet bevindt om de pathway in de analyse te houden, verhogen verwijst naar een toenemend deel van de gemeten eigenschap (het wordt aanbevolen dat de gebruiker zowel toenemend als afnemend uitvoert, ongeacht de eigenschap; gegevensinterpretatie zal echter verschillen voor de twee), 1000 is het aantal keren dat de effecten worden bemonsterd om de nulverdeling te bepalen, en 2 is het aantal kernen dat wordt gebruikt voor parallelle verwerking. Wijzig het pad naar de werkelijke locatie van het padenbestand. 7. Bekijk Rugplots Bekijk Rugplots met PAST Shiny. Zodra alle invoer is geüpload en ingesteld, klikt u op Analyse starten. Er verschijnt een voortgangsbalk die aangeeft welke stap van de analyse voor het laatst is voltooid. Wanneer de analyse is voltooid, schakelt PAST Shiny over naar het tabblad Resultaten. Een tabel met resultaten wordt weergegeven in de linkerkolom (met het label “pathways”) en de Rugplots worden weergegeven in de rechterkolom (met het label “plots”). Gebruik de schuifregelaar om de filterparameters te beheren. Wanneer het filterniveau bevredigend is, klikt u op de knop Resultaten downloaden linksonder om alle afbeeldingen en tabellen afzonderlijk te downloaden naar een ZIP-bestand met de naam van de analysetitel. Dit ZIP-bestand bevat de gefilterde tabel, de ongefilterde tabel en één afbeelding per pad in de gefilterde tabel. Figuur 6. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 7. Klik hier om een grotere versie van deze figuur te bekijken. Bekijk Rugplots met PAST in de R Console Wijzig en voer de volgende code uit om de resultaten op te slaan:plot_pathways(rugplots_data, “pvalue”, 0,02, “increasing”, “output_folder”)OPMERKING: In deze voorbeeldcode worden verschillende voorgestelde standaardwaarden weergegeven. pvalue biedt de gegevens die kunnen worden gebruikt voor het filteren van onbeduidende paden nadat een significantiedrempel door de gebruiker is gekozen; 0.02 is de standaardwaarde die wordt gebruikt bij het filteren en verhogen verwijst naar een toenemend deel van de gemeten eigenschap (het wordt aanbevolen dat de gebruiker zowel verhogend als afnemend uitvoert, ongeacht de eigenschap; de interpretatie van de gegevens zal echter verschillen voor de twee); output_folder is de map waarin de afbeeldingen en tabellen worden geschreven (deze map moet bestaan voordat de functie wordt uitgevoerd). Een tabel met gefilterde resultaten, de ongefilterde resultaten en afzonderlijke afbeeldingen voor elk pad in de gefilterde resultaten worden naar deze map geschreven.