1. Configurazione Installare R, se non è già installato.NOTA: PAST è scritto in R e, pertanto, richiede che i suoi utenti abbiano installato R. Al momento della stesura di questo documento, l’installazione di PAST direttamente da Bioconductor richiede R4.0. Le versioni precedenti di PAST possono essere installate da Bioconductor per R3.6 e PAST può essere installato da Github per gli utenti con R3.5. Le istruzioni per l’installazione di R possono essere scaricate dal seguente link: https://www.r-project.org/. Installare la versione più recente di RStudio Desktop o aggiornare RStudio (facoltativo).NOTA: RStudio è un ambiente utile per lavorare con il linguaggio R. La sua installazione è consigliata, soprattutto per coloro che scelgono di eseguire PAST nella riga di comando piuttosto che attraverso l’applicazione Shiny GUI. RStudio e le sue istruzioni di installazione sono disponibili al seguente link: https://rstudio.com/products/rstudio/. Installare PAST da Bioconductor11 seguendo le istruzioni su Bioconductor.NOTA: l’installazione tramite Bioconductor dovrebbe gestire l’installazione delle dipendenze di PAST. Inoltre, PAST può essere installato da Github12, ma l’installazione da Github non installerà automaticamente le dipendenze. Installare PAST Shiny (opzionale). Scarica il file “app. R” dalla pagina Rilasci del repository Github: https://github.com/IGBB/PAST/releases/ e ricorda dove si trova il file scaricato.NOTA: PAST può essere utilizzato chiamando i suoi metodi direttamente con R, ma gli utenti che hanno meno familiarità con R possono eseguire l’applicazione PAST Shiny, che fornisce un’interfaccia utente guidata. PAST Shiny è uno script R disponibile nel ramo shiny_app del repository Github PAST. PAST Shiny tenterà di installare le sue dipendenze durante la prima esecuzione. Iniziare l’analisi avviando l’applicazione in uno dei tre modi descritti di seguito. PAST Shiny con RStudio Utilizzando RStudio, crea un nuovo progetto nella cartella in cui si trova l’app. R si trova. Fare clic su File | Nuovo progetto e selezionare la cartella. Una volta creato un nuovo progetto, apri l’app. R scaricato in precedenza. RStudio riconosce l’app. R è un’app Shiny e crea un pulsante Esegui app sulla barra sopra il codice sorgente visualizzato. Fare clic su Esegui app. RStudio avvierà quindi una finestra che visualizza l’applicazione PAST Shiny. PAST Shiny con console R Avvia R ed esegui il seguente codice per avviare l’applicazione PAST Shiny: shiny::runApp(‘path/to/folder/with/shiny/app. R’. Sostituisci il testo tra virgolette con la cartella in cui l’app. R è stato scaricato e conserva le citazioni. PASSATO senza R Shiny Eseguire library(PAST) in una console R per caricare PAST. 2. Personalizza l’analisi Shiny (opzionale) Modificare il titolo dell’analisi da “Nuova analisi” a qualcosa che rifletta meglio il tipo di analisi in esecuzione che aiuta a tenere traccia di più analisi (vedere la Figura 1). Figura 1. Fare clic qui per visualizzare una versione più grande di questa figura. Modificare il numero di core e la modalità. Impostare il numero di core su qualsiasi numero compreso tra 1 e il numero totale sulla macchina, ma tenere presente che dedicare più risorse a PAST può rallentare altre operazioni sulla macchina. Impostare la modalità in base alla descrizione nella sezione 6. 3. Carica i dati GWAS NOTA: verificare che i dati GWAS siano delimitati da tabulazioni. Assicurarsi che il file di associazione contenga le seguenti colonne: tratto, nome del marcatore, locus o cromosoma, posizione sul cromosoma, valore p e valore R2 per il marcatore. Assicurarsi che il file degli effetti contenga le seguenti colonne: tratto, nome del marcatore, locus o cromosoma, posizione sul cromosoma ed effetto. L’ordine di queste colonne non è importante, in quanto l’utente può specificare i nomi delle colonne durante il caricamento dei dati. Eventuali colonne aggiuntive vengono ignorate. TASSEL13 può essere utilizzato per produrre questi file. Carica i dati GWAS con PAST Shiny. Selezionate un file di associazione e un file di effetti utilizzando le caselle di selezione File di associazione e File di effetti. Modificare i nomi delle colonne nelle caselle di input Nome colonna di associazione e Nome colonne effetti sotto le caselle di selezione dei file in modo da riflettere i nomi delle colonne nei dati. Figura 2. Fare clic qui per visualizzare una versione più grande di questa figura. Caricare i dati GWAS con PAST nella console R. Modificare ed eseguire il codice seguente:gwas_data = load_GWAS_data(“path/to/association_file.tsv”, “path/to/effects_file.tsv”, association_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “p”, “marker_R2”), effects_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “Effect”) NOTA: modificare i percorsi della posizione effettiva dei file GWAS. I valori forniti per association_columns e effects_columns sono i valori predefiniti. Se i nomi non corrispondono ai valori predefiniti, specificare i nomi delle colonne. Altrimenti, questi possono essere omessi. 4. Dati di squilibrio del collegamento di carico (LD) NOTA: verificare che i dati di squilibrio di collegamento (LD) siano delimitati da tabulazioni e contengano i seguenti tipi di dati: Locus, Position1, Site1, Position2, Site2, Distance in base pairs between Position1 e Position2 e R2 value. Carica i dati LD con PAST Shiny. Selezionare il file contenente i dati LD. Modificare i nomi delle colonne nelle caselle di input Nomi colonna LD sotto la casella di selezione dei file in modo che corrispondano ai nomi delle colonne nei dati LD, se necessario. Figura 3. Fare clic qui per visualizzare una versione più grande di questa figura. Caricare i dati LD con PAST nella console R. Modificare ed eseguire il codice seguente per caricare i dati LD:LD = load_LD(“path/to/LD.tsv”, LD_columns = c(“Locus1”, “Position1”, “Site1”, “Position2”, “Site2”, “Dist_bp”, “R.2”)NOTA: modificare il percorso del percorso effettivo del file LD. I valori forniti per LD_columns sono i valori predefiniti. Se i nomi non corrispondono a questi valori predefiniti, specificare i nomi corretti delle colonne; in caso contrario, questi possono essere omessi. 5. Assegna SNP ai geni NOTA: scaricare o individuare in altro modo le annotazioni in formato GFF. Queste annotazioni possono spesso essere trovate in database online per organismi specifici. Prestare attenzione alle annotazioni di bassa qualità, poiché la qualità dei dati delle annotazioni influenzerà la qualità dell’analisi del percorso. Verificare che la prima colonna di queste annotazioni (il cromosoma) corrisponda al formato del locus/cromosoma nei dati di associazione, effetti e LD. Ad esempio, le annotazioni non dovrebbero chiamare il primo cromosoma “chr1” se i file di dati GWAS e LD chiamano il primo cromosoma “1”. Assegna SNP ai geni con PAST Shiny.NOTA: Maggiori informazioni sulla determinazione di un cutoff R2 appropriato possono essere trovate in Tang et al.6, nella sezione chiamata “Algoritmo SNP to gene per l’analisi del percorso”. Selezionare il file contenente le annotazioni GFF. Considera quali dimensioni della finestra e il cutoff R2 sono più adatti per la specie considerata e modifica se i valori predefiniti non si adattano ai dati caricati.NOTA: i valori predefiniti in PAST riflettono principalmente i valori appropriati per il mais. In questo passaggio viene utilizzato il numero di core impostato all’inizio dell’analisi PAST Shiny (Passaggio 2.2). Figura 4. Fare clic qui per visualizzare una versione più grande di questa figura. Assegna SNP ai geni con PAST nella console R. Modificare ed eseguire il codice seguente per assegnare SNP ai geni:genes = assign_SNPs_to_genes(gwas_data, LD, “path/to/annotations.gff”, c(“gene”), 1000, 0.8, 2)NOTA: in questo codice di esempio vengono forniti diversi suggerimenti predefiniti: 1000 è la dimensione della finestra intorno all’SNP per la ricerca dei geni; 0,8 è il valore limite per R2; 2 è il numero di core utilizzati per l’elaborazione parallela. Anche il percorso delle annotazioni deve essere modificato nella posizione effettiva del file delle annotazioni. 6. Scopri percorsi significativi NOTA: verificare che il file pathways contenga i seguenti dati in formato delimitato da tabulazioni, con una riga per ogni gene in ogni pathway: pathway ID – un identificatore come “PWY-6475-1”; descrizione del percorso – una descrizione più lunga di ciò che i percorsi fanno come la “biosintesi trans-licopene”; gene – un gene nel percorso, che dovrebbe corrispondere ai nomi forniti nelle annotazioni. Le informazioni sul percorso possono probabilmente essere trovate in database online per organismi specifici, come MaizeGDB. La seconda opzione specificata dall’utente è la modalità. “Crescente” si riferisce a fenotipi che riflettono quando è desiderabile un valore crescente del tratto misurato, come la resa, mentre “decrescente” si riferisce a un tratto in cui una diminuzione dei valori misurati è benefica, come le valutazioni dei danni agli insetti. Il significato dei percorsi viene testato utilizzando i metodi precedentemente descritti4,6,14. Scopri percorsi significativi con PAST Shiny. Selezionate il file contenente i dati dei percorsi e assicuratevi che la modalità sia selezionata nelle opzioni di analisi. Se necessario, modificare il numero di geni che devono essere in un percorso per conservarlo per l’analisi e il numero di permutazioni utilizzate per creare la distribuzione nulla per testare il significato dell’effetto. Figura 5. Fare clic qui per visualizzare una versione più grande di questa figura. NOTA: in questo passaggio vengono utilizzati il numero di core e la modalità impostata all’inizio dell’analisi PAST Shiny (passaggio 2.2). Il numero predefinito di geni è attualmente impostato su 5 geni, quindi i percorsi con meno geni noti verranno rimossi. L’utente può abbassare questo valore a 4 o 3, per includere percorsi più brevi, ma così facendo rischierà risultati falsi positivi. L’aumento di questo valore può aumentare la potenza dell’analisi, ma rimuoverà più percorsi dall’analisi. La modifica del numero di permutazioni utilizzate aumenta e diminuisce la potenza del test. Scopri percorsi significativi con PAST nella console R. Modificare ed eseguire il codice seguente per individuare percorsi significativi:rugplots_data <- find_pathway_significance(geni, "path/to/pathways.tsv", 5, "crescente", 1000, 2)Nota : in questo codice di esempio, vengono fornite diverse impostazioni predefinite suggerite. 5 è il numero minimo di geni che devono essere in un percorso per mantenere il percorso nell’analisi, aumentando si riferisce a una quantità crescente del tratto misurato (si raccomanda che l’utente esegua sia aumentando che diminuendo, indipendentemente dal tratto; l’interpretazione dei dati sarà diversa per i due, tuttavia), 1000 è il numero di volte per campionare gli effetti per determinare la distribuzione nulla, e 2 è il numero di core utilizzati per l’elaborazione parallela. Modificare il percorso del percorso effettivo del file dei percorsi. 7. Visualizza Rugplots Visualizza Rugplots con PAST Shiny. Una volta caricati e impostati tutti gli input, fare clic su Inizia analisi. Verrà visualizzata una barra di avanzamento che indicherà quale fase dell’analisi è stata completata l’ultima volta. Al termine dell’analisi, PAST Shiny passa alla scheda Risultati. Una tabella dei risultati verrà visualizzata nella colonna di sinistra (etichettata “pathways”) e i Rugplots verranno visualizzati nella colonna di destra (etichettati “plots”). Utilizzare il dispositivo di scorrimento per controllare i parametri di filtro. Quando il livello di filtraggio è soddisfacente, fare clic sul pulsante Scarica risultati in basso a sinistra per scaricare tutte le immagini e le tabelle singolarmente in un file ZIP denominato con il titolo dell’analisi. Questo file ZIP contiene la tabella filtrata, la tabella non filtrata e un’immagine per percorso nella tabella filtrata. Figura 6. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 7. Fare clic qui per visualizzare una versione più grande di questa figura. Visualizza i tappeti con PAST nella console R Modificare ed eseguire il codice seguente per salvare i risultati:plot_pathways(rugplots_data, “pvalue”, 0.02, “crescente”, “output_folder”)Nota : in questo codice di esempio, vengono fornite diverse impostazioni predefinite suggerite. pvalue fornisce i dati che possono essere utilizzati per filtrare percorsi insignificanti dopo che una soglia di significatività è stata scelta dall’utente; 0.02 è il valore predefinito utilizzato nel filtraggio e l’aumento si riferisce a una quantità crescente del tratto misurato (si consiglia all’utente di eseguire sia aumentando che diminuendo, indipendentemente dal tratto; l’interpretazione dei dati sarà diversa per i due, tuttavia); output_folder è la cartella in cui verranno scritte le immagini e le tabelle (questa cartella deve esistere prima di eseguire la funzione). In questa cartella vengono scritti una tabella di risultati filtrati, i risultati non filtrati e le singole immagini per ogni percorso nei risultati filtrati.