1. Configuração Instale R, se ainda não estiver instalado.NOTA: PAST é escrito em R e, portanto, requer que seus usuários tenham R instalado. No momento desta redação, a instalação do PAST diretamente do Bioconductor requer R4.0. Versões mais antigas do PAST podem ser instaladas a partir do Bioconductor para R3.6, e o PAST pode ser instalado no Github para usuários com R3.5. As instruções de instalação R podem ser baixadas no seguinte link: https://www.r-project.org/. Instale a versão mais recente do RStudio Desktop ou atualize o RStudio (opcional).NOTA: O RStudio é um ambiente útil para trabalhar com a linguagem R. Sua instalação é recomendada, especialmente para aqueles que optarem por executar PAST na linha de comando e não através do aplicativo Shiny GUI. O RStudio e suas instruções de instalação podem ser encontrados no seguinte link: https://rstudio.com/products/rstudio/. Instale o PAST do Bioconductor11 seguindo as instruções do Bioconductor.NOTA: A instalação através do Bioconductor deve lidar com a instalação das dependências do PAST. Além disso, o PAST pode ser instalado a partir do Github12,mas a instalação do Github não instalará dependências automaticamente. Instale PAST Shiny (opcional). Baixe o arquivo “app. R” da página Lançamentos do repositório do Github: https://github.com/IGBB/PAST/releases/ e lembre-se onde o arquivo baixado está localizado.NOTA: O PAST pode ser usado ligando diretamente para seus métodos com R, mas os usuários que estão menos familiarizados com R podem executar o aplicativo PAST Shiny, que fornece uma interface de usuário guiada. PAST Shiny é um script R disponível na filial shiny_app do repositório PAST Github. Past Shiny tentará instalar suas dependências durante a primeira execução. Inicie a análise iniciando a aplicação em uma das três maneiras descritas abaixo. PASSADO Brilhante com RStudio Usando o RStudio, crie um novo projeto na pasta onde o aplicativo. R está localizado. Clique em | de arquivos Novo Projeto e selecione essa pasta. Uma vez criado um novo projeto, abra o aplicativo. Arquivo R baixado mais cedo. RStudio reconhece esse aplicativo. R é um aplicativo Shiny e cria um botão Executar App na barra acima do código-fonte exibido. Clique em Executar app. Em seguida, o RStudio iniciará uma janela que exibe o aplicativo PAST Shiny. PASSADO brilhante com console R Inicie R e execute o seguinte código para iniciar o aplicativo PAST Shiny: brilhante::runApp(‘path/to/folder/with/shiny/app. R’. Substitua o texto entre aspas pela pasta para qual aplicativo. R foi baixado, e manter as cotações. PASSADO sem R Shiny Execute a biblioteca (PAST) em um console R para carregar PAST. 2. Personalize a análise brilhante (opcional) Alterar o título de análise de “Nova Análise” para algo que melhor reflita o tipo de análise que está sendo executada, o que ajuda a acompanhar as múltiplas análises (ver Figura 1). Figura 1. Por favor, clique aqui para ver uma versão maior desta figura. Modifique o número de núcleos e o modo. Defina o número de núcleos para qualquer número entre 1 e o número total na máquina, mas esteja ciente de que dedicar mais recursos ao PAST pode retardar outras operações na máquina. Defina o modo com base na descrição da seção 6. 3. Carregar dados gwas NOTA: Verifique se os dados do GWAS estão delimitados. Certifique-se de que o arquivo de associação contém as seguintes colunas: característica, nome do marcador, lócus ou cromossomo, posição no cromossomo, valor p e valor R2 para o marcador. Certifique-se de que o arquivo de efeitos contém as seguintes colunas: característica, nome do marcador, lócus ou cromossomo, posição no cromossomo e efeito. A ordem dessas colunas não é importante, pois o usuário pode especificar os nomes das colunas ao carregar os dados. Quaisquer colunas adicionais são ignoradas. TASSEL13 pode ser usado para produzir esses arquivos. Carregue os dados do GWAS com o PAST Shiny. Selecione um arquivo de associação e um arquivo de efeitos usando as caixas de seleção de arquivos e arquivos de arquivos de arquivos da associação. Alterar os nomes das colunas nas colunas Nome e Efeitos da Associação Nomear caixas de entrada abaixo das caixas de seleção de arquivos para refletir os nomes das colunas nos dados. Figura 2. Clique aqui para ver uma versão maior desta figura. Carregue os dados GWAS com PAST no console R. Modifique e execute o seguinte código:gwas_data = load_GWAS_data(“path/to/association_file.tsv”, “path/to/effects_file.tsv”, association_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “p”, “marker_R2”), effects_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “Effect”) NOTA: Altere os caminhos para a localização real dos arquivos GWAS. Os valores previstos para association_columns e effects_columns são os valores padrão. Se os nomes não corresponderem aos valores padrão, especifique os nomes das colunas. Caso contrário, estes podem ser omitidos. 4. Dados de desequilíbrio de ligação de carga (LD) NOTA: Verifique se os dados de desequilíbrio de ligação (LD) são delimitados por guias e contém os seguintes tipos de dados: Locus, Posição1, Site1, Posição2, Site2, Distância em pares de base entre o valor posição1 e posição2 e R2. Carregue os dados LD com o PAST Shiny. Selecione o arquivo que contém dados LD. Alterar os nomes das colunas LD Nomes caixas de entrada abaixo da caixa de seleção de arquivos para corresponder aos nomes da coluna nos dados LD, se necessário. Figura 3. Clique aqui para ver uma versão maior desta figura. Carregue dados LD com PAST no console R. Modifique e execute o seguinte código para carregar dados LD:LD = load_LD(“path/to/LD.tsv”, LD_columns = c(“Locus1”, “Posição1”, “Site1”, “Posição2”, “Site2”, “Dist_bp”, “R.2”)NOTA: Altere o caminho para a localização real do arquivo LD. Os valores previstos para LD_columns são os valores padrão. Se os nomes não corresponderem a esses padrões, especifique os nomes corretos das colunas; caso contrário, estes podem ser omitidos. 5. Atribuir SNPs aos genes NOTA: Baixe ou localize anotações em formato GFF. Essas anotações podem ser encontradas frequentemente em bancos de dados online para organismos específicos. Tenha cuidado com as anotações de baixa qualidade, pois a qualidade dos dados das anotações afetará a qualidade da análise da via. Confirme que a primeira coluna dessas anotações (o cromossomo) corresponde ao formato do lócus/cromossomo na associação, efeitos e dados LD. Por exemplo, as anotações não devem chamar o primeiro cromossomo de “chr1” se os arquivos de dados GWAS e LD chamarem o primeiro cromossomo de “1”. Atribua SNPs a genes com PAST Shiny.NOTA: Mais informações sobre a determinação de um corte R2 apropriado podem ser encontradas em Tang et al.6, na seção chamada “SNP to gene algorithm for the pathway analysis”. Selecione o arquivo contendo anotações GFF. Considere qual o tamanho da janela e o corte R2 são mais adequados para as espécies que estão sendo consideradas e modificar se os padrões não se adequarem aos dados carregados.NOTA: Os valores padrão no PASSADO refletem principalmente os valores apropriados para o milho. O número de núcleos definidos no início da análise PAST Shiny (Passo 2.2) é usado nesta etapa. Figura 4. Clique aqui para ver uma versão maior desta figura. Atribua SNPs a genes com PAST no console R. Modifique e execute o seguinte código para atribuir SNPs a genes:genes = assign_SNPs_to_genes(gwas_data, LD, “path/to/anotações.gff”, c(“gene”), 1000, 0,8, 2)NOTA: Neste código de amostra, várias sugestões padrão são fornecidas: 1000 é o tamanho da janela ao redor do SNP para procurar genes; 0.8 é o valor de corte para R2; 2 é o número de núcleos utilizados para processamento paralelo. O caminho para as anotações também deve ser alterado para a localização real do arquivo de anotações. 6. Descubra caminhos significativos NOTA: Verifique se o arquivo pathways contém os seguintes dados em formato delimitado por guia, com uma linha para cada gene em cada caminho: Pathway ID – um identificador como “PWY-6475-1”; descrição do caminho – uma descrição mais longa do que os caminhos fazem, como “biossíntese trans-liocopeno”; gene – um gene na via, que deve coincidir com os nomes fornecidos nas anotações. As informações do caminho provavelmente podem ser encontradas em bancos de dados on-line para organismos específicos, como o MaizeGDB. A segunda opção especificada pelo usuário é o modo. “Aumentar” refere-se a fenótipos que refletem quando um valor crescente do traço medido é desejável, como o rendimento, enquanto “diminuir” refere-se a um traço onde uma diminuição nos valores medidos é benéfica, como classificações de danos de insetos. A significância das vias é testada utilizando métodos descritos anteriormente4,6,14. Descubra caminhos significativos com o PAST Shiny. Selecione o arquivo contendo dados de caminhos e certifique-se de que o modo está selecionado nas opções de análise. Se necessário, altere o número de genes que devem estar em uma via de retê-lo para a análise e o número de permutações usadas para criar a distribuição nula para testar o significado do efeito. Figura 5. Clique aqui para ver uma versão maior desta figura. NOTA: O número de núcleos e o modo definido no início da análise PAST Shiny (Passo 2.2) são usados nesta etapa. O número padrão de genes é atualmente definido em 5 genes, de modo que caminhos com menos genes conhecidos serão removidos. O usuário pode reduzir esse valor para 4 ou 3, para incluir caminhos mais curtos, mas isso correrá o risco de resultados falsos positivos. O aumento desse valor pode aumentar o poder da análise, mas removerá mais caminhos da análise. A alteração do número de permutações utilizadas aumenta e diminui a potência do teste. Descubra caminhos significativos com o PAST no Console R. Modifique e execute o seguinte código para descobrir caminhos significativos:rugplots_data <- find_pathway_significance(genes, "path/to/pathways.tsv", 5, "increasing", 1000, 2)NOTA: Neste código de amostra, vários padrões sugeridos são fornecidos. 5 é o número mínimo de genes que devem estar em um caminho para manter o caminho na análise, aumentando refere-se a uma quantidade crescente do traço medido (recomenda-se que o usuário execute tanto aumentando quanto diminuindo, independentemente da característica; a interpretação dos dados difere para os dois, no entanto), 1000 é o número de vezes para provar os efeitos para determinar a distribuição nula, e 2 é o número de núcleos usados para processamento paralelo. Altere o caminho para a localização real do arquivo pathways. 7. Veja rugplots Veja Rugplots com PAST Shiny. Uma vez que todas as entradas sejam carregadas e definidas, clique em Iniciar Análise. Uma barra de progresso aparecerá e indicará qual etapa da análise foi concluída pela última vez. Quando a análise for concluída, o PAST Shiny mudará para a guia Resultados. Uma tabela de resultados será exibida na coluna esquerda (rotulada como “caminhos”) e os Rugplots serão exibidos na coluna direita (rotulados como “parcelas”). Use o controle deslizante para controlar os parâmetros de filtragem. Quando o nível de filtragem for satisfatório, clique no botão Resultados de Download na parte inferior esquerda para baixar todas as imagens e tabelas individualmente para um arquivo ZIP que é nomeado com o título de análise. Este arquivo ZIP contém a tabela filtrada, a tabela não filtrada e uma imagem por caminho na tabela filtrada. Figura 6. Clique aqui para ver uma versão maior desta figura. Figura 7. Clique aqui para ver uma versão maior desta figura. Ver rugplots com PAST no console R Modifique e execute o seguinte código para salvar os resultados:plot_pathways(rugplots_data, “pvalue”, 0,02, “aumentando”, “output_folder”)NOTA: Neste código de amostra, vários padrões sugeridos são fornecidos. pvalue fornece os dados que podem ser usados para filtrar caminhos insignificantes após um limiar de significância ser escolhido pelo usuário; 0.02 é o valor padrão utilizado na filtragem, e o aumento refere-se a uma quantidade crescente do traço medido (recomenda-se que o usuário execute tanto aumentando quanto diminuindo, independentemente da característica; a interpretação dos dados difere para os dois, no entanto); output_folder é a pasta onde as imagens e tabelas serão escritas (esta pasta deve existir antes de executar a função). Uma tabela de resultados filtrados, os resultados não filtrados e imagens individuais para cada caminho nos resultados filtrados são escritos para esta pasta.