1. Configuración Instale R, si aún no está instalado.NOTA: PAST está escrito en R y, por lo tanto, requiere que sus usuarios tengan R instalado. En el momento de escribir este artículo, la instalación de PAST directamente desde Bioconductor requiere R4.0. Las versiones anteriores de PAST se pueden instalar desde Bioconductor para R3.6, y PAST se puede instalar desde Github para usuarios con R3.5. Las instrucciones de instalación de R se pueden descargar desde el siguiente enlace: https://www.r-project.org/. Instale la versión más reciente de RStudio Desktop o actualice RStudio (opcional).NOTA: RStudio es un entorno útil para trabajar con el lenguaje R. Se recomienda su instalación, especialmente para aquellos que eligen ejecutar PAST en la línea de comandos en lugar de a través de la aplicación Shiny GUI. RStudio y sus instrucciones de instalación se pueden encontrar en el siguiente enlace: https://rstudio.com/products/rstudio/. Instale PAST desde Bioconductor11 siguiendo las instrucciones de Bioconductor.NOTA: La instalación a través de Bioconductor debe manejar la instalación de las dependencias de PAST. Además, PAST se puede instalar desde Github12,pero la instalación desde Github no instalará dependencias automáticamente. Instale PAST Shiny (opcional). Descargue el archivo “app. R” de la página Releases del repositorio de Github: https://github.com/IGBB/PAST/releases/ y recuerda dónde se encuentra el archivo descargado.NOTA: PAST se puede utilizar llamando a sus métodos directamente con R, pero los usuarios que están menos familiarizados con R pueden ejecutar la aplicación PAST Shiny, que proporciona una interfaz de usuario guiada. PAST Shiny es un script de R disponible en la rama shiny_app del repositorio past Github. PAST Shiny intentará instalar sus dependencias durante la primera ejecución. Comience el análisis iniciando la aplicación de una de las tres formas que se describen a continuación. PAST Shiny con RStudio Con RStudio, cree un nuevo proyecto en la carpeta donde se encuentra la aplicación. R se encuentra. Haga clic en | de archivo Nuevo proyecto y seleccione esa carpeta. Una vez que se haya creado un nuevo proyecto, abra la aplicación. Archivo R descargado anteriormente. RStudio reconoce esa aplicación. R es una aplicación Shiny y crea un botón Ejecutar aplicación en la barra sobre el código fuente mostrado. Haga clic en Ejecutar aplicación. RStudio iniciará una ventana que muestra la aplicación PAST Shiny. PAST Shiny con R Console Inicie R y ejecute el siguiente código para iniciar la aplicación PAST Shiny: shiny::runApp(‘path/to/folder/with/shiny/app. R’. Reemplace el texto entre comillas con la carpeta a la que se encuentra la aplicación. R fue descargado, y mantener las comillas. PASADO sin R Shiny Ejecute library(PAST) en una consola de R para cargar PAST. 2. Personaliza el análisis brillante (opcional) Cambie el título del análisis de “Nuevo análisis” a algo que refleje mejor el tipo de análisis que se está ejecutando, lo que ayuda a realizar un seguimiento de múltiples análisis (consulte la Figura 1). Figura 1. Haga clic aquí para ver una versión más grande de esta figura. Modifique el número de núcleos y el modo. Establezca el número de núcleos en cualquier número entre 1 y el número total en la máquina, pero tenga en cuenta que dedicar más recursos a PAST puede ralentizar otras operaciones en la máquina. Establezca el modo en función de la descripción de la sección 6. 3. Cargar datos GWAS NOTA: Compruebe que los datos de GWAS están delimitados por tabulaciones. Asegúrese de que el archivo de asociación contiene las siguientes columnas: rasgo, nombre del marcador, locus o cromosoma, posición en el cromosoma, valor p y valor R2 para el marcador. Asegúrese de que el archivo de efectos contenga las siguientes columnas: rasgo, nombre del marcador, locus o cromosoma, posición en el cromosoma y efecto. El orden de estas columnas no es importante, ya que el usuario puede especificar los nombres de las columnas al cargar los datos. Se ignoran las columnas adicionales. TASSEL13 se puede utilizar para producir estos archivos. Cargue datos GWAS con PAST Shiny. Seleccione un archivo de asociación y un archivo de efectos mediante los cuadros de selección Archivo de asociación y Archivo de efectos. Cambie los nombres de columna en los cuadros de entrada Nombre de columna de asociación y Efectos Nombre de columna debajo de los cuadros de selección de archivos para reflejar los nombres de columna en los datos. Figura 2. Haga clic aquí para ver una versión más grande de esta figura. Cargue datos GWAS con PAST en R Console. Modifique y ejecute el código siguiente:gwas_data = load_GWAS_data(“path/to/association_file.tsv”, “path/to/effects_file.tsv”, association_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “p”, “marker_R2”), effects_columns = c(“Trait”, “Marker”, “Locus”, “Site”, “Effect”) NOTA: Cambie las rutas a la ubicación real de los archivos GWAS. Los valores proporcionados para association_columns y effects_columns son los valores predeterminados. Si los nombres no coinciden con los valores predeterminados, especifique los nombres de columna. De lo contrario, estos pueden omitirse. 4. Datos de desequilibrio de enlace de carga (LD) NOTA: Compruebe que los datos de desequilibrio de enlace (LD) están delimitados por tabulación y contienen los siguientes tipos de datos: Locus, Position1, Site1, Position2, Site2, Distance en pares de bases entre Position1 y Position2, y R2 value. Cargue datos LD con PAST Shiny. Seleccione el archivo que contiene los datos LD. Cambie los nombres de columna en los cuadros de entrada Nombres de columna LD debajo del cuadro de selección de archivos para que coincidan con los nombres de columna en los datos LD si es necesario. Figura 3. Haga clic aquí para ver una versión más grande de esta figura. Cargue datos LD con PAST en la consola de R. Modifique y ejecute el código siguiente para cargar datos LD:LD = load_LD(“path/to/LD.tsv”, LD_columns = c(“Locus1”, “Position1”, “Site1”, “Position2”, “Site2”, “Dist_bp”, “R.2”)Nota : cambie la ruta de acceso a la ubicación real del archivo LD. Los valores proporcionados para LD_columns son los valores predeterminados. Si los nombres no coinciden con estos valores predeterminados, especifique los nombres correctos de las columnas; de lo contrario, se pueden omitir. 5. Asignar SNP a los genes NOTA: Descargue o localice de otro modo las anotaciones en formato GFF. Estas anotaciones a menudo se pueden encontrar en bases de datos en línea para organismos específicos. Tenga cuidado con las anotaciones de baja calidad, ya que la calidad de los datos de las anotaciones afectará la calidad del análisis de la vía. Confirme que la primera columna de estas anotaciones (el cromosoma) coincide con el formato del locus/cromosoma en los datos de asociación, efectos y DA. Por ejemplo, las anotaciones no deben llamar al primer cromosoma “chr1” si los archivos de datos GWAS y LD llaman al primer cromosoma “1”. Asigne SNP a genes con PAST Shiny.NOTA: Se puede encontrar más información sobre la determinación de un límite R2 apropiado en Tang et al.6,en la sección llamada “SNP to gene algorithm for the pathway analysis”. Seleccione el archivo que contiene anotaciones GFF. Considere qué tamaño de ventana y corte R2 son los más adecuados para la especie que se está considerando y modifíquelo si los valores predeterminados no se adaptan a los datos cargados.NOTA: Los valores predeterminados en past reflejan principalmente los valores apropiados para el maíz. El número de núcleos establecidos al principio del análisis PAST Shiny (Paso 2.2) se utiliza en este paso. Figura 4. Haga clic aquí para ver una versión más grande de esta figura. Asigne SNP a genes con PAST en la consola de R. Modifique y ejecute el código siguiente para asignar SNP a los genes:genes = assign_SNPs_to_genes(gwas_data, LD, “path/to/annotations.gff”, c(“gene”), 1000, 0.8, 2)Nota : en este código de ejemplo, se proporcionan varias sugerencias predeterminadas: 1000 es el tamaño de la ventana alrededor del SNP para buscar genes; 0,8 es el valor de corte para R2; 2 es el número de núcleos utilizados para el procesamiento paralelo. La ruta de acceso a las anotaciones también debe cambiarse a la ubicación real del archivo de anotaciones. 6. Descubre vías significativas NOTA: Verifique que el archivo de vías contenga los siguientes datos en formato delimitado por tabuladores, con una línea para cada gen en cada vía: ID de vía – un identificador como “PWY-6475-1”; descripción de la vía: una descripción más larga de lo que hacen las vías, como la “biosíntesis de trans-licopeno”; gen – un gen en la vía, que debe coincidir con los nombres proporcionados en las anotaciones. Es probable que la información de la vía se pueda encontrar en bases de datos en línea para organismos específicos, como MaizeGDB. La segunda opción especificada por el usuario es el modo. “Aumentar” se refiere a fenotipos que reflejan cuándo es deseable un valor creciente del rasgo medido, como el rendimiento, mientras que “disminuir” se refiere a un rasgo donde una disminución en los valores medidos es beneficiosa, como las calificaciones de daño por insectos. La importancia de las vías se prueba utilizando métodos descritos anteriormente4,6,14. Descubre vías significativas con PAST Shiny. Seleccione el archivo que contiene los datos de las rutas y asegúrese de que el modo está seleccionado en las opciones de análisis. Si es necesario, cambie el número de genes que deben estar en una vía para retenerlo para el análisis y el número de permutaciones utilizadas para crear la distribución nula para probar la significación del efecto. Figura 5. Haga clic aquí para ver una versión más grande de esta figura. NOTA: El número de núcleos y el modo establecido al principio del análisis PAST Shiny (Paso 2.2) se utiliza en este paso. El número predeterminado de genes se establece actualmente en 5 genes, por lo que se eliminarán las vías con menos genes conocidos. El usuario puede reducir este valor a 4 o 3, para incluir vías más cortas, pero hacerlo se arriesgará a resultados falsos positivos. Aumentar este valor puede aumentar el poder del análisis, pero eliminará más vías del análisis. Cambiar el número de permutaciones utilizadas aumenta y disminuye la potencia de la prueba. Descubra vías importantes con PAST en R Console. Modifique y ejecute el código siguiente para descubrir rutas importantes:rugplots_data <- find_pathway_significance(genes, "path/to/pathways.tsv", 5, "increasing", 1000, 2)Nota : en este código de ejemplo, se proporcionan varios valores predeterminados sugeridos. 5 es el número mínimo de genes que deben estar en una vía para mantener la vía en el análisis, aumentar se refiere a una cantidad creciente del rasgo medido (se recomienda que el usuario ejecute tanto aumentando como disminuyendo, independientemente del rasgo; la interpretación de los datos diferirá para los dos, sin embargo), 1000 es el número de veces que muestrea los efectos para determinar la distribución nula, y 2 es el número de núcleos utilizados para el procesamiento paralelo. Cambie la ruta de acceso a la ubicación real del archivo de rutas. 7. Ver Rugplots Ver Rugplots con PAST Shiny. Una vez que todas las entradas se cargan y se establecen, haga clic en Comenzar análisis. Aparecerá una barra de progreso e indicará qué paso del análisis se completó por última vez. Cuando se complete el análisis, PAST Shiny cambiará a la pestaña Resultados. Se mostrará una tabla de resultados en la columna izquierda (etiquetada como “caminos”) y los Rugplots se mostrarán en la columna derecha (etiquetados como “gráficos”). Utilice el control deslizante para controlar los parámetros de filtrado. Cuando el nivel de filtrado sea satisfactorio, haga clic en el botón Descargar resultados en la parte inferior izquierda para descargar todas las imágenes y tablas individualmente a un archivo ZIP que se nombra con el título del análisis. Este archivo ZIP contiene la tabla filtrada, la tabla sin filtrar y una imagen por ruta en la tabla filtrada. Figura 6. Haga clic aquí para ver una versión más grande de esta figura. Figura 7. Haga clic aquí para ver una versión más grande de esta figura. Ver Rugplots con PAST en la consola R Modifique y ejecute el código siguiente para guardar los resultados:plot_pathways(rugplots_data, “pvalue”, 0.02, “creciente”, “output_folder”)Nota : en este código de ejemplo, se proporcionan varios valores predeterminados sugeridos. pvalue proporciona los datos que se pueden utilizar para filtrar vías insignificantes después de que el usuario elija un umbral de significación; 0.02 es el valor predeterminado utilizado en el filtrado, y aumentar se refiere a una cantidad creciente del rasgo medido (se recomienda que el usuario ejecute tanto el aumento como la disminución, independientemente del rasgo; sin embargo, la interpretación de los datos diferirá para los dos); output_folder es la carpeta donde se escribirán las imágenes y tablas (esta carpeta debe existir antes de ejecutar la función). En esta carpeta se escribe una tabla de resultados filtrados, los resultados sin filtrar y las imágenes individuales para cada ruta de los resultados filtrados.