1. Настройка Установите R, если он еще не установлен.ПРИМЕЧАНИЕ: PAST написан на R и, следовательно, требует, чтобы у его пользователей был установлен R. На момент написания этой статьи для установки PAST непосредственно из Bioconductor требуется R4.0. Старые версии PAST могут быть установлены из Bioconductor для R3.6, а PAST могут быть установлены с Github для пользователей с R3.5. Инструкцию по установке R можно скачать по следующей ссылке: https://www.r-project.org/. Установите последнюю версию RStudio Desktop или обновите RStudio (необязательно).ПРИМЕЧАНИЕ: RStudio является полезной средой для работы с языком R. Рекомендуется его установка, особенно для тех, кто предпочитает запускать PAST в командной строке, а не через приложение Shiny GUI. RStudio и инструкции по его установке можно найти по следующей ссылке: https://rstudio.com/products/rstudio/. Установите PAST из Биопроводника11, следуя инструкциям на Биопроводнике.ПРИМЕЧАНИЕ: Установка через Bioconductor должна обрабатывать установку зависимостей PAST. Кроме того, PAST можно установить с Github12,но установка с Github не будет устанавливать зависимости автоматически. Установите PAST Shiny (необязательно). Скачайте файл “app. R” со страницы Релизы репозитория Github: https://github.com/IGBB/PAST/releases/ и запомнить, где находится загруженный файл.ПРИМЕЧАНИЕ: PAST можно использовать, вызывая его методы непосредственно с помощью R, но пользователи, которые менее знакомы с R, могут запускать приложение PAST Shiny, которое предоставляет управляемый пользовательский интерфейс. PAST Shiny — это скрипт R, доступный в ветви shiny_app репозитория PAST Github. PAST Shiny попытается установить свои зависимости во время первого запуска. Начните анализ с запуска приложения одним из трех способов, описанных ниже. PAST Shiny с RStudio С помощью RStudio создайте новый проект в папке, в которой находится приложение. R находится. Нажмите файл | Создать проект и выбрать эту папку. После создания нового проекта откройте приложение. R файл, загруженный ранее. RStudio распознает это приложение. R является блестящим приложением и создает кнопку «Запустить приложение» на панели над отображаемым исходным кодом. Щелкните Запустить приложение. Затем RStudio запустит окно, в котором отображается приложение PAST Shiny. PAST Блестящий с консолью R Запустите R и выполните следующий код, чтобы запустить приложение PAST Shiny: shiny::runApp(‘path/to/folder/with/shiny/app. Р’. Замените текст в кавычках папкой, в которую вложено приложение. R был загружен, и сохраните котировки. PAST без R Shiny Запустите библиотеку (PAST) в консоли R для загрузки PAST. 2. Настройка блестящего анализа (опционально) Измените название анализа с «Новый анализ» на что-то, что лучше отражает тип запускаемого анализа, что помогает отслеживать несколько анализов (см. Рисунок 1). Рисунок 1. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Измените количество ядер и режим. Установите для числа ядер любое число от 1 до общего числа на компьютере, но имейте в виду, что выделение большего количества ресурсов на PAST может замедлить другие операции на компьютере. Установите режим на основе описания в разделе 6. 3. Загрузка данных GWAS ПРИМЕЧАНИЕ: Убедитесь, что данные GWAS разделены табуляцией. Убедитесь, что файл ассоциации содержит следующие столбцы: признак, имя маркера, локус или хромосома, положение на хромосоме, значение p и значениеR2 для маркера. Убедитесь, что файл эффектов содержит следующие столбцы: признак, имя маркера, локус или хромосома, положение на хромосоме и эффект. Порядок этих столбцов не важен, так как пользователь может указать имена столбцов при загрузке данных. Все дополнительные столбцы игнорируются. TASSEL13 может быть использован для создания этих файлов. Загрузите данные GWAS с помощью PAST Shiny. Выберите ассоциативный файл и файл эффектов с помощью полей выбора Файл ассоциации и Файл эффектов. Измените имена столбцов в полях ввода Имя столбца ассоциации и Имя столбцов эффектов под полями выбора файла, чтобы отразить имена столбцов в данных. Рисунок 2. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Загрузите данные GWAS с помощью PAST в консоли R. Измените и запустите следующий код:gwas_data = load_GWAS_data(“path/to/association_file.tsv”, “path/to/effects_file.tsv”, association_columns = c(“Признак”, “Маркер”, “Локус”, “Сайт”, “p”, “marker_R2”), effects_columns = c(“Признак”, “Маркер”, “Локус”, “Сайт”, “Эффект”) ПРИМЕЧАНИЕ: Измените пути к фактическому расположению файлов GWAS. Значения, предоставленные для association_columns и effects_columns, являются значениями по умолчанию. Если имена не совпадают со значениями по умолчанию, укажите имена столбцов. В противном случае они могут быть опущены. 4. Данные о неравновесии связей нагрузки (LD) ПРИМЕЧАНИЕ: Убедитесь, что данные неравновесия связи (LD) разделены табуляцией и содержат следующие типы данных: Locus, Position1, Site1, Position2, Site2, Distance in base pairs between Position1 и Position2 и значение R2. Загрузите данные LD с помощью PAST Shiny. Выберите файл, содержащий данные LD. При необходимости измените имена столбцов в полях ввода ИМЕНА СТОЛБЦОВ LD под полем выбора файла, чтобы они соответствовали именам столбцов в данных LD. Рисунок 3. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Загрузите данные LD с помощью PAST в консоли R. Измените и запустите следующий код для загрузки данных LD:LD = load_LD(“path/to/LD.tsv”, LD_columns = c(“Locus1”, “Position1”, “Site1”, “Position2”, “Site2”, “Dist_bp”, “R.2”)ПРИМЕЧАНИЕ: Измените путь к фактическому расположению файла LD. Значения, предоставляемые для LD_columns, являются значениями по умолчанию. Если имена не совпадают с именами по умолчанию, укажите правильные имена столбцов; в противном случае они могут быть опущены. 5. Назначение SFP генам ПРИМЕЧАНИЕ: Загрузите или найдите аннотации в формате GFF. Эти аннотации часто можно найти в онлайн-базах данных для конкретных организмов. Будьте осторожны с аннотациями низкого качества, так как качество данных аннотаций повлияет на качество анализа пути. Подтвердите, что первый столбец этих аннотаций (хромосома) соответствует формату локуса/хромосомы в данных ассоциации, эффектов и LD. Например, аннотации не должны называть первую хромосому «chr1», если файлы данных GWAS и LD называют первую хромосому «1». Назначайте SFP генам с PAST Shiny.ПРИМЕЧАНИЕ: Более подробную информацию об определении соответствующего отсеченияR2 можно найти в Tang et al.6,в разделе под названием «SNP к генному алгоритму для анализа путей». Выберите файл, содержащий аннотации GFF. Рассмотрим, какой размер окна и отсечку R2 наиболее подходят для рассматриваемого вида, и измените, если значения по умолчанию не подходят для загруженных данных.ПРИМЕЧАНИЕ: Значения по умолчанию в PAST в основном отражают значения, подходящие для кукурузы. На этом шаге используется количество ядер, заданных в начале анализа PAST Shiny (шаг 2.2). Рисунок 4. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Назначьте SFP генам с PAST в консоли R. Измените и запустите следующий код, чтобы назначить SFP генам:гены = assign_SNPs_to_genes(gwas_data, LD, “path/to/annotations.gff”, c(“gene”), 1000, 0.8, 2)ПРИМЕЧАНИЕ: В этом примере кода приведено несколько предложений по умолчанию: 1000 – размер окна вокруг SNP для поиска генов; 0,8 – величина отсечения дляR2; 2 — количество ядер, используемых для параллельной обработки. Путь к аннотациям также должен быть изменен на фактическое расположение файла аннотаций. 6. Откройте для себя важные пути ПРИМЕЧАНИЕ: Убедитесь, что файл pathways содержит следующие данные в формате с разделителями табуляции, с одной строкой для каждого гена в каждом пути: pathway ID – идентификатор, такой как “PWY-6475-1”; описание пути – более длинное описание того, что делают пути, такие как «биосинтез транс-ликопина»; gene – ген в пути, который должен соответствовать названиям, приведенным в аннотациях. Информацию о путях распространения, вероятно, можно найти в онлайновых базах данных для конкретных организмов, таких как MaizeGDB. Второй параметр, заданный пользователем, — это режим. «Увеличение» относится к фенотипам, которые отражают, когда желательно увеличение значения измеряемого признака, например, урожайность, в то время как «уменьшение» относится к признаку, где снижение измеренных значений полезно, например, рейтинги повреждения насекомыми. Значимость путей проверяется с помощьюранееописанных методов4,6,14. Откройте для себя важные пути с PAST Shiny. Выберите файл, содержащий данные путей, и убедитесь, что режим выбран в параметрах анализа. При необходимости измените количество генов, которые должны быть в пути, чтобы сохранить его для анализа, и количество перестановок, используемых для создания нулевого распределения, чтобы проверить значимость эффекта. Рисунок 5. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. ПРИМЕЧАНИЕ: На этом шаге используется количество ядер и режим, установленный в начале анализа PAST Shiny (шаг 2.2). Стандартное количество генов в настоящее время установлено на уровне 5 генов, поэтому пути с меньшим количеством известных генов будут удалены. Пользователь может понизить это значение до 4 или 3, включив в него более короткие пути, но это может привести к ложноположительным результатам. Увеличение этого значения может увеличить мощность анализа, но удалит больше путей из анализа. Изменение количества используемых перестановок увеличивает и уменьшает мощность теста. Откройте для себя важные пути с помощью PAST в консоли R. Измените и запустите следующий код, чтобы обнаружить важные пути:rugplots_data <- find_pathway_significance (гены, "путь/к/пути.цв", 5, "увеличение", 1000, 2)ПРИМЕЧАНИЕ: В этом примере кода приведено несколько предлагаемых параметров по умолчанию. 5 – минимальное количество генов, которые должны быть в пути, чтобы сохранить путь в анализе, увеличение относится к увеличению количества измеренного признака (рекомендуется, чтобы пользователь запускал как увеличивающийся, так и уменьшающийся, независимо от признака; интерпретация данных будет отличаться для двух, однако), 1000 – это количество раз, чтобы выборка эффектов для определения нулевого распределения, и 2 — количество ядер, используемых для параллельной обработки. Измените путь к фактическому расположению файла pathways. 7. Просмотр Rugplots Посмотрите Rugplots с PAST Shiny. После загрузки и настройки всех входных данных нажмите кнопку Начать анализ. Появится индикатор выполнения, который покажет, какой шаг анализа был завершен последним. После завершения анализа PAST Shiny переключится на вкладку Результаты. Таблица результатов будет отображаться в левом столбце (помечена как «пути»), а Rugplots будет отображаться в правом столбце (помечено как «графики»). Ползунок используется для управления параметрами фильтрации. Когда уровень фильтрации будет удовлетворительным, нажмите кнопку Загрузить результаты в левом нижнем углу, чтобы загрузить все изображения и таблицы по отдельности в ZIP-файл, названный в соответствии с заголовком анализа. Этот ZIP-файл содержит отфильтрованную таблицу, неотфильтрованную таблицу и одно изображение на путь в отфильтроированной таблице. Рисунок 6. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Рисунок 7. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка. Просмотр rugplots с помощью PAST в консоли R Измените и запустите следующий код, чтобы сохранить результаты:plot_pathways (rugplots_data, “pvalue”, 0.02, “увеличение”, “output_folder”)ПРИМЕЧАНИЕ: В этом примере кода приведено несколько предлагаемых параметров по умолчанию. pvalue предоставляет данные, которые могут быть использованы для фильтрации незначительных путей после выбора пользователем порога значимости; 0,02 — значение по умолчанию, используемое при фильтрации, а увеличение относится к увеличению количества измеряемого признака (рекомендуется, чтобы пользователь запускал как увеличивающийся, так и уменьшающийся, независимо от признака; интерпретация данных будет отличаться для них, однако); output_folder — это папка, в которую будут записаны изображения и таблицы (эта папка должна существовать до запуска функции). В эту папку записывается таблица отфильтрованных результатов, нефильтрованных результатов и отдельных изображений для каждого пути в отфильтрованных результатах.