概要

Быстрый и количественный метод для столб-поступательные изменения и вариант включено сопоставление пептидов в геномов

Published: May 22, 2018
doi:

概要

Здесь мы представляем средство proteogenomic PoGo и протоколы для быстрого, количественных, столб-поступательные изменения и вариант включено сопоставление пептидов, выявленных с помощью масс-спектрометрии на ссылку геномов. Этот инструмент имеет для интеграции и визуализации proteogenomic и личных протеомических исследований взаимодействия с данными ортогональных геномики.

Abstract

Перекрестных помех между генов, стенограммы и белков является ключом к клеточных реакций; Следовательно анализ молекулярных уровнях как независимых сущностей медленно распространяется на интегративной исследований для углубления понимания молекулярной динамики внутри клетки. Текущий инструменты для визуализации и интеграции с другими наборами данных омику протеомики являются недостаточными для масштабных исследований. Кроме того, они захватить только основная последовательность идентификации, отбрасывая столб-поступательные изменения и количественный. Для решения этих вопросов, мы разработали PoGo для сопоставления пептиды с связанные столб-поступательные изменения и количественной оценки ссылки Аннотация геномов. Кроме того инструмент был разработан для включения сопоставления пептидов из настраиваемые последовательности баз данных, включающих варианты одной аминокислоты. В то время как ПОГО это инструмент командной строки, графический интерфейс PoGoGUI позволяет исследователям не биоинформатики легко сопоставить пептиды 25 видов, поддерживаемых Ensembl генома аннотации. Выводимых заимствует форматов файлов из области геномики и, таким образом, визуализация поддерживается в большинстве браузеров генома. Для масштабных исследований ПОГО поддерживается TrackHubGenerator для создания веб доступных репозиториев данных сопоставляются геномов, позволяющие легко обмена Протеогеномики данных. С небольшим усилием этот инструмент можно сопоставить миллионы пептиды ссылки геномов в течение всего нескольких минут, опережая другие инструменты имеющиеся последовательности идентичности. Этот протокол демонстрирует лучшие подходы для сопоставления Протеогеномики через Пого с публично доступные наборы данных количественного и phosphoproteomics, а также широкомасштабных исследований.

Introduction

В клетках геном, транскриптом и протеом влияют друг на друга модулировать в ответ на внутренние и внешние раздражители и взаимодействовать друг с другом для выполнения конкретных функций, приводит к болезни и здоровья. Таким образом характеризующие и количественного определения генов, стенограммы и белков имеет решающее значение для полного понимания клеточных процессов. Секвенирование нового поколения (НГС) является одним из наиболее часто применяемых стратегий для выявления и количественной оценки выражения гена и транскрипт. Однако выражение протеина обычно оценивается по масс-спектрометрия (МС). Значительные успехи в течение последнего десятилетия в MS технологии позволило более полной идентификации и количественной оценки протеомов, делая данные сопоставимы с transcriptomics1. Протеогеномики и multi омику как способы интеграции данных NGS и MS стали мощным подходы к оценке клеточных процессов через несколько молекулярных уровнях, выявление подтипы рака и ведущих к Роман потенциальных лекарственных препаратов в рак2 , 3. Важно отметить, что Протеогеномики первоначально было использовано для обеспечения proteomic доказательства для гена и Стенограмма аннотации4. Несколько генов, ранее считалось некодирующих недавно прошли переоценку, учитывая крупномасштабные человеческие ткани наборов данных5,6,7. Кроме того протеомических данных успешно используются для поддержки усилий аннотации в организмы-модель8,9. Однако proteogenomic интеграции данных могут использоваться далее выделить выражение протеина по отношению к геномной особенности и разъяснению перекрестных помех между стенограммы и белков, предоставляя комбинированных эталонной системы и методы для Совместное визуализации.

Для того, чтобы обеспечить общую ссылку для данных геномики, протеомики и transcriptomics, были реализованы многочисленные инструменты для сопоставления пептиды, выявленных с помощью MS на геном координаты10,11,12 ,13,14,,1516,17. Подходы отличаются в такие аспекты, как справочные сведения о сопоставлении, поддержка браузеров геном, и степень интеграции с другими инструментами протеомики, как показано на рисунке 1. Хотя некоторые инструменты карта обратный перевод пептидов на геном16, другие используют поиск двигатель Аннотированная положение внутри белка и Джин аннотации реконструировать нуклеотидной последовательности пептид15. Все еще другие используют 3 – й или 6-й кадр перевод генома для сопоставления пептиды против11,13. Наконец несколько инструментов пропустить нуклеотидные последовательности и использовать аминокислоты последовательность переводов из стенограммы РНК последовательности сопоставлены как промежуточного сопоставить связанные генома координаты10,12, пептиды 14,17. Однако перевод нуклеотидных последовательностей является медленный процесс и склонны к ошибкам, которые распространяют в пептидной сопоставления пользовательских баз данных. Для быстрой и высок объём сопоставления, небольшой и всеобъемлющий справочник имеет решающее значение. Таким образом стандартизированных белка ссылка с координатами связанные генома имеет важное значение для точного пептид для картирования генома. Новые аспекты в Протеогеномики, такие как включение вариантов и столб-поступательные изменения (PTMs)2,3, набирают силу через последние исследования. Однако они обычно не поддерживаются текущей proteogenomic отображение инструментов, как показано на рисунке 1. Для повышения скорости и качества отображения, ПОГО была разработана, инструмент, который позволяет быстро и количественные сопоставления пептидов в геномах18. Кроме того ПОГО позволяет отображение пептиды с до двух вариантов последовательности и аннотированный столб-поступательные изменения.

ПОГО была разработана справляться с быстрым ростом количественных разрешением наборов данных, захватив протеомов и глобальных изменений и Центральный утилитой для крупномасштабных анализа таких личных вариации и точности медицины. Эта статья описывает применение этого инструмента для визуализации присутствие столб-поступательные изменения по отношению к геномной функции. Кроме того эта статья освещает идентификация альтернативного сплайсинга событий через сопоставленные пептидов и картирование пептиды, выявленных через пользовательский вариант базы данных для ведения генома. Этот протокол использует публично доступные наборы данных, загруженных из гордости Архив19 для демонстрации этих функций Пого. Кроме того этот протокол описывает применение TrackHubGenerator для создания онлайн доступных узлов пептидов, сопоставляются геномов для крупномасштабных Протеогеномики исследований.

Protocol

1. подготовка, загрузки и установки Примечание: Примеры пути файла и папки отображаются в формате Windows для легкости доступа для обычных пользователей. Пого и PoGoGUI также доступны для macOS и Linux операционных систем. Скачать ПОГО и PoGoGUI с GitHub Откройте веб-браузер и перейдите к PoGo на GitHub (http://github.com/cschlaffner/PoGo/). Выберите релизы и скачать последние версии zip сжатый файл. Распакуйте сжатый файл в папке исполняемые объекты (например, C:\PoGo\executables\). Перейдите в браузере к PoGoGUI на GitHub (http://github.com/cschlaffner/PoGoGUI/). Выберите релизы и скачать последние версии jar-файл (например, «PoGoGUI-v1.0.2.jar»). Храните в папке исполняемые jar-файл. Скачать Аннотация геномов и переведенные последовательности кодирвоания протеинаПримечание: Скачайте Аннотация геномов и переведенный последовательности белка кодирования для поддерживаемых видов от GENCODE7 (www.gencodegenes.org) или Ensembl20 (www.ensembl.org) в общий формат передачи (ГЦФ) и белковых последовательностей в FASTA формат. В веб-браузере, перейдите к www.gencodegenes.org и выберите данных | Человека | Текущая версия. Скачать всеобъемлющей гена аннотации по ссылке GTF и распакуйте gz сжатый файл в папке данных (например, C:\PoGo\Data\) с помощью распаковки программы (например, 7-Zip). Скачать кодирвоания протеина транскрипта перевода последовательностей через соединение FASTA и распакуйте gz сжатый файл в папке данных, созданный на предыдущем шаге. Кроме того перейдите в веб-браузер для www.ensembl.org и выберите Скачиваний следуют загрузки данных через FTP. Поиск поддерживаемых видов (например, человека). Загрузите последнюю версию файла релиз Стенограмма аннотации, используя GTF ссылку в столбце набор генов . Выберите файл с именем структуры «species.release.gtf.gz» и извлеките gz сжатый файл в папку данных. Скачайте последний выпуск кодирвоания протеина транскрипта перевода последовательностей с использованием FASTA ссылку в столбце последовательности белка (FASTA) . Выберите файл с именем структуры «species.release.pep.all.fa.gz» и извлеките gz сжатый файл в папку данных. Подготовка пептид идентификации файловПримечание: PoGo поддерживает только 4-колонки формат, содержащий образец идентификатора, пептид последовательности, количество пептид спектр матчи (PSMs) и количественные значения. Однако PoGoGUI поддерживает идентификацию стандартизированных файлов форматов, mzIdentML, mzid и mzTab и преобразует их в PoGo в 4-колонки формат с использованием ms данных core-api общедоступной рамки21. Файлы в формате mzTab, mzid или mzIdentML могут быть загружены с гордостью Архив19. Кроме того данные могут быть предоставлены в формате табуляцией файла с расширением .tsv или .pogo. Формат содержит 4 колонки с следующие заголовки столбцов: образец идентификатора (образец), пептид последовательности (пептид), количество пептид спектр матчи (PSMs) и количественный пептида (Квант). Пример показан на рисунке 2. Скачайте пример файла в формате mzTab от протеомики исследование человека яичек гордость Архив19 (22https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files). Сохранить и извлечь gz сжатый файл в папке данных, созданную на шаге 1.2.1.Примечание: в качестве альтернативы, Скачайте пример данных для человеческого phosphoproteomics, поиск с MaxQuant от гордости архива (файл «Traktman_2013_MaxQuantOutput-full.zip» от https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files23). Сохранить и извлечь zip сжатый файл в папке data, который был создан в шаге 1.2.1. Открыть пустую таблицу и импортировать файл peptides.txt из папки C:/ПОГО/данные/Traktman_2013_MaxQuantOutput-полный/комбинированные/txt/с помощью параметра данных | Из текста/CSV. В окне открытия нажмите кнопку изменить. Удалите все столбцы, за исключением «Последовательность», «Эксперимент BR1», «Эксперимент BR2», «Эксперимент BR3», «Соотношение H/L нормированный BR1», «Соотношение H/L нормированный BR2» и «Соотношение H/L нормированный BR3». Выберите столбцы «Соотношение H/L нормированный BR1», «Соотношение H/L нормализуются BR2» и «Соотношение H/L нормированный BR3» и нажмите кнопку Преобразование | Отмена сведения столбцов. Выберите столбцы «Эксперимент BR1», «Эксперимент BR2» и «Эксперимент BR3» и повторите операцию отмены свертывания. Выберите результирующий столбец «Атрибут» и разделение содержимого с помощью Преобразование | Разделить столбец | Разделителем. Выберите пространство как разделитель в раскрывающемся меню. Повторите операцию для столбца «Attribute.1». Удаление результирующие столбцы «Attribute.1.1», «Attribute.2», «Attribute.3» и «Attribute.1.1.1». Добавьте столбец с помощью Add Column | Пользовательский столбец вариант. Адаптировать пользовательский столбец формулы представляют следующее: «= [Attribute.4]=[Attribute.1.2]». Применить фильтр к созданный настраиваемый столбец, чтобы отфильтровать все строки, содержащие значение «FALSE»; останется только строки, содержащие «TRUE». Удалить столбцы «Attribute.1.2» и «Custom» и измените порядок оставшихся столбцов на следующее: «Attribute.4», «Последовательность», «Value.1» и «Значение». Измените имена столбцов на «Эксперимент», «Пептид», «PSMs» и «Квант», соответственно. Загрузить файл с помощью Home | Закрыть и загрузить. Сохраните файл как файл с разделителями табуляции с помощью файла | Сохранить как и выберите тип «Текст (разделитель — табуляция) (*.txt)». Измените имя на «peptides_pogo.txt» и сохраните его в папке C:/ПОГО/данных. 2. Сопоставление пептиды с аннотированной столб-поступательные изменения и визуализации, включая количественный Примечание: Результирующий выходной файл может быть загружен в любой генома браузер, поддерживающий формат расширяемого данных браузера (кровать). Выбор браузеров является интегративной генома браузер (IGV)24 (который используется в следующем), в геноме UCSC Browser25и в Ensembl генома браузер20. Важно отметить, что аннотации GTF и белка FASTA версии используется для сопоставления ПОГО соответствуют версии генома в браузере генома. Для человека Ensembl релизы 57-75 и GENCODE версии 3d-19 используйте GRCh37/hg19; для версий Ensembl 76 или выше и GENCODE 20 или выше используйте GRCh38/hg38. Для мыши Ensembl версий 74 или выше и GENCODE м2 или выше, используйте GRCm38. Карта с помощью PoGoGUI пептидов (см. рис. 3). Перейдите к папке исполняемые файлы. Запустите программу, дважды щелкнув значок PoGoGUI-vX.X.X.jar.Примечание: Графический пользовательский интерфейс будет начать и позволяют легко и визуального выбора вариантов. Используйте кнопку выбрать рядом с «ПОГО исполняемому файлу». Затем перейдите в папке исполняемые файлы в подпапке соответствующих операционных систем (например, C:\PoGo\Executables\Windows\). Выберите исполняемый файл, ПОГО (например, PoGo.exe) и подтвердите свой выбор, нажав на кнопку Открыть . Выберите ссылку входной файл для белковых последовательностей, нажав выбрать. Перейдите к папке data и выберите файл FASTA перевода. Подтвердите свой выбор, нажав на кнопку Открыть . Выберите файл аннотации стенограмма, с помощью кнопки выбрать . Перейдите к папке data и выберите файл GTF аннотации. Подтвердите выбор, нажав на кнопку Открыть . Добавьте файл идентификации пептида — выбор нескольких файлов включено — используя кнопку Добавить рядом с «Пептид файлы». Выберите файл поддерживаемого формата mzTab, mzIdentML или mzid, или в формате 4-колонки табуляцией скачал и подготовлен в шаге 1.3. Снимите флажки рядом с кроватью и GTF в подборе форматов вывода. Только оставьте PTM кровать и GCT проверяется. Выберите из раскрывающегося списка Выбор соответствующих видов данных. Важно, что файл FASTA, GTF файле и раскрывающийся список выбора, для того же вида. Начните сопоставление, нажав кнопку « Пуск ».Примечание: В случае необходимости, PoGoGUI будет преобразования входного файла в формат ПОГО, обеспечивают ПОГО файлов в одной папке для будущих удобства и запустить процесс сопоставления. Преобразование одного mzTab файл, загруженный на шаге 1.3.1 будет длиться от 10-20 мин до начала сопоставления. Визуализация в интегративной геномики просмотраПримечание: Смотрите Рисунок 4. Загрузить файл вывода ПОГО, оканчивающиеся на «_ptm.bed» в IGV через файл | Загрузить из файла и выберите файл.Примечание: Из-за размера, некоторых файлов может потребоваться поколения индекса позволяет быстрый перезагрузки геномной регионов. Пользователю будет IGV автоматически к поколению. Следуйте указаниям. Повторите шаг загрузки файла, заканчивается в «_noptm.bed». Этот файл содержит все пептиды найдены без каких-либо изменений. Обратите внимание, что каждый загруженный файл будет показан как отдельных треков с именем файла, выявления трек. Порядок треков, перетаскивая их в нужное место в списке. Обратите внимание, что каждый трек изначально отображается в свернутом виде. Расширить их, щелкните правой кнопкой мыши на название трека и выберите расширение для полного просмотра пептидов, включая последовательности или сплющенным с накоплением представления. Повторите шаг загрузки файла, заканчивается в «.gct». Этот файл содержит пептид количественный на аннотированную сэмпл. В отличие от файлов, загруженных выше, каждый аннотированный пример будет загружен как отдельный трек. Реорганизовать образцы через операции перетаскивания. Перейдите в пределах генома хромосомы, выбрав в раскрывающемся меню, введите в геномной координатах, Поиск символа гена, или нажмите и удерживайте для выберите раздел хромосомы для увеличения. 3. Сопоставление пептиды, выявленных с помощью пользовательских вариант базы данных для ведения генома Примечание: PoGo сопоставления может осуществляться с помощью графического пользовательского интерфейса (GUI) или через интерфейс командной строки. Они являются взаимозаменяемыми. В этой части протокола интерфейс командной строки используется для выделения взаимозаменяемости. Вторая часть этого раздела протокола требует программного обеспечения инструмент R26. Пожалуйста, убедитесь, что установлен пакет. Карта ссылок пептиды ссылка генома. Открыть окно командной строки (cmd) и перейдите к папке исполняемые объекты PoGo (например, C:\PoGo\Executables\). Введите следующую команду:PoGo.exe – gtf \PATH\TO\GTF – fasta \PATH\TO\FASTA-в \PATH\TO\IN-формат кровать-видов MYSPECIES Замените \PATH\TO\GTF, \PATH\TO\FASTA и \PATH\TO\IN с путями к аннотацию GTF, протеин последовательность FASTA и пептид идентификации файл (в формате 4-колонки с файлом окончание «.tsv» или «.pogo») соответственно. Также замените MYSPECIES видов, согласуются с данными (например, человека). Подтвердите выполнение, нажав клавишу «Enter». Дождитесь завершения выполнения перед прогрессирует любые дальнейшие.Примечание: Это может занять несколько минут. Получившийся файл будет храниться в той же папке входного файла пептида и будут рассматриваться как \PATH\TO\OUT.pogo.bed в следующем. Извлечение только вариант пептиды из входного файла. Открытый R и нагрузки ввода файла \PATH\TO\IN с помощью следующей команды:интервьюеровВвод <-read.table("PATH/TO/IN",header=TRUE,sep="\t") Загрузите уже сопоставленный пептиды, используя команду:mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE) Удаление пептидов, которые уже были сопоставлены с интервьюеровВвод:peptidesnotmapped <-интервьюеровВвод [! () интервьюеровВвод $пептид % в % mappedpeptides$ V4)] Печать несопоставленные пептидов в новый входной файл:Write.Table (peptidesnotmapped, «PATH\TO\IN.notmapped.pogo», заголовок = FALSE, Сен = “\t”, col.names=TRUE,row.names=FALSE,quote=FALSE) Карта оставшихся пептидов в геноме ссылки, позволяя несоответствия. Как шаг 3.1 Откройте командную строку и перейдите к папке исполняемые объекты PoGo. Тип команды ниже позволяет 1 аминокислоты несоответствие и замены \PATH\TO\GTF, \PATH\TO\FASTA и \PATH\TO\IN.notmapped.pogo с путями к аннотации GTF, белок последовательность FASTA и пептида идентификационный файл, созданный в шаге 3.2. Также замените MYSPECIES видов, согласуются с данными (например, человека). PoGo.exe – gtf \PATH\TO\GTF – fasta \PATH\TO\FASTA-в \PATH\TO\IN-формат кроватью-вид MYSPECIES -мм 1 Подтвердите выполнение команды, нажимая клавишу «Enter». Дождитесь завершения выполнения перед прогрессирует любые дальнейшие.Примечание: Это может занять несколько минут. Получившийся файл будет храниться в той же папке входного файла пептида и будут рассматриваться как \PATH\TO\OUT.pogo_1MM.bed в следующем. Визуализируйте пептиды, сопоставленных без и с несоответствие в IGV как описано в шаге 2.2. 4. сопоставление с использованием нескольких файлов и генерации трек концентраторы для больших наборов данных Картирование пептидов из нескольких файлов с помощью PoGoGUI Перейдите к папке исполняемые файлы и запустите программу GUI, запустив PoGoGUI-vX.X.X.jar. Выберите исполняемый файл Пого для операционной системы используется (здесь Linux), а также ссылки ввода белковых последовательностей FASTA файл и файл GTF аннотации, как описано в протоколе меры 2.1.2 – 2.1.4. Добавьте файлы идентификации пептид, используя кнопку Добавить рядом с «Пептид файлы»; Выбор нескольких файлов включена, а также drag-and-drop в пустое поле под «Пептид файлы». Снимите флажки рядом с PTM кровать, GTF и GCT в разделе форматы вывода и только оставить кровати проверяется. Выберите вариант Объединение нескольких входных файлов в один выходной.Примечание: Это приведет в один выходной файл, объединяя все пептиды входных файлов. Оставляя этот параметр не выбран приведет к последовательному выполнению программы для каждого входного файла отдельно. Выберите соответствующие виды для данных из раскрывающегося списка Выбор согласуется с файлами FASTA и ГЦФ. Начните сопоставление, нажав кнопку « Пуск ». При необходимости, программа будет преобразовать входные файлы в формат pogo. Это может занять некоторое время для выполнения. В то же время скачайте необходимые инструменты и сценарии для поколения хаб трек. Подготовка к трек поколения хаб Откройте веб-обозреватель, перейдите к https://github.com/cschlaffner/TrackHubGenerator и скачать файл «TrackHubGenerator.pl». Сохраните файл в папке исполняемые объекты. В веб-браузере перейдите к www.hgdownload.soe.ucsc.edu/admin/exe/ и выберите папку для операционной системы (здесь Linux). Скачайте инструмент bedToBigBed и сценарий fetchChromSizes в папке исполняемые27. Создание концентратора трек из сопоставленных пептидыПримечание: После завершения сопоставления пептиды PoGoGUI концентратор трек можно создавать автоматически в результате файлов в формате кровати, хранящихся в той же папке. Откройте окно терминала и введите следующую команду:Perl TrackHubGenerator.pl путь/к/имя сборки FBED UCSC электронной почты Заменить в путь путь к файлу и имя для концентратора трек (например, ~/PoGo/Data/Mytrackhub), Ассамблея с геном Ассамблеи, на которой аннотации — на основе (например, hg38 для человека), FBED на путь к папке, содержащей КРОВАТИ файлы на которой будет основываться трек хаб (например, ~/PoGo/Data/), UCSC с папки, где хранятся инструменты, загруженных из UCSC (например, ~/PoGo/Executables/) и электронной почты с адреса электронной почты для лица, ответственного за трек хаб. Подтвердите выполнение, нажав клавишу «Enter»; выполнение только примет некоторое время для завершения. Передать созданный трек хаб (то есть, созданной папки ~/PoGo/Data/Mytrackhub/) со всем его содержимым веб доступ FTP-сервер.Примечание: Сервер FTP с связанного веб-сервер позволяет доступ к концентратору трек через протоколы ftp и http является предпочтительным. Хранилищ github (github.com) и figshare (figshare.com) поддерживают этот тип доступа и может использоваться вместо FTP-сервера. Визуализация трека хаб в браузере геноме UCSC В веб-браузере, перейдите к https://genome.ucsc.edu/ и выберите MyData | Отслеживание узлов. Перейдите на вкладку My концентраторы. Скопируйте URL-адрес к концентратору трек в текстовое поле.Примечание: URL-адрес состоит из адреса сервера, трек хаб расположение и имя и файл hub.txt (например, http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt). Загрузите трек хаб, нажав Добавить хаб.Примечание: Концентратор будет загружена и появится короткое сообщение, указав детали трек хаб, например его имя, контактную информацию лица, ответственного за трек концентратора, и сборка генома. Веб-сайт будет вернуться на главную страницу. Выберите GenomeBrowser , чтобы ввести представление браузера.Примечание: Пользовательские трек концентратора будет показан в верхней части списка. Если несколько файлов кровать построен основой для концентратора трек, каждый из файлов будет представлен как отдельный трек в концентратор.

Representative Results

Графическое изображение, подчеркнув, в которой применяется стадии рабочего процесса регулярных proteomic ПОГО18 , а также ниже по течению параметры визуализации, показан на рисунке 5. Ружье протеомики (то есть, протеолитических переваривание белков, следуют жидкостной хроматографии в сочетании с тандем масс-спектрометрия) является один шаг коляска proteogenomic сопоставления. Результате массового спектры тандем обычно сравниваются с Теоретические спектры, производные от баз данных последовательности белка. Протеогеномики исследования ввести перевод последовательности Роман стенограммы с кодирования потенциал и не являются синонимами единичных нуклеотидных варианты (SNVs) в базу данных, что делает его трудно соотнести эти обратно в геном ссылка8. Графический интерфейс пользователя ПОГО (PoGoGUI) поддерживает форматы файлов для стандартизированной отчетности пептид идентификации от масс-спектрометрии экспериментов и преобразует их в формат упрощенной 4-колонки pogo. PoGoGUI служит оболочкой для программы командной строки ПОГО и таким образом позволяет отображение пептидов на геном координаты, используя ссылку аннотации белка кодирование генов, обычно предусмотрено в ГЦФ и последовательности переведенный текст в формате FASTA. Различных форматах генерируются PoGo возможность визуализации различных аспектов пептиды, выявленных с помощью масс-спектрометрии, в том числе столб-поступательные изменения и пептида уровня количественная оценка. Выходные файлы в постели можно далее преобразуется и объединены в онлайн доступны каталоги, называется трек концентраторы. Один выходные файлы, а также трек концентраторы, затем могут быть визуализированы в браузерах, таких как браузер геноме UCSC25, Ensembl генома браузер20, IGV24и Biodalliance28 (см. Нижний Рисунок 5 ). Мы применили PoGo к реанализа проект протеома человека карты фильтруют на большое значение, как описано в Райт и др. 7 и сравнил его с двух других инструментов для proteogenomic карт, а именно группе14 и PGx10. Набор данных состоит из 233,055 уникальный пептиды через 59 взрослых и плода ткани, что приводит к в общей сложности более 3 миллионов последовательностями. Пого превысили эти инструменты в среде выполнения (6,9 x и 96,4 x быстрее, соответственно) и использование памяти (20% и 60% меньше памяти, соответственно) как показано на рисунке 618. На рисунке 7приведен пример успешно сопоставленным пептида. В то время как пого значительно превосходит другие инструменты в скорости и памяти, он также способен столб-поступательные изменения сопоставления и количественной информации, связанной с пептидами на геном. Рис. 8А схематически изображает визуализации кровати формата в браузере генома для пептидов, сопоставление один Экзон и через сращивания развязок. Пого использует вариант раскраски для предоставления легко визуальная отношении уникальность пептид картирования в геноме. Сопоставления в красном указывают неповторимость единого стенограмма, а черные моменты сопоставление одного гена. Однако пептид распределяется между различными стенограмм. Серый сопоставления показывают пептид совместно между несколькими генами. Таковы, например, менее надежной количественной оценки гена или ненадежным для вызова выражения гена. PTM кровать вариант PoGo переопределяет цветовой код для размещения различных типов столб-поступательные изменения, как показано на Рисунок 8B. Кроме того PTMs обозначаются блоков толщиной (см. Рисунок 8B). Один PTM типа выделен блок толщиной в позиции модифицированных аминокислотных остатков, в то время как несколько PTMs того же типа занимаемых толщиной блока от первых модифицированных амино кислоты до последнего. Мы применили ПОГО и впоследствии TrackHubGenerator в набор 50 колоректальный рак клеточных линий, включая весь протеома и phosphoproteome29. Хотя трек хаб, загруженной в браузере геноме UCSC показывает пептиды, сопоставляются с геном и подчеркивает уникальность сопоставления и фосфорилирование сайты (см. рис. 9), дополнительные данные предоставляются дополнительные папки. GCT файлы затем включите визуализации пептида и phosphopeptide количественный в геномной контексте. Однако файлы GCT не обеспечивают простой визуализации пептидов, охватывающих через соединитель развязок (см. рис. 10 Топ). Пептиды через соединитель развязок разделены на их соответствующих частей сопоставления экзонов. Хотя это можно определить соединитель пептиды через те же количественные значения экзона сопоставлений, загрузки сопоставлений на основе последовательности файлов например, кровать или GTF, подключите экзонов, тонкий Интрон, охватывающих линию поддержки толкования (см. Рисунок 10 внизу). Чтобы подчеркнуть полезность вариант включено сопоставление, мы применили ПОГО в двух конфигурациях для dataset протеома человека яичек, Поиск против neXtProt охотиться за отсутствующих белков, с использованием нескольких ферментных стратегии22. NeXtProt включает в себя помимо ссылки белковых последовательностей более 5 миллионов одной аминокислоты варианты30. Сопоставление пептиды, отождествляется с одной аминокислоты вариант не поддерживается другими средствами отображения. В общей сложности 177,012 уникальный пептиды были определены. Из них пептиды 99,8% (176,694) были впервые успешно сопоставлены не позволяя несоответствия. Удаление из списка выявленных пептид привели к 0,2% (318) пептидов, которые впоследствии были сопоставленных позволяя одной аминокислоты замены. Это привело к 3.446 сопоставления 162 пептидов, которые не были сопоставлены с геном ссылки с других доступных инструментов. В то время как среднее количество сопоставлений, включая несоответствие является высоким, 62 пептиды были сопоставлены только один локус, указывающее истинный вариант последовательности. Пример пептида, сопоставленных с одной аминокислоты замены выделяется с его последовательности и переведенного геномные последовательности на рисунке 11. Рисунок 1. Визуальное сравнение инструментов различных пептид геном картографирования. Что касается различных аспектов показано сравнение. Эти аспекты включают в себя ссылку на сопоставление, уровень интеграции в рамки и поддержку онлайн и оффлайн браузеры. Кроме того новые аспекты Протеогеномики и их функция поддержки выделяется отдельно. Пого не хватает только возможность непосредственно сопоставляются генома, по сравнению с другими инструментами. Однако он поддерживает все новых функций, которые не поддерживают большинство других инструментов. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 2. Пример ввода файла для сопоставления пептиды. Пого принимает входные данные в формате табуляцией с 4 колонками. Заголовки столбцов в первой строке являются «Эксперимент», «Пептид», «PSMs» и «Квант», указывающий в следующих строках эксперимент или образец идентификатора, последовательность пептид, количество матчей пептид спектра и количественное значение для пептида, соответственно. Поддерживаемые расширения имен файлов *.txt, *.tsv и *.pogo. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 3. PoGoGUI интерфейс с выделенных шагов для выбора файлов и настройки параметров. На рисунке показаны шаги для выбора и загрузки всех необходимых файлов и выбор вариантов для сопоставления пептиды с столб-поступательные изменения на геном человека ссылки. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 4. Скриншот интегративной геномики просмотра (IGV) данных добавлено процедуры. Фигура освещает шаги, необходимые для загрузки ПОГО выходных файлов в браузере IGV. Кроме того он показывает параметр расширения трек сопоставленных пептиды, чтобы выделить картирования и последовательности. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 5. Упрощенный процесс визуализации в геном браузеров в нескольких шагах от LC-MS/MS. Пого сопоставления следует идентификация пептидов из массы спектры тандем. Для достижения картирования генома, ПОГО использует ссылку аннотации, как Аннотация геномов (ГЦФ) и Стенограмма перевод последовательности (FASTA). Различные форматы создаются вывода, который может быть загружен отдельно в геном браузеров. Кроме того файлы в формате кровати могут быть объединены в трек центров поддержки визуализации крупных наборов данных. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 6. Бенчмаркинг ПОГО против PGx и группе. Пого превосходит другие инструменты на бенчмаркинг. Картирование 233,055 уникальный пептиды через 59 взрослых и плода ткани, что приводит к более 3 миллионов последовательностями, ПОГО была 6,9 x и 96,4 x быстрее, чем PGx и группе, соответственно. Кроме того ПОГО требуется 20% и 60% меньше памяти по сравнению с PGx и группе, соответственно. В то время как пого и PGx завершился успешно, группе привели к ошибка памяти в 16 ГБ. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 7. Геноме UCSC браузера пример представления сопоставленных пептидов. На рисунке показана пептиды, сопоставляются mTOR ген. В то время как комбинированные трек показывает пептиды, охватывающих через соединитель развязок и сопоставления только один Экзон с связанные последовательности, ткани конкретные треки только выделить сопоставление в сжатый формат. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 8. Схема сопоставления визуализации и цветовое кодирование. (A) в файле вывода стандартной кроватью, пептиды, сопоставление экзона отображаются в виде единого блока (слева), в то время как пептиды, сопоставление через несколько экзонов голы экзона, охватывающих частей как блоки (справа). Интронов показываются тонкие линии объединения. Пого цвет-коды уникальность сопоставления или пептиды генов, и стенограммы с использованием 3-уровневой системы. (B) помимо блочную структуру формата кровати, кровать PTM вывода подчеркивает позицию столб-поступательные изменения блоков толщиной. Наличие единого PTM типа подчеркивает изменение аминокислотных остатков с толщиной блока, в то время как несколько сайтов же PTM объединяются в длинные блоки, охватывающих от первой до последней модификации сайта. Пептид сопоставлений далее разделены PTM тип и цвет кодека на основе модификации. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 9. Отслеживать хаб Просмотр в браузере геноме UCSC колоректального рака протеома и phosphoproteome данных. Трек концентратора включает в себя весь протеома данных, а также phosphoproteome. В то время как красный цвет в протеома и phosphoproteome треков указывают уникальность сопоставление одного запись SFN, треки, заканчивающийся в _ptm Показать сайты фосфорилирования внутри пептиды. Здесь красный цвет указывает тип изменения как фосфорилирования. Было выявлено только два пептиды с каждым показаны один фосфорилирования (блоков толщиной). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 10. Вид phosphopeptides колоректального рака и связанные количественный в IGV. На рисунке показано подмножество 50 рак клеточных линий. Он Кроме того показывает четыре колонны блоков в различных оттенков света красный. Цвет указывает относительное изобилие от низкого (белый) до высокого (красный). В то время как четыре колонны первоначально может привести к считаю, что есть 4 пептиды, становится ясно, с связанный на основе последовательности GTF выходного файла что они на самом деле два пептиды, каждый охватывающих сплайс-Джанкшен. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 11. Просмотр пептида с вариантом аминокислоты в IGV. На рисунке показана пептид с одной аминокислоты вариант сопоставляется геном ссылку в начале перевод гена GPSM1. Вариант позиционируется на аминокислотный остаток 8 и результаты при замещении аланина валина (A→V). Последовательности перевода аннотированных стенограммы (синий) выделить вариант по сравнению с пептидной последовательности. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Discussion

Этот протокол описывает, как программа ПОГО и его графический интерфейс пользователя PoGoGUI сопоставление быстро пептидов на геном координаты. Инструмент предлагает уникальные возможности, такие как количественных, столб-поступательные изменения и вариант с поддержкой сопоставления с помощью ссылки Аннотация геномов. Эта статья демонстрирует метод на крупномасштабных proteogenomic исследование и подчеркивается его скорости и памяти эффективность по сравнению с другими доступные инструменты18. В сочетании с инструментом TrackHubGenerator, который создает онлайн доступных узлов геномных и геном связанные данные, PoGo, с ее графический интерфейс пользователя, исследования крупномасштабных Протеогеномики позволяет быстро визуализировать свои данные в геномной контексте. Кроме того мы продемонстрировать уникальные особенности Пого с наборами данных, Поиск вариант баз данных и количественных phosphoproteomics22,29.

Отдельные файлы, например файл GCT, предоставляют ценные визуализации и связи между пептид особенности и геномная локусов. Однако важно отметить, что толкование на основе этих только может быть трудно или вводящей в заблуждение из-за их ограничение одного аспекты Протеогеномики например, уникальность, столб-поступательные изменения и количественных значений. Таким образом важно тщательно выбирать, какие выходные файлы, параметры и комбинации подходят для proteogenomic вопрос на руку и изменить комбинации. Например информация об уникальности сопоставление конкретных геномной Локус может быть большую ценность для аннотации геномной компонента7, в то время как количественная оценка через различных образцов может быть более подходящим для исследований, касающихся Геномный возможности изменения белка изобилие29. Вывод должен быть порождена Пого для каждого параметра. В случае, если выходные данные не создаются, или пустые файлы показываются в выходной папке, рекомендуется проверить входные файлы для нужного содержимого и требуемый формат. В тех случаях, когда формат файла или содержание не следовать ожидания ПОГО (например, файл FASTA, предположительно содержащие Стенограмма перевод последовательностей содержит нуклеотидные последовательности стенограммы), сообщения об ошибках будут запрашивать у пользователя Проверка входных файлов.

Ограничения протокола и инструмент главным образом основаны на повторное использование форматов файлов, часто используемые в геномике. Повторное использование форматов файлов, используемых в геномике для proteogenomic приложений сопровождается конкретными ограничениями. Они объясняются различные наборы требований для визуализации генома центру геномных и proteogenomic данных, например необходимости визуализировать столб-поступательные изменения данных протеомики. В форматах файлов геномика это ограничивается одной особенностью использования. Многие подходы и инструменты были разработаны для протеомики уверенно локализовать столб-поступательные изменения внутри пептид последовательности31,,3233,34. Однако визуализации нескольких модификаций в уникальный и заметной форме о геноме препятствует структура геномной форматов. Таким образом единый блок визуализации нескольких PTMs того же типа не являются двусмысленности модификации сайтов, но является следствием различий требование от геномики сообщества только визуализировать отдельные функции одновременно. Тем не менее ПОГО имеет преимущество столб-поступательные изменения сопоставления на геномной координаты для включения исследований было сосредоточено на влиянии геномной функций, таких как единичных нуклеотидных варианты на столб-поступательные изменения. С помощью PoGo, вариант отображения увеличивает количество общего сопоставления. Однако уникальный цвет сопоставленных пептидов подчеркивает надежного сопоставления от ненадежной из них. Картирование вариант пептиды из известных единичных нуклеотидных вариантов может сопровождаться визуализации сопоставленных пептидов вместе с вариантами в VCF формат. Таким образом, цветовой код, указывающий сопоставление ненадежный вариант пептида отклонено присутствие известных нуклеотидов вариант.

Важным шагом для использования ПОГО является использование правильных файлов и форматов. Использование последовательностей переведенный текст как белковых последовательностей сопровождать заметки в формате GTF является основным критерием. Другим важным элементом при рассмотрении с использованием PoGo для сопоставления пептиды с аминокислоты несоответствия является память. Хотя памяти высокоэффективный для стандартного приложения, значительно и экспоненциально растущего числа возможных сопоставлений с одним или двумя несоответствия приводит к аналогичным образом экспоненциальный рост использования памяти18. Мы предлагаем поэтапную сопоставления, как описано в настоящем Протоколе сначала карта пептиды без несоответствия и удалять их из набора. Последующих ранее несопоставленные пептиды затем могут быть сопоставлены с помощью одного несоответствия, и процедура может повторяться с двумя несоответствия для пептидов, оставаясь несопоставленные.

Поскольку пропускная способность масс-спектрометрии значительно возросло и взаимодействие геномных исследований и протеомических данных становятся все более частыми в последние годы, являются инструментами, позволяющими легко взаимодействие этих типов данных в той же системе координат все более необходимым. Инструмент, представленная здесь будет помощи необходимо сочетать геномных и протеомических данных для повышения понимания комплексных исследований через малые и большие наборы данных путем сопоставления пептидов на ссылку аннотации. Отрадно, что ПОГО был применен для сопоставления пептиды генов кандидатов в том же формате как ссылку аннотации для поддержки усилий аннотации Роман генов, выраженная в человека яичек35. Представленный здесь подход не зависит от баз данных, используемых для идентификации пептида. Протокол может помочь в идентификации и визуализация Роман перевод продуктов с помощью адаптированных входных файлов перевода последовательностей и ГЦФ файлов от РНК seq экспериментов, связанных.

Несколько подходов и инструментов с широкий спектр сценариев специальных приложений для сопоставления пептиды геномной координат, начиная от сопоставления пептиды непосредственно в геноме РНК последовательности руководствоваться сопоставлению, были введены в10, 11 , 12 , 13 , 14 , 15 , 16 , 17. Однако, это может привести к неспособности правильно сопоставлять пептиды, когда присутствуют столб-поступательные изменения и ошибки в базовых карт РНК последовательности чтения может распространяться до уровня пептида. ПОГО была разработана специально преодолеть эти препятствия и справляться с быстрым ростом количественных разрешением proteomic наборов данных для интеграции с ортогональными геномики платформ. Инструмент, описанный здесь могут быть интегрированы в высокопроизводительных рабочих процессов. Через графический интерфейс PoGoGUI инструмент прост в использовании и не требует специалист биоинформатики подготовки.

開示

The authors have nothing to disclose.

Acknowledgements

Эта работа финансировалась Уэллком траст (WT098051) и гранта NIH (U41HG007234) в проект GENCODE.

Materials

PoGo (software) NA NA https://github.com/cschlaffner/PoGo
PoGoGUI (software) NA NA https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (software) NA NA https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (software) NA NA http://software.broadinstitute.org/software/igv/
UCSC genome browser (website) NA NA https://genome.ucsc.edu/
GENCODE (website) NA NA http://gencodegenes.org
Ensembl (website) NA NA http://ensembl.org
bedToBigBed (software) NA NA http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (software) NA NA http://hgdownload.soe.ucsc.edu/admin/exe/

参考文献

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
  2. Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
  3. Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
  4. Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
  5. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
  6. Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
  7. Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778 (2016).
  8. Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
  9. Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
  10. Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
  11. Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. バイオインフォマティクス. 33 (8), 1218-1220 (2017).
  12. Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
  13. Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293 (2016).
  14. Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246 (2012).
  15. Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
  16. Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
  17. Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
  18. Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
  19. Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
  20. Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
  21. Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. バイオインフォマティクス. 31 (17), 2903-2905 (2015).
  22. Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
  23. Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
  24. Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
  25. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  26. The R Development Core Team. . R: A Language and Environment for Statistical Computing. , (2008).
  27. Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. バイオインフォマティクス. 26 (17), 2204-2207 (2010).
  28. Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. バイオインフォマティクス. 27 (6), 889-890 (2011).
  29. Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
  30. Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
  31. Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
  32. Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. バイオインフォマティクス. 31 (7), 1141-1143 (2015).
  33. Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
  34. Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
  35. Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Play Video

記事を引用
Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Steen, J. A., Choudhary, J. S. A Fast and Quantitative Method for Post-translational Modification and Variant Enabled Mapping of Peptides to Genomes. J. Vis. Exp. (135), e57633, doi:10.3791/57633 (2018).

View Video