Здесь мы представляем средство proteogenomic PoGo и протоколы для быстрого, количественных, столб-поступательные изменения и вариант включено сопоставление пептидов, выявленных с помощью масс-спектрометрии на ссылку геномов. Этот инструмент имеет для интеграции и визуализации proteogenomic и личных протеомических исследований взаимодействия с данными ортогональных геномики.
Перекрестных помех между генов, стенограммы и белков является ключом к клеточных реакций; Следовательно анализ молекулярных уровнях как независимых сущностей медленно распространяется на интегративной исследований для углубления понимания молекулярной динамики внутри клетки. Текущий инструменты для визуализации и интеграции с другими наборами данных омику протеомики являются недостаточными для масштабных исследований. Кроме того, они захватить только основная последовательность идентификации, отбрасывая столб-поступательные изменения и количественный. Для решения этих вопросов, мы разработали PoGo для сопоставления пептиды с связанные столб-поступательные изменения и количественной оценки ссылки Аннотация геномов. Кроме того инструмент был разработан для включения сопоставления пептидов из настраиваемые последовательности баз данных, включающих варианты одной аминокислоты. В то время как ПОГО это инструмент командной строки, графический интерфейс PoGoGUI позволяет исследователям не биоинформатики легко сопоставить пептиды 25 видов, поддерживаемых Ensembl генома аннотации. Выводимых заимствует форматов файлов из области геномики и, таким образом, визуализация поддерживается в большинстве браузеров генома. Для масштабных исследований ПОГО поддерживается TrackHubGenerator для создания веб доступных репозиториев данных сопоставляются геномов, позволяющие легко обмена Протеогеномики данных. С небольшим усилием этот инструмент можно сопоставить миллионы пептиды ссылки геномов в течение всего нескольких минут, опережая другие инструменты имеющиеся последовательности идентичности. Этот протокол демонстрирует лучшие подходы для сопоставления Протеогеномики через Пого с публично доступные наборы данных количественного и phosphoproteomics, а также широкомасштабных исследований.
В клетках геном, транскриптом и протеом влияют друг на друга модулировать в ответ на внутренние и внешние раздражители и взаимодействовать друг с другом для выполнения конкретных функций, приводит к болезни и здоровья. Таким образом характеризующие и количественного определения генов, стенограммы и белков имеет решающее значение для полного понимания клеточных процессов. Секвенирование нового поколения (НГС) является одним из наиболее часто применяемых стратегий для выявления и количественной оценки выражения гена и транскрипт. Однако выражение протеина обычно оценивается по масс-спектрометрия (МС). Значительные успехи в течение последнего десятилетия в MS технологии позволило более полной идентификации и количественной оценки протеомов, делая данные сопоставимы с transcriptomics1. Протеогеномики и multi омику как способы интеграции данных NGS и MS стали мощным подходы к оценке клеточных процессов через несколько молекулярных уровнях, выявление подтипы рака и ведущих к Роман потенциальных лекарственных препаратов в рак2 , 3. Важно отметить, что Протеогеномики первоначально было использовано для обеспечения proteomic доказательства для гена и Стенограмма аннотации4. Несколько генов, ранее считалось некодирующих недавно прошли переоценку, учитывая крупномасштабные человеческие ткани наборов данных5,6,7. Кроме того протеомических данных успешно используются для поддержки усилий аннотации в организмы-модель8,9. Однако proteogenomic интеграции данных могут использоваться далее выделить выражение протеина по отношению к геномной особенности и разъяснению перекрестных помех между стенограммы и белков, предоставляя комбинированных эталонной системы и методы для Совместное визуализации.
Для того, чтобы обеспечить общую ссылку для данных геномики, протеомики и transcriptomics, были реализованы многочисленные инструменты для сопоставления пептиды, выявленных с помощью MS на геном координаты10,11,12 ,13,14,,1516,17. Подходы отличаются в такие аспекты, как справочные сведения о сопоставлении, поддержка браузеров геном, и степень интеграции с другими инструментами протеомики, как показано на рисунке 1. Хотя некоторые инструменты карта обратный перевод пептидов на геном16, другие используют поиск двигатель Аннотированная положение внутри белка и Джин аннотации реконструировать нуклеотидной последовательности пептид15. Все еще другие используют 3 – й или 6-й кадр перевод генома для сопоставления пептиды против11,13. Наконец несколько инструментов пропустить нуклеотидные последовательности и использовать аминокислоты последовательность переводов из стенограммы РНК последовательности сопоставлены как промежуточного сопоставить связанные генома координаты10,12, пептиды 14,17. Однако перевод нуклеотидных последовательностей является медленный процесс и склонны к ошибкам, которые распространяют в пептидной сопоставления пользовательских баз данных. Для быстрой и высок объём сопоставления, небольшой и всеобъемлющий справочник имеет решающее значение. Таким образом стандартизированных белка ссылка с координатами связанные генома имеет важное значение для точного пептид для картирования генома. Новые аспекты в Протеогеномики, такие как включение вариантов и столб-поступательные изменения (PTMs)2,3, набирают силу через последние исследования. Однако они обычно не поддерживаются текущей proteogenomic отображение инструментов, как показано на рисунке 1. Для повышения скорости и качества отображения, ПОГО была разработана, инструмент, который позволяет быстро и количественные сопоставления пептидов в геномах18. Кроме того ПОГО позволяет отображение пептиды с до двух вариантов последовательности и аннотированный столб-поступательные изменения.
ПОГО была разработана справляться с быстрым ростом количественных разрешением наборов данных, захватив протеомов и глобальных изменений и Центральный утилитой для крупномасштабных анализа таких личных вариации и точности медицины. Эта статья описывает применение этого инструмента для визуализации присутствие столб-поступательные изменения по отношению к геномной функции. Кроме того эта статья освещает идентификация альтернативного сплайсинга событий через сопоставленные пептидов и картирование пептиды, выявленных через пользовательский вариант базы данных для ведения генома. Этот протокол использует публично доступные наборы данных, загруженных из гордости Архив19 для демонстрации этих функций Пого. Кроме того этот протокол описывает применение TrackHubGenerator для создания онлайн доступных узлов пептидов, сопоставляются геномов для крупномасштабных Протеогеномики исследований.
Этот протокол описывает, как программа ПОГО и его графический интерфейс пользователя PoGoGUI сопоставление быстро пептидов на геном координаты. Инструмент предлагает уникальные возможности, такие как количественных, столб-поступательные изменения и вариант с поддержкой сопоставления с помощью ссылки Аннотация геномов. Эта статья демонстрирует метод на крупномасштабных proteogenomic исследование и подчеркивается его скорости и памяти эффективность по сравнению с другими доступные инструменты18. В сочетании с инструментом TrackHubGenerator, который создает онлайн доступных узлов геномных и геном связанные данные, PoGo, с ее графический интерфейс пользователя, исследования крупномасштабных Протеогеномики позволяет быстро визуализировать свои данные в геномной контексте. Кроме того мы продемонстрировать уникальные особенности Пого с наборами данных, Поиск вариант баз данных и количественных phosphoproteomics22,29.
Отдельные файлы, например файл GCT, предоставляют ценные визуализации и связи между пептид особенности и геномная локусов. Однако важно отметить, что толкование на основе этих только может быть трудно или вводящей в заблуждение из-за их ограничение одного аспекты Протеогеномики например, уникальность, столб-поступательные изменения и количественных значений. Таким образом важно тщательно выбирать, какие выходные файлы, параметры и комбинации подходят для proteogenomic вопрос на руку и изменить комбинации. Например информация об уникальности сопоставление конкретных геномной Локус может быть большую ценность для аннотации геномной компонента7, в то время как количественная оценка через различных образцов может быть более подходящим для исследований, касающихся Геномный возможности изменения белка изобилие29. Вывод должен быть порождена Пого для каждого параметра. В случае, если выходные данные не создаются, или пустые файлы показываются в выходной папке, рекомендуется проверить входные файлы для нужного содержимого и требуемый формат. В тех случаях, когда формат файла или содержание не следовать ожидания ПОГО (например, файл FASTA, предположительно содержащие Стенограмма перевод последовательностей содержит нуклеотидные последовательности стенограммы), сообщения об ошибках будут запрашивать у пользователя Проверка входных файлов.
Ограничения протокола и инструмент главным образом основаны на повторное использование форматов файлов, часто используемые в геномике. Повторное использование форматов файлов, используемых в геномике для proteogenomic приложений сопровождается конкретными ограничениями. Они объясняются различные наборы требований для визуализации генома центру геномных и proteogenomic данных, например необходимости визуализировать столб-поступательные изменения данных протеомики. В форматах файлов геномика это ограничивается одной особенностью использования. Многие подходы и инструменты были разработаны для протеомики уверенно локализовать столб-поступательные изменения внутри пептид последовательности31,,3233,34. Однако визуализации нескольких модификаций в уникальный и заметной форме о геноме препятствует структура геномной форматов. Таким образом единый блок визуализации нескольких PTMs того же типа не являются двусмысленности модификации сайтов, но является следствием различий требование от геномики сообщества только визуализировать отдельные функции одновременно. Тем не менее ПОГО имеет преимущество столб-поступательные изменения сопоставления на геномной координаты для включения исследований было сосредоточено на влиянии геномной функций, таких как единичных нуклеотидных варианты на столб-поступательные изменения. С помощью PoGo, вариант отображения увеличивает количество общего сопоставления. Однако уникальный цвет сопоставленных пептидов подчеркивает надежного сопоставления от ненадежной из них. Картирование вариант пептиды из известных единичных нуклеотидных вариантов может сопровождаться визуализации сопоставленных пептидов вместе с вариантами в VCF формат. Таким образом, цветовой код, указывающий сопоставление ненадежный вариант пептида отклонено присутствие известных нуклеотидов вариант.
Важным шагом для использования ПОГО является использование правильных файлов и форматов. Использование последовательностей переведенный текст как белковых последовательностей сопровождать заметки в формате GTF является основным критерием. Другим важным элементом при рассмотрении с использованием PoGo для сопоставления пептиды с аминокислоты несоответствия является память. Хотя памяти высокоэффективный для стандартного приложения, значительно и экспоненциально растущего числа возможных сопоставлений с одним или двумя несоответствия приводит к аналогичным образом экспоненциальный рост использования памяти18. Мы предлагаем поэтапную сопоставления, как описано в настоящем Протоколе сначала карта пептиды без несоответствия и удалять их из набора. Последующих ранее несопоставленные пептиды затем могут быть сопоставлены с помощью одного несоответствия, и процедура может повторяться с двумя несоответствия для пептидов, оставаясь несопоставленные.
Поскольку пропускная способность масс-спектрометрии значительно возросло и взаимодействие геномных исследований и протеомических данных становятся все более частыми в последние годы, являются инструментами, позволяющими легко взаимодействие этих типов данных в той же системе координат все более необходимым. Инструмент, представленная здесь будет помощи необходимо сочетать геномных и протеомических данных для повышения понимания комплексных исследований через малые и большие наборы данных путем сопоставления пептидов на ссылку аннотации. Отрадно, что ПОГО был применен для сопоставления пептиды генов кандидатов в том же формате как ссылку аннотации для поддержки усилий аннотации Роман генов, выраженная в человека яичек35. Представленный здесь подход не зависит от баз данных, используемых для идентификации пептида. Протокол может помочь в идентификации и визуализация Роман перевод продуктов с помощью адаптированных входных файлов перевода последовательностей и ГЦФ файлов от РНК seq экспериментов, связанных.
Несколько подходов и инструментов с широкий спектр сценариев специальных приложений для сопоставления пептиды геномной координат, начиная от сопоставления пептиды непосредственно в геноме РНК последовательности руководствоваться сопоставлению, были введены в10, 11 , 12 , 13 , 14 , 15 , 16 , 17. Однако, это может привести к неспособности правильно сопоставлять пептиды, когда присутствуют столб-поступательные изменения и ошибки в базовых карт РНК последовательности чтения может распространяться до уровня пептида. ПОГО была разработана специально преодолеть эти препятствия и справляться с быстрым ростом количественных разрешением proteomic наборов данных для интеграции с ортогональными геномики платформ. Инструмент, описанный здесь могут быть интегрированы в высокопроизводительных рабочих процессов. Через графический интерфейс PoGoGUI инструмент прост в использовании и не требует специалист биоинформатики подготовки.
The authors have nothing to disclose.
Эта работа финансировалась Уэллком траст (WT098051) и гранта NIH (U41HG007234) в проект GENCODE.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |