OpenProt является свободно доступной базы данных, обеспечивающая полицистронная модель эукариотических геномах. Здесь мы представляем протокол для использования OpenProt баз данных, когда допрос наборов данных масс-спектрометрии. Использование OpenProt база данных для анализа proteomic экспериментов позволяет для обнаружения новых и ранее обнаружить белков.
Аннотация геномов имеет центральное значение для сегодняшней протеомических исследований как он рисует контуры proteomic ландшафта. Традиционные модели открытого чтение фрейма (ORF) Аннотация навязать два произвольных критериев: Минимальная длина 100 кодонов и один ORF на стенограмму. Однако, растущее количество исследований доклад экспрессию белков от якобы-кодирования регионов, сложные точность текущей аннотации генома. Эти роман, которые были найдены белки закодированы либо в пределах некодирующих РНК, 5′ и 3′ непереведенные регионов (необычных) мРНК, или перекрывающихся известный кодирующая последовательность (CD) в качестве альтернативы ORF. OpenProt-это первая база данных, обеспечивающая полицистронная модель для эукариотических геномах, позволяя Аннотация несколько ORFs на стенограмму. OpenProt свободно доступным и предлагает пользовательской загрузки последовательностей белков через 10 видов. С помощью OpenProt базы данных для протеомных экспериментов позволяет обнаружить роман белков и подчеркивает характер полицистронная генов эукариот. Размер базы данных OpenProt (все предсказал белков) является существенным и должны быть приняты в учетной записи для анализа. Однако соответствующие накладные обнаружения (ФДР) настройки или использования ограниченных OpenProt базы данных, пользователи получат более реалистичное представление о proteomic ландшафта. В целом OpenProt является свободно доступные средства, которые будут способствовать proteomic открытий.
За последние десятилетия масс-спектрометрия (МС-) на основе протеомики стал золотой способ расшифровать протеомов эукариотических клеток в1,2,3,4,5. Этот метод основывается на текущей аннотации генома для создания базы данных последовательности белка ссылку, которая излагается сфера возможностей6,,78. Однако геном аннотации проводить произвольные критерии для аннотации ORF, например, минимальная длина 100 кодонов и один ORF на стенограмму9,10. Все большее количество исследований вызов текущую модель аннотации и отчет открытий unannotated функциональных ORFs в эукариотических геномах8,11,12,13, 14. Эти новые белки находятся закодированные в РНК, якобы-кодирования, в 5′ и 3′ untranslated регионов (утр) мРНК, или перекрывающихся канонические последовательности кодирования (ПЗС) в кадре альтернативного. Хотя большинство из этих открытий были счастливое, они демонстрируют предостережения текущей аннотации генома и полицистронная характер Гены эукариот8.
Здесь мы подчеркиваем использование OpenProt баз данных для основанных на MS протеомики. OpenProt — первая база данных провести полицистронная аннотации модель для eukaryotic transcriptomes. Она свободно доступна на www.openprot.org15. Доля этих предсказал бы ORFs случайных и нефункциональные, который является, почему OpenProt кумулирует экспериментальных и функциональных доказательств для повышения доверия. Экспериментальные доказательства включают в себя выражения протеина (в мс) и перевод свидетельства (рибосома профилирования)15. Функциональные доказательства включают Гомология белка (с In-параноик, как подход) и функционального домена предсказание15.
OpenProt предлагает возможность скачать несколько баз данных, содержащего только хорошо поддерживается белки для индивидуальных баз данных. Здесь, мы будем представлять трубопровода для использования баз данных OpenProt и будет предлагать идеи в какой базе данных выбрать, учитывая в экспериментальных целях. Конвейер анализа протеомики, представленные здесь поддерживается Галактика рамки как это открытого доступа и easy-to-use, но баз данных можно работать с любого рабочего процесса по16,17,18. Мы также представим как использовать веб-сайт OpenProt для сбора дополнительной информации о новых белков, обнаруженных г-жа OpenProt использование баз данных будет более исчерпывающего представления proteomic ландшафта и будет способствовать протеомики и биомаркеров открытий в более систематическим образом чем текущие методы.
Этот протокол выделяет использование OpenProt баз данных15 при допросе MS наборов данных; Он не будет рассматривать дизайн эксперимента самого, который был тщательно рассмотрен других20,21,22. В попытке оставаться полностью открытым исходным кодом протокол является свободно доступны (Дополнительный материал S1–S4). Для упрощения чтения, все термины, используемые в OpenProt и настоящим этот протокол определены в таблице 1.
При анализе данных от масс-спектрометры, качество белка идентификации частично зависит от точности используемых баз данных6,20. Нынешние подходы традиционно используют UniProtKB баз данных, однако эти поддерживают минимальную длину 100 кодонов (за исключением ранее продемонстрировал примеры)40и геном аннотации модель одного ORF на стенограмму. Многочисленные исследования касаются недостатков таких баз данных с открытием функциональных ORFs от якобы некодирующих регионов8,11,12,13. Теперь OpenProt позволяет для более тщательной идентификации белков как она рисует белковых последовательностей из нескольких транскриптом аннотации. OpenProt извлекает NCBI RefSeq (GRCh38.p7) и transcriptomes Ensembl (GRCh38.83) и UniProtKB аннотации (UniProtKB-SwissProt, 2017-09-27)40,42,43. Как текущей аннотации представляют мало перекрытия, OpenProt таким образом отображает представление более исчерпывающий потенциальных proteomic пейзаж чем когда ограничивается одной аннотации15.
Кроме того как OpenProt задает строгую модель полицистронная, он позволяет несколько белков аннотации на стенограмму. Для вычислительных и статистических причин OpenProt по-прежнему имеет минимальную длину порога 30 кодонов15. Тем не менее она предсказывает тысячи новых белковых последовательностей, тем самым расширение возможностей для идентификации белков. С этим подходом OpenProt поддерживает proteomic открытий на более систематической основе.
Качество белка идентификации также может зависеть от параметров, которые используются. На основе MS протеомики анализов обычно занимают 1% белка ФДР. Однако вся база данных OpenProt содержит примерно в 6 раз больше записей (рис. 1). Для учета этого существенного увеличения пространства поиска, рекомендуется использовать более строгие ФДР 0,001%. Этот параметр был оптимизирован с помощью базового исследования и ручной оценки случайно выбранных спектры15. Ложный положительный результат по-прежнему являются возможность, хотя, и мы призываем тщательный осмотр и проверка доказательств для новый белок. Рекомендуемый стандарт может быть определение белка от двух разных MS бежит, как справочные данные и ложных срабатываний различаются между15наборов данных.
Конвейера здесь и используется для представления тематических исследований может быть изменен как приятно экспериментальный дизайн и параметры. Мы рекомендуем использовать несколько поисковых систем, как он увеличивает чувствительность и чувствительность пептид идентификации32. Кроме того мы призываем, используя базу данных лучше всего соответствует в экспериментальных целях (рис. 1). Как с помощью весь OpenProt, база данных поставляется с строгий Рузвельта истинной идентификации могут быть потеряны. Таким образом вся база данных должен быть предназначен для обнаружения новых белков, в то время как классическая протеомики профилирования следует использовать меньшие OpenProt баз данных (например, OpenProt_2pep, используемых в тематическом исследовании выше).
OpenProt в настоящее время предсказывает последовательности, начиная с кодоном ГПТ, тогда как несколько исследований выделены инициации перевода на другие кодонов44,45. Когда новый белок определяется один или несколько уникальных пептиды, вполне возможно кодон истинное посвящение не предполагаемой ГПТ. Пользователи могут искать перевод свидетельства на веб-сайте OpenProt. В настоящее время OpenProt сообщает только перевод события, если они касаются всю прогнозируемым белка последовательности (100% совпадения)15. Таким образом отсутствие доказательств перевод не будет означать что белок не переведены, но что кодон начала не может быть предполагаемым ГПТ.
Несмотря на свои текущие ограничения OpenProt предлагает более исчерпывающее представление эукариотических геномах кодирования потенциал. OpenProt баз данных способствуют proteomic открытий и понимание proteomic функций и взаимодействия. Будущие события OpenProt базы данных будет включать аннотацию других видов, перевод свидетельств от не ГПТ начать кодон и развития трубопровода включить Роман белков в весь геном и exome последовательность исследования.
The authors have nothing to disclose.
Мы благодарим Вивиан Delcourt за его помощь, обсуждения и консультации по этой работе. X.R. является членом Fonds de Recherche дю du Québec Santé FRQS-поддерживает центр исследований больничного университетский центр де Шербрук. Это исследование было поддержано Канада исследований кафедры в функциональной протеомики и обнаружения Роман белки Грант СС-137056 X.R. и КНИИЗ. Мы благодарим команда Calcul Квебека и Канады Compute для их поддержки с использованием суперкомпьютеров mp2 из Université de Шербрук. Операция mp2 суперкомпьютер финансируется по Канаде фонд из инноваций (CFI), le ministère де л ‘ экономики, науки-де-ла et de l’innovation du Квебека (МЭСИ) и les Fonds de Recherche Квебека – природа et технологии (FRQ-NT). Галактика сервер, который был использован для некоторых расчетов протеомики частично финансируется за счет совместных исследований центр 992 медицинской эпигенетики (DFG Грант SFB 2012 992/1) и немецкого федерального министерства образования и научных исследований (BMBF предоставляет 031 РБК A538A/A538C, 031L0101B Де /031L0101C. NBI-epi, 031L 0106 де. ЛЕСТНИЦЫ (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |