Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Белковые выравнивания обычно используются для оценки сходства белковых остатков, и полученный консенсусной последовательности используется для идентификации функциональных блоков (например, домены). Традиционные модели формирования консенсуса не приходится interpositional зависимостей – функционально необходимого ковариации остатков, которые, как правило, появляются одновременно в ходе эволюции и через phylogentic дерева. Эти отношения могут выявить важную информацию о процессах сворачивания белков, термостабильность и формирования функциональных сайтов, которые, в свою очередь могут быть использованы для информирования инженерно синтетических белков. К сожалению, эти отношения существенно образуют суб-мотивы, которые не могут быть предсказана путем простой "большинством правило" или общепринятыми моделями даже СММ на основе, и результат может быть биологически недействительным "консенсус", который не является только не видел в природе, но менее жизнеспособны чем любой сохранившихся белка. Мы разработали визуальное апalytics инструмент, StickWRLD, которая создает интерактивную 3D представление выравнивания белка и четко отображает ковариации остатков. Пользователь имеет возможность панорамирования и масштабирования, а также динамически изменять статистический порог, лежащий в основе идентификации ковариантов. StickWRLD ранее были успешно использованы для выявления функционально-необходимые остатки ковариации в белков, таких как аденилаткиназы и в последовательностях ДНК, таких как эндонуклеазы целевых сайтов.
Белковые выравнивания уже давно используется для оценки сходства остатков в семье белка. Часто наиболее интересные особенности белка (например, каталитические или другие сайты связывания) являются результатом сворачивания белка чего дистальных отделах линейной последовательности в контакт, и в результате эти, по-видимому, не связанные области в соответствие, как правило, развиваются и изменяются в скоординированной. В других случаях, функция белка может зависеть от его электростатического подписи, и мутации, которые влияют на электронный диполь компенсируются изменений в отдаленных заряженных остатков. Аллостерические эффекты могут также вызвать долгосрочные последовательные и пространственные зависимости между вычетов идентичностей. Независимо от их происхождения, эти функционально-необходимые ковариации остатков – между позиционные зависимости (IPDS) – не может быть очевидным с визуального осмотра выравнивания (рис 1). Идентификация IPDS – а такжекакие конкретные остатки в этих позиций, как правило, covary как единое целое – может выявить важную информацию о процессах сворачивания белка и образованию функциональных сайтов. Эта информация может быть использована для оптимизации синтетические (система) белки по термостабильности и активности. Давно известно, что не все точечные мутации в направлении консенсуса обеспечить улучшенную стабильность или активность. Совсем недавно, белки предназначен, чтобы воспользоваться известными IPDS в их последовательности, как было показано, чтобы привести к большей активностью, чем такой же белок, предназначенный исключительно из консенсусной 1,2 (рукописи в процессе подготовки), похожего на идее стабилизации точечные мутации 3.
К сожалению, традиционные модели формирования консенсуса (например, правило большинства) только захватить IPDS случайно. Консенсус и положение Удельная оценочная матрица методы не знают IPDS и только "правильно 'включить их в модели, когда зависимых остатковтакже являются наиболее популярными для остатков этих позиций в семье. Сеть модели Маркова могут захватить IPDS, когда они последовательно проксимальных, но их типичная реализация игнорирует все, кроме непосредственных соседей последовательных, и даже в лучшем случае, расчеты скрытой модели Маркова (см рисунок 2) становятся неразрешимыми, когда зависимостей разделены в последовательности более чем дюжины позиции 4. Поскольку эти IPDS существу образуют "суб-мотивы", которые не могут быть предсказана путем простой "большинством" правило консенсуса или моделей даже СММ-5,6 на базе результат может быть биологически недействительным "консенсус", который не является только не видел в природе, но это менее жизнеспособными, чем любая сохранившихся белка. Системы, основанные на марковских случайных полей, таких как GREMLIN 7, пытаются преодолеть эти проблемы. Кроме то время как сложные биологические / биохимические методы, такие как несмежный рекомбинации 3,8 могут быть использованы для IDEntify существенные элементы белка по регионам, они требуют значительных затрат времени и слесарно для точной одного базового пара должны быть достигнуты.
StickWRLD 9 на основе программы на Python, что создает интерактивный 3D представление выравнивания белка, что делает IPDS ясно и легко понять. Каждая позиция в выравнивании представлена в виде столбца в дисплее, где каждый столбец состоит из стопки сфер, по одному для каждой из 20 аминокислот, которые могут присутствовать в таком положении в течение выравнивания. Размер сфера зависит от частоты встречаемости аминокислоты, так что пользователь может сразу подбирать консенсуса остаток или относительное распределение аминокислот в этом положении, просто посмотрев на размер сфер. Колонки, представляющие каждую позицию обернуты вокруг цилиндра. Это дает все сферы, представляющий возможную аминокислоту в каждом положении в створе, ясное 'прямой видимости "чтобы любой другой возможности аминокислоты в любом другом положении. До визуализации, StickWRLD вычисляет корреляции между прочность всех возможных комбинаций остатков для идентификации IPDS 9. Для представления IPDS, линии проведены между остатками, которые в coevolving выше, или ниже, чем можно было бы ожидать, если остатки, присутствующие в положениях были независимыми (IPDS).
Это не только визуализации шоу, какие позиции последовательности взаимодействовать эволюционно, но, как краевые линии IPD рисуются между аминокислотными сфер в каждой колонке, пользователь может быстро определить, какие конкретные аминокислоты, как правило, coevolving в каждом положении. Пользователь имеет возможность поворота и исследовать структуру визуализировать IPD, а также динамически изменять статистические пороги управления отображением корреляций, делает StickWRLD мощный инструмент для обнаружения IPDS.
Такие приложения, как гном 7 similАрли отображать сложные реляционной информацией между остатками – но эти отношения вычисляются с помощью более традиционных моделей Маркова, которые не предназначены для определения любых условных связей. Таким образом, они способны быть отображены в виде 2D проекций. Напротив, StickWRLD можно вычислить и отобразить многоузловых условные зависимости, которые могут быть затемненный если оно вынесено в 2D графике (явление, известное как края окклюзии).
StickWRLD в 3D вид также имеет ряд других преимуществ. Позволяя пользователям управлять визуальных – панорамирование, вращение, и масштабирование – функции, которые могут быть затемненный или неинтуитивными в 2D представлении могут быть более легко увидеть в 3D цилиндра StickWRLD. StickWRLD существу визуальный инструмент аналитика, используя мощь способности распознавания человеческого мозга, чтобы увидеть закономерности и тенденции, и способность исследовать данные с различных точек зрения поддается на это.
StickWRLD успешно используется для выявления таких IPDS в крышке области аденилаткиназы 16, а также связанные базы ДНК в Ро-зависимой терминаторов 9 и роман сплайсинга сайт специфика в архей тРНК эндонуклеазы интрон 6 целевых сайтов. Эти IPDS не были обнаружены с помощью прямого изучения рядах.
StickWRLD отображает каждую позицию в створе как колонны 20 «сферах», где каждая сфера представляет собой один из остатков 20 аминокислот и размера области указывает на частоту возникновения этой конкретной остатка в этом столбце (рисунок 4). Колонны расположены в цилиндре, с краевые линии соединения остатков в разных колонках (с указанием МПД). Эти краевые линии только обращается, если соответствующие остатки ковариации на частоте превосходства как р-значение (значения) и остаточные (ожидаемые – наблюдаемые) пороги.
Обнаружение сопутствующих взаимозависимых остатков, или IPDS, в дистальных отделах выравниванием ДНК или белка последовательности сложно с помощью стандартной последовательности выравнивания инструменты 6. Хотя такие инструменты генерации консенсуса, или мотив, последовательности, этот консенсус во многих случаях простое большинство, правило усреднения и не передать ковариационными отношения, которые могут образовывать один или несколько суб-мотивы – группы остатков, которые, как правило, совместно развиваться. Даже НММ модели, которые способны обнаруживать соседние зависимостей, не может точно модель мотивы последовательности с дистальной IPDS 5. Результатом является то, что рассчитывается консенсус в действительности может быть «синтетический» последовательность не встречается в природе – белки и сконструированные на основе такого вычислительного консенсуса не может, по сути, является оптимальным. В самом деле, Pfam СММ для ADK бы предположить, что химерный белок, содержащий половину tetracysteine мотив, и половина из Н, S, D, Т мотив, функционально как приемлемаякак и любой реально существующей ADK. Это не так, поскольку такие химеры (и многие другие купажи этих мотивов) каталитически мертвую 4,19.
При поиске корреляций, важно, что остаточная порог регулировать, чтобы обеспечить открытие соответствующих корреляций установки над уровнем, на котором любые края видели, а затем постепенно наращивает порог обратно порог. Это гарантирует, что только наиболее значимые края считаются изначально.
Альтернативный подход, чтобы начать с остаточной порогового значения крайне низким. Это приводит к отображению всех существенных ребер. Отсюда остаточный порог постепенно может быть увеличена, что позволяет отказаться от кромки, пока образцы не возникают. В то время как этот подход менее полезен при поиске включения конкретных узлов (например, применение знаний в предметной области), это позволяет за открытие неожиданных отношений с использованием StickWRLD, как по отношениюUAL аналитический инструмент, чтобы обнаружить новые закономерности в визуализации данных.
StickWRLD ограничивается в первую очередь доступной памяти системы, на которой он выполняется, а также резолюции устройства отображения. Хотя нет никаких теоретических ограничений на количество точек данных StickWRLD может исследовать, а последовательности до 20000 позиций были протестированы на практике StickWRLD выполняет лучше с последовательностями примерно до 1000 позиций.
Основное преимущество StickWRLD заключается в его способности идентифицировать группы остатков, которые covary друг с другом. Это существенное преимущество по сравнению с традиционным подходом статистического консенсусной последовательности, которая просто статистическое усреднение и не принимать во внимание коэволюции. Хотя в некоторых случаях ковариации остатки могут быть просто артефакт филогении, даже эти остатки выдержали «испытание выбора", и, таким образом, вряд ли умаляет functionaмируемости любого белка инженерии, чтобы включить их.
При использовании StickWRLD для идентификации IPDS в канонической ДНК или белок консенсусной последовательности / Motif до инженерно синтетических вариантов позволит снизить вероятность ошибок и поддерживает быструю оптимизацию функции, следует отметить, что StickWRLD может быть использован в качестве обобщенного идентификации корреляция инструмента и не ограничивается исключительно данными белка. StickWRLD может быть использован, чтобы визуально обнаружить совместное вхождение любых переменных в любой должным кодированного набора данных.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |