Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Текущие расследования фага принимающих взаимодействий зависят от экстраполяции знания из (мета) геномов. Интересно, что 60 – 95% всех последовательностей фага не имеют ни гомологию с текущим аннотированных белков. В результате, большая часть генов фага выделяются, как гипотетический. Эта реальность в значительной степени влияет на аннотацию структурных и метаболических генов вспомогательных. Здесь мы представляем Phenomic методы, направленные на захват физиологическую реакцию (ы) выбранного хоста во выражению одного из этих неизвестных генов фага. Мульти-фенотип Планшеты (карты) используются для мониторинга разнообразия использования хост подложки и последующим образованием биомассы, в то время как метаболомика обеспечивает анализ би-продукта путем мониторинга метаболит обилие и разнообразие. Оба инструмента используются одновременно, чтобы обеспечить фенотипический профиль, связанный с выражением одного предполагаемого фага открытой рамки считывания (ORF). Представитель результаты обоих методов сравниваются, highlighting фенотипические различия профиль хозяина балансовой либо предполагаемые структурные или метаболических генов фага. Кроме того, методы визуализации и высокой пропускной способности вычислительные трубопроводы, которые способствовали экспериментальный анализ представлены.
Вирусы, заражающие бактерий (ака бактериофага или фага), по оценкам, существует более чем в 10 31 вируса частицы (ВПЧ) в мире и превосходят все другие организмы в среде 1,2. Первый метагеномных исследование исследования вирусных сообществ, связанных с морской среде сосредоточена на количественной разнообразие видел в вирусной фракции 3. Кроме того, Брейтбарт и его коллеги обнаружили, что более 65% из последовательностей вирусных сообщество не разделяет не гомологию с любой последовательности, имеющихся в публичных базах данных. Последующие исследования показали, метагеномных подобное свидетельство: метагеномов из морских отложений в Сан-Диего, Калифорния содержать 75% неизвестных вирусных последовательностей 4; метагеномов из гиперсоленых озер Солтон-Си содержать 98% неизвестных вирусных последовательностей 5; и коралловые связанный метагеномов содержать 95 – 98% неизвестных вирусных последовательностей 6. Это накопление информации Неаннотированный привелоГенетический материал фага быть "темная материя биологического вселенной" 7.
Геномная характеристика фага опирается на выявление сходства, путем сравнения с существующими базами данных нуклеиновых кислот и белков. Потому что фаги генетическая информация кодируется преимущественно неизвестно, гомологии основе методы неэффективны. В своем геноме, фаги, как правило, кодируют три основные типы генных: транскрипции и репликации генов, метаболические гены, и структурные гены. Транскрипции и репликации генов (класс I / II гены 8) включают в себя полимеразы, primases, эндо / экзо-нуклеазы и киназы. Эти гены являются высоко консервативными из-за их важности в фаговой инфекции, расшифровки и репликации фага генетический материал. Фаг-полимеразы легко идентифицировать с помощью традиционных методов гомологической последовательности из-за их глобального сохранения 9 и было показано, что в качестве эффективных филогенетические маркеры 10.В отличие, фага метаболических и структурных генов (класс II / III гены 8) все чаще расходится и часто аннотированный гипотетических генов, как.
Фаговые метаболические гены влияют на метаболические способности хозяина и не обязательно требуется для репликации вируса. Эти гены, которые часто называют в качестве вспомогательных метаболических генов (11) AMGs, по всей видимости, модулируют хоста метаболизм и обеспечивают оптимальную прогрессирование инфекции и успеха вириона созревания. AMGs были связаны с использованием и поглощения питательных веществ предельных или в производстве энергии путей. Некоторые примеры включают в себя гены фотосистемы найдены в геномах различных cyanophage 12-16, гены, связанные с и регулируются фосфатного метаболизма 17,18 и утилизации пентозофосфатного пути для фага дНТФ биосинтеза 18,19. Для сравнения, структурные гены являются одними из середины до поздних генов, полученных во время инфекции и различаются по различным фага-хоул систем. Производство структурных белков зависит от наличия вирусной дНТФ и бассейнов энергии для их транскрипции, трансляции и сборки 8. Капсида и хвост волокна структурных белков, считаются наиболее расходящиеся из всех вирусных генов белков-кодирования и необходимы для успешного производства вириона. Их расхождение обычно связано с активной ролью, которую они играют в формировании вирус-хозяин коэволюции 20. Различные белки, независимо от класса генов, которые легко упускать из виду при использовании традиционных гомологии и выравнивание последовательности методов. Усилия для коррекции ограничений видно со строгими сравнения последовательностей привело к биоинформатики инструментов, способных использовать характеристики последовательности, чтобы определить ассоциацию, например, искусственных нейронных сетей 21. Искусственные нейронные сети (ИНС) позволяют для прогнозирования структурных и метаболических генов, однако, требует экспериментальной проверки потоку непосредственно характеризуютФункция гена.
Целью этой рукописи является предоставление Phenomic протоколов, способных мониторинга катаболические как анаболический и метаболизм в бактерию-хозяина при экспрессии нового гена фага, функционально предсказано через ИНС. Поле phenomics, биологии, связанные с клеточными фенотипами, хорошо известна в системной биологии, чтобы помочь в расследовании белков с неизвестной или плейотропного функции. Phenomic инструменты используются, чтобы связать фенотипические информацию генотипической информации. Мы предполагаем, для предполагаемых генов фага, что их функция (ы) может быть определена с помощью наблюдений принимающих физиологических эффектов во время экспрессии генов фага. Чтобы исследовать эту гипотезу, два количественные методы были выбраны. Мульти-фенотип Планшеты (карты) были использованы для мониторинга использование ресурсов субстрата и последующее образование биомассы, а метаболомика измеряется хозяин метаболит разнообразие и относительное изобилие во время роста удельного ENVIRONпсихические состояния. Предполагаемые структурные и метаболические белки сверхэкспрессируется в кишечной палочки и представительные результаты обоих экспериментов по сравнению. Многочисленные визуальные методы и обработки трубопроводов высокой пропускной представлены для облегчения экспериментальной репликации. Наконец, воспроизводимость и точность представленных методов обсуждаются в контексте ожидаемых физиологических эффектов для аннотированный белка капсида и фага метаболического белка, тиоредоксина, плюс два предполагаемых AMGs.
Здесь мы представляем Phenomic подходы к функциональной характеристике предполагаемых генов фага. Методы включают развитую анализа, способного принимающей мониторинг анаболического обмена веществ, Multi-фенотип Планшеты (карты), в дополнение к установленному методу метаболомике, способного измерять воздействие катаболических метаболизма. Мы предоставили дополнительные инструменты для управления большими наборами данных, связанные с этими технологиями, что позволяет за большой обработки и анализа пропускной 24. Наконец, путем сравнения аннотированный фага белка капсида фага, тиоредоксина, двух предполагаемых метаболических генов фага, и в среднем экспериментальной ответ мы предлагаем различные стратегии для интерпретации как наборы данных и классы генов, с акцентом на выявление тенденций и фенотипических идентификации выбросов.
Как уже упоминалось, оба подхода количественно измерять только половину принимающей метаболизма. Для интерпретации относительной функции любого изновые белки под следствием, данные обоих методов требуется представить доказательства функции. В то время как это не фокус нашего текущего рукописи, выходы данных от каждого Phenomic метода положить через комбинаторных анализов, которые сосредотачиваются на методы кластеризации, таких как случайного леса и анализа главных компонент. Кроме того, гипотезы, вытекающие из совместного анализа должны быть впоследствии подтверждено традиционных генетических методик.
Наконец, методы представлены в значительной степени под влиянием бактериальной физиологии и, следовательно, выполните те же стандарты. При проведении любой метод, соображения должны быть сделаны, чтобы гарантировать независимые клоновых групп экспериментировали с; загрязнение предотвратить; одной переменной испытывается; и соответствующие элементы управления в настоящее время побежал одновременно. Отсутствие учета этих точек приводит к непонятным результатам, аналогичных любой физиологической анализа.
Мульти-фенотип Планшеты(ПДЧ)
Развитие карт обеспечивает высокую пропускную способность и адаптируемой анализа по сравнению с имеющихся в настоящее время технологий (рис 5А и таблицы 1,2). Анализ использует материалы, оборудование и основные методы, доступные во всех микробиологических лабораторий. Включение вычислительного конвейера, PMAnalyzer 24, для последующей обработки и анализа данных обеспечивает быстрое интерпретации данных. Кроме того, обе экспериментальные и аналитические аспекты подхода можно легко регулировать или настроен для индивидуальных целей. Например, если большая часть данных не проходит фильтрацию, описанную в разделе 4, можно вручную просеять через кривые роста для выявления проблем. Если проблема возникает из-за строгих параметров фильтра, корректировка сценария могут быть сделаны. В качестве альтернативы, если проблемы, связанные с экспериментальной процесса (т.е. длительное конденсации; неадекватное передачи бактериального CELLs, и т.д.), то дополнительные повторов может быть легко повторен.
Как описано в Куэвас и др. 24, PMAnalyzer это единая программа Баш написано как сценарий оболочки, который выполняет разбор и анализ сценариев как единое, автоматизированное трубопровода. Все скрипты находятся в свободном доступе из репозитория Git в 25, принимая среднее значение для каждого момента времени через трех экземплярах данных, а затем параметризует логистическую кривую, чтобы получить время задержки, максимальная скорость роста, асимптоты, и новый термин, уровень роста. Среднее значение было выбрано на среднем в нашем исследовании, чтобы уменьшить эффект больших выбросов, однако, этот сценарий может быть легко адаптированы для расчета среднего значения повторных данных. Из-за уменьшения вариации (SE) видно по репликации данных (фиг.2А) мы поддерживали использование медианы в PMAnalyzer для подгонки логарифмической кривой. Кроме того, отрезать для роста в данном исследовании (GL ≥ 0,4) был Determined путем сравнения, как данные разделены по уровня роста и максимальная скорость роста (рис 1а, б). В зависимости от модели и инструменты системы, используемой этот срок может варьироваться, требуя переопределения этого отрезать значение.
Основным преимуществом нашей анализа является возможность сравнить фенотипы с помощью одного параметра, характеризующего общее микробного роста, который мы определяем как уровень роста (GL). GL является средним гармоническим, и, следовательно, уменьшает эффекты больших выбросов в данных. Использование гармонического среднего со сдвинутыми значениями логистических оборудованная обеспечить обзор роста была рассчитана путем проб и ошибок. Другие методы пытались дифференцировать рост включены: время, которое потребовалось для достижения конкретных параметров кривой (половина μ макс, μ макс и грузоподъемностью), коэффициент детерминации (R 2), и в комбинации с R 2, умноженное на конкретных параметров кривой. Использование среднего гармонического со сдвинутымиЗначения логистической подходят для GL условии большой диапазон в оценке роста, таким образом, он стал методом выбора. Одним из факторов, следует отметить, что динамические модели кривой роста имеют потенциал теряется при использовании одного параметра или оборудованная модель. Например, отдельные параметры кривой логистической кривой и GL не способны представлять двухфазный рост. В среде с одним углерода, этот эффект на рост предполагает посредничество вирусного белка по обе конверсии субстрата или сдвига в утилизации субстрата. Дополнительные эффекты потенциально потерянных при не рассматривает несколько параметров роста включают в себя: длительное время задержки, предлагая повышенную нагрузку вирусной техники или продуктов; быстро ускорение экспоненциальной фазе, предполагая, вирусные белки, соединенные с принимающей производства энергии путей; или более высокие уровни образования биомассы, подразумевая, вирусный поддержку в поглощение питательных веществ хозяина и анаболизма (данные не показаны). Таким образом, построение зарождающиеся кривые роста ( <stРонг> Рисунок 2А, Б) предоставляет информацию о тенденциях с течением времени, тогда как GL учитывает основные переменные логистической модели, обеспечивающей единый количественный ряд представлять общий успех клона.
При рассмотрении различных ответов предоставлены структурных и метаболических генов в картах, следует отметить, что различные классы субстратов в вопросе обеспечить наибольшую доказательства функции белка. Например, метаболические белки часто связаны с приобретением, ограничивающих питательных веществ, которые неспецифическая пройдет центрального метаболизма 16,32. Предварительные эксперименты показали, что КАРТА клоны, несущие предполагаемые обменные гены фага имеют повышенный лаг-фазу, когда выросли на центральных источников метаболизм углерода (рис 2А). Наоборот, клоны, несущие предполагаемых структурных генов, которые требуют больших пропорций хозяин энергии и дНТФ бассейнов, в результате ложного положительного ответа на рост для процентаRAL и аминокислотные метаболизм углерода субстраты. Это, вероятно, связано с накоплением нерастворимых белков, в результате принимающей филаментацию и / или телец включения, как это наблюдалось с помощью микроскопии (фиг.2А и данные не показаны). В то время как требуется дальнейший анализ, чтобы проверить эти предварительные результаты, карты способны извлечения фенотипические ответов, которые коррелируют с предположили функции определенных классов генов фага.
В дополнение к выяснению неизвестных вирусных белков, Карты роман ресурс, чтобы исследовать функциональную и метаболическую разнообразие индивидуального бактерии или сообщества бактерий. Эти компоненты предназначены для легкого изменения для поддержки роста в диапазоне бактерий; в том числе морских, ауксотрофных и анаэробных микробов. Для облегчения этих усилий определяется базальной и предварительно рост СМИ требуют дополнительных или скорректированных химические вещества, прежде чем отличается бактериальных рода может поддерживаться на картах.Одно замечание в этой использования карт является поддержание определенных СМИ, запрет на использование таких ингредиентов, как триптона, дрожжевой экстракт и пептон.
Метаболомика
Поле метаболомике зависит от метаболитов баз данных, которые включают выделенные метаболиты, определенные методом масс-спектрометрии. Основной комплекс выбрали здесь есть одна из крупнейших баз данных метаболомики. Интересно, что более половины из метаболитов в результате наших экспериментов были идентифицированы (~ 65%), в то время как другие никогда раньше не были записаны в нашем хозяине, кишечная палочка (примеры включают в себя: Индол 3 уксусной кислоты 33, салициловую кислоту 34 и dihydroabietic кислоты 35). Этот факт можно отнести либо к сильным уклоном в базе данных к метаболитов растений, или конкретных белков, находящихся под следствием. Несмотря на это, результат ограниченное число известных метаболитов, доступных для представления и анализа данных. В фуры, несколько методов метаболомики использованием различных баз данных позволит более широкий охват метаболита.
В настоящее время известные и неизвестные метаболиты использовать при сравнении и контрастные наши новые вирусные белки. Используя этот подход, мы предполагаем, что клоны, несущие функционально подобные белки поделятся повышенный сходство в их полной метаболомики профиль. Предварительный анализ показал, что метаболомика время как структурные и метаболические гены не ясно отделены друг от друга, эти гены выставке аналогичное воздействие на хозяина, когда избыточно экспрессируется коррелируют (рисунок 6). Например, аннотированные генные кластеры капсида тесно с предполагаемыми метаболических генов выделены в этом исследовании, EDT2440 и EDT2441. Исследования с помощью общедоступного трансмембранный топологии и сигнальный пептид программу предсказателя показали доказательства того, что оба предполагаемых метаболических генов питать один трансмембранный домен. Интересно 5 из йE 9 клонов в первом кластерной группе (самая левая часть дендрограмме) предсказали трансмембранных доменов, используя ту же программу топологии. Необходимы дальнейшие исследования, однако, вполне вероятно, что метаболиты, присутствующие во время избыточной экспрессии этих клонов, связанные с ответ клеточный стресс в результате мембраны или структурных нагрузок. Это данные подтверждают, что в то время как данные метаболомика обладает повышенной количество шума, метод способен выделения сигналов, которые отличают общие эффекты генов, как внутри, так и между класса генов. Чтобы определить, является ли метод способен извлекать конкретную информацию из функции гена, метаболиты были сгруппированы в конкретных метаболических путей. Гипотезе, если клон влияет метаболиты, относящиеся к одной пути, то суперэкспрессированный ген активен в этом пути. До создания нашей трубопровода обеспечения качества метаболомика, предварительные данные показали, что болееD недостаточно представленных метаболиты были, как правило, "неизвестно", обеспечивая мало информации о путях они связаны с (данные не показаны). Препроцессированные данные метаболомики, однако, показывает, что большинство из профилей метаболитов похожи, и только определенное число неизвестных и известных метаболитов распространенности варьироваться в зависимости от клонов, например путресцин и урацил (рис 6). Для обеспечения более высокое разрешение усилий функциональных белковых к тому, чтобы экспериментально сравнить новые гены фага против известных генов фага, которые могут быть использованы для заполнения "дыр" в метаболита на основе функциональной характеристики. Используя эту технику, назначенный функцией известных вирусных генов содержит ссылку на функцию неизвестных генов. Тем не менее, сдерживающим фактором метаболомики анализа размера и актуальность базы данных. Чтобы исправить эти ограничения, метаболомики базы данных Relatable данного исследования должны быть разработаны; такиев базе данных метаболитов и их распространенности в конкретной коллекции АСКА Е. палочки клоны, в которых один ORF избыточно экспрессируется 36. Доказательства необходимости таких баз данных была представлена в 2013 году, когда исследователи в Национальной лаборатории Беркли Lawerence составлен первый всеобъемлющий базы данных метаболитов, характерных для целых мутантов библиотек типовых бактерий 37. Это исследование при условии, новый понимание генов, необходимых для использования конкретных метаболитов, открывая четкую связь между фенотипом и генотипом.
При рассмотрении метаболомики в качестве инструмента, важно определить режим обработки с последующим в основной объект. Артефакт большинстве экспериментальных процедур дисперсия день-в-день связан с инструментами использования. На сегодняшний день весь анализ ГХ-МС реализует использование внутренних стандартов, включенных в каждую аналитической перспективе; Однако, добавление специфических внутренних образцов проекта </ EM> побежал каждый день экспериментов удаляет дополнительную дисперсию. Эти соображения должны быть решены заранее, чтобы избежать проблем нормализации и предубеждения. Другим решением является, чтобы обработать все образцы на основной объект на той же машине, и в одной партии, опция доступна в любое основной объект.
Различные инструменты и введены и повторно исследованы в этой рукописи предоставить новые средства для выявления и описания функционально неизвестные гены фага. Простота и технологичность экспериментальных методов с обтекаемой использованием вычислительной трубопроводов обеспечивает эти методы применимы к широкому кругу исследовательских усилий и полей. Наша цель в том, что Phenomic подходы, представленные здесь, помогут дальнейшие исследования новых белков фага в дополнение к системам, которые в равной степени функционально не определено.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |