Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Las investigaciones actuales en las interacciones huésped-fago dependen de extrapolar el conocimiento de (meta) genomas. Curiosamente, el 60 – 95% de todas las secuencias de fagos no comparten ninguna homología con proteínas anotado actuales. Como resultado, una gran proporción de genes de fagos anotados como hipotético. Esta realidad afecta en gran medida la anotación de ambos genes metabólicos estructurales y auxiliares. Aquí presentamos métodos Phenomic diseñados para capturar la respuesta (s) fisiológica de un host seleccionado durante la expresión de uno de estos genes de fagos desconocidos. Multi-fenotipo placas de ensayo (mapas) se utilizan para controlar la diversidad de la utilización de sustratos de acogida y formación de la biomasa posterior, mientras que la metabolómica proporciona un análisis bi-producto mediante el control de la abundancia metabolito y la diversidad. Ambas herramientas se utilizan simultáneamente para proporcionar un perfil fenotípico asociado con la expresión de un marco de lectura abierto putativo fago individual (ORF). Los resultados representativos para ambos métodos se comparan, highlighting las diferencias fenotípicas perfil de un anfitrión que lleva ya sea putativos genes de fagos estructurales o metabólicas. Además, se presentan las técnicas de visualización y de alto rendimiento tuberías computacionales que facilitan el análisis experimental.
Se estiman virus que infectan bacterias (bacteriófagos o fagos aka) de existir en más de 10 31 partículas similares a virus (VLPs) a nivel mundial y superan en número a todos los otros organismos en un entorno de 1,2. El primer estudio metagenómica investigar las comunidades virales asociados a ambientes marinos se centró en la cuantificación de la diversidad visto dentro de la fracción viral 3. Además, Breitbart y sus colegas encontraron que más del 65% de las secuencias virales de la comunidad compartió ninguna homología con cualquier secuencias disponibles en bases de datos públicas. Estudios de metagenómica posteriores encontraron pruebas similares: metagenomes de sedimentos marinos en San Diego, California contienen 75% de secuencias virales desconocidas 4; metagenomes de lagos hipersalinos del Mar Salton contienen 98% de secuencias virales desconocidas 5; y metagenomes coral asociadas contienen 95-98% secuencias virales desconocidas 6. Esta acumulación de información unannotated ha dado lugar amaterial genético del fago ser "la materia oscura del universo biológico" 7.
Caracterización genómica de fago se basa en la identificación de similitud de secuencia a través de la comparación con bases de datos de ácidos nucleicos y proteínas existentes. Debido a que la información genética del fago codificada es predominantemente desconocido, los métodos basados en homología son ineficaces. Dentro de su genoma, fagos normalmente codifican tres principales tipos de genes: transcripción y replicación de genes, genes metabólicos, y los genes estructurales. Los genes de transcripción y replicación (clase I / II genes 8) incluyen polimerasas, primasas, endo / exo-nucleasas, y quinasas. Estos genes están muy conservadas debido a su importancia en la infección por fagos, transcribir y replicar material genético del fago. Polimerasas de fagos se identifican fácilmente usando métodos de homología de secuencia tradicionales debido a su conservación global 9 y se ha demostrado para servir como marcadores filogenéticos eficaces 10.Por el contrario, metabólicas fago y los genes estructurales (clase II / III genes 8) son cada vez más divergentes ya menudo anotada como genes hipotéticos.
Genes metabólicos fagos afectan la capacidad metabólica del huésped y no se requieren necesariamente para la replicación viral. Estos genes, a menudo denominados genes metabólicos como auxiliares 11 (AMG), parecen modular el metabolismo de acogida y permitir la progresión óptima de la infección y el éxito de la maduración del virión. AMG se han asociado con la utilización y absorción de nutrientes limitantes o en vías de producción de energía. Algunos ejemplos incluyen genes fotosistema se encuentran en los genomas de diversos cyanophage 12-16, genes conectados a y regulados por el metabolismo del fosfato 17,18, y la utilización de la vía de las pentosas fosfato para la biosíntesis de dNTP fago 18,19. En comparación, los genes estructurales se encuentran entre los mediados a finales de los genes producidos durante la infección y varía en los diferentes fago-hosistemas st. La producción de proteínas estructurales dependen de la disponibilidad de dNTP viral, y las piscinas de energía para su transcripción, traducción y montaje 8. Las proteínas de la cápside y fibra cola estructural se considera como la más divergente de todos los genes que codifican proteínas virales y son necesarios para la producción de viriones éxito. Su divergencia se suele atribuir al papel activo que desempeñan en la conformación de la coevolución virus-huésped 20. Proteínas divergentes, independientemente de la clase de genes, se pasan por alto fácilmente cuando se utilizan técnicas de homología y la secuencia de alineación tradicionales. Un esfuerzo para corregir las limitaciones observadas con estrictas comparaciones de secuencias ha resultado en herramientas bioinformáticas capaces de utilizar características de secuencia para determinar asociación, tales como redes neuronales artificiales 21. Redes neuronales artificiales (RNA) permitir la predicción de genes estructurales y metabólicas, sin embargo, requieren la validación experimental de aguas abajo para caracterizar directamentela función del gen.
El objetivo de este manuscrito es proporcionar protocolos phenomic capaces de controlar tanto el metabolismo catabólico y anabólico de una bacteria huésped durante la expresión de un nuevo gen de fago, predijo funcionalmente a través de RNAs. El campo de la fenómica, la biología asociado con fenotipos celulares, está bien establecida en la biología de sistemas para ayudar en la investigación de proteínas con función desconocida o pleiotrópicos. Herramientas Phenomic se utilizan para vincular la información fenotípica a la información genotípica. Nuestra hipótesis de los genes putativos de fagos que su función (s) se puede determinar a través de la observación de los efectos fisiológicos de acogida durante la expresión de genes del fago. Para investigar esta hipótesis, se seleccionaron dos métodos cuantitativos. Las placas de ensayo Multi-fenotipo (mapas) se usaron para supervisar la utilización de sustrato huésped y la subsiguiente formación de la biomasa mientras que la metabolómica midieron diversidad metabolito anfitrión y abundancia relativa durante el crecimiento en environ específicacondiciones mentales. Proteínas estructurales y metabólicas putativos se sobreexpresa en Escherichia coli y resultados representativos de ambos experimentos se comparan. Se presentan numerosas técnicas visuales y tuberías de procesamiento de alto rendimiento para facilitar la replicación experimental. Por último, la reproducibilidad y exactitud de los métodos presentados se discuten en el contexto de efectos fisiológicos esperados para una proteína de la cápside y anotada proteína metabólica fago, tiorredoxina, además de dos AMGs putativos.
A continuación, presentamos los enfoques Phenomic para la caracterización funcional de genes de fagos putativos. Las técnicas incluyen un ensayo desarrollado capaz de metabolismo anabólico monitoreo anfitrión, las placas de ensayo Multi-fenotipo (mapas), además de el método establecido de la metabolómica, capaz de efectos a metabolismo catabólico de medición. Proporcionamos herramientas adicionales para gestionar los grandes conjuntos de datos resultantes de estas tecnologías, lo que permite el procesamiento de alto rendimiento y análisis 24. Por último, a través de la comparación de una proteína de la cápside del fago anotada, tiorredoxina fago, dos genes de fagos metabólicos putativos, y la respuesta experimental promedio proponemos diversas estrategias para interpretar ambos conjuntos de datos y clases de genes, con énfasis en la identificación de las tendencias fenotípicas y la identificación de los valores atípicos.
Como se ha mencionado, ambos enfoques medir cuantitativamente sólo la mitad del metabolismo de host. Para interpretar la función relativa de cualquiera de lasnuevas proteínas que se investigan, se requiere los datos de ambos métodos para proporcionar evidencia de la función. Si bien esto no es un foco de nuestro manuscrito actual, salidas de datos de cada método phenomic se someten a análisis combinatorios que se centran en técnicas de agrupamiento como el bosque al azar y análisis de componentes principales. Por otra parte, las hipótesis resultantes del análisis combinado deben ser posteriormente validados por metodologías genéticos tradicionales.
Por último, los métodos presentados están fuertemente influenciados por la fisiología bacteriana y, por tanto, seguir las mismas normas. Al llevar a cabo cualquiera de los métodos, las consideraciones deben hacerse para asegurar grupos independientes, clonales están experimentado con; se evita la contaminación; una sola variable se está probando; y los controles adecuados se están corriendo al mismo tiempo. El fracaso para tener en cuenta estos puntos dará lugar a resultados poco claros, similar a cualquier ensayo fisiológico.
Las placas de ensayo Multi-fenotipo(MAP)
El desarrollo de MAP ofrece un alto rendimiento y ensayo de adaptación en comparación con las tecnologías disponibles en la actualidad (Figura 5A y Tablas 1,2). El ensayo utiliza suministros, equipos y técnicas fundamentales disponibles en todos los laboratorios de microbiología. La incorporación de un oleoducto computacional, PMAnalyzer 24, para su posterior procesamiento y análisis de datos asegura la interpretación de datos rápida. Además, tanto los aspectos experimentales y analíticos del enfoque se puede ajustar o sintonizados con fines personalizados fácilmente. Por ejemplo, si una gran parte de los datos que no logra pasar el filtrado se indica en la sección 4, se puede tamizar manualmente a través de las curvas de crecimiento para identificar problemas. Si el problema surge debido a estrictos parámetros de filtro, se pueden hacer ajustes en el guión. Alternativamente, si los problemas están asociados con el proceso experimental (es decir, la condensación prolongada; inadecuada transferencia de cel bacterianals, etc.), entonces repeticiones adicionales se pueden repetir fácilmente.
Como se describe en Cuevas et al. 24, el PMAnalyzer es un solo programa bash escrito como un guión envoltorio que ejecuta los scripts de análisis y análisis como, tubería automatizada cohesiva. Todos los guiones son de libre acceso desde un repositorio Git a 25, tomando el valor medio para cada punto de tiempo a través de los datos por triplicado, y posteriormente se parametriza la curva logística para obtener el tiempo de retardo, la tasa de crecimiento máximo, asíntota, y una novela plazo, nivel de crecimiento. El valor de la mediana fue elegido sobre la media en nuestro estudio para reducir el efecto de grandes valores atípicos, sin embargo, la secuencia de comandos se puede adaptar fácilmente para calcular la media de los datos replicados. Debido a la variación reducida (SE) visto a través de los datos replicados (Figura 2A) mantuvimos el uso de la mediana en el PMAnalyzer para el ajuste de una curva logística. Además, el corte para el crecimiento en este estudio (GL ≥ 0,4) fue determined comparando cómo los datos separados en todo nivel de crecimiento y tasa de crecimiento máxima (Figura 1A, B). Dependiendo del sistema de instrumentos y el modelo utilizado este término puede variar, lo que requiere una redefinición de este valor de corte.
Una ventaja importante de nuestro ensayo es la capacidad de comparar fenotipos utilizando un único parámetro que caracteriza el crecimiento microbiano en general, que definimos como nivel de crecimiento (GL). GL es una media armónica, y por lo tanto mitiga los efectos de grandes valores atípicos en los datos. El uso de una media armónica con los valores logísticos equipado desplazado para proporcionar un resumen de crecimiento se llegó a través de ensayo y error. Otros métodos intentaron diferenciar el crecimiento incluye: tiempo que tardó en llegar a los parámetros específicos de la curva (media μ max, μ max, y capacidad de carga), el coeficiente de determinación (R 2), y combinaciones de los R 2 multiplicado por parámetros de la curva específicos. Usando una media armónica con desplazadovalores logística-ajuste para el GL proporcionan el rango mayor en la evaluación de crecimiento, por lo que se convirtió en el método de elección. Una consideración a tener en cuenta es que los patrones de la curva de crecimiento dinámicos tienen el potencial de estar perdido cuando se utiliza un solo parámetro o un modelo ajustado. Por ejemplo, los parámetros de la curva individuales de la curva logística y el GL son incapaces de representar el crecimiento bifásica. En un entorno de carbono solo, este efecto sobre el crecimiento implica la mediación de la proteína viral en cualquiera de conversión del sustrato o cambio en la utilización de sustratos. Efectos adicionales potencialmente perdidos al no considerar múltiples parámetros de crecimiento incluyen: tiempo de latencia prolongada, proponiendo un aumento de la carga viral de la maquinaria o productos; acelerando rápidamente la fase exponencial, lo que sugiere proteínas virales acopladas a acoger las vías de producción de energía; niveles o superiores de formación de la biomasa, lo que implica apoyo viral en la absorción de nutrientes anfitrión y el anabolismo (datos no mostrados). Por lo tanto, el trazado de las curvas de crecimiento nacientes ( <strong> Figura 2A, B) proporciona información sobre tendencias en el tiempo mientras que el GL tiene en cuenta las principales variables del modelo logístico, proporcionando un único número cuantitativa para representar el éxito global de un clon.
Al considerar las diferentes respuestas aportadas por los genes estructurales y metabólicos en los mapas, se observa que las diferentes clases de sustrato en cuestión proporcionan la evidencia más grande para la función de la proteína. Por ejemplo, las proteínas metabólicas están a menudo asociados con la adquisición de nutrientes limitantes, que son inespecíficos para acoger 16,32 metabolismo central. Los experimentos preliminares MAP revelar que los clones que albergan genes putativos de fagos metabólicos tienen un aumento de la fase de retardo cuando se cultivan en fuentes de carbono metabolismo central (Figura 2a). Por el contrario, los clones que llevan genes estructurales putativas, que requieren una gran proporción de las piscinas de energía anfitrión y dNTP, dan lugar a una respuesta positiva falsa en el crecimiento de cientosustratos de carbono metabolismo RAL y de aminoácidos. Esto es probablemente debido a la acumulación de proteínas insolubles resultantes en filamentation huésped y / o cuerpos de inclusión, como se observa a través de microscopía (Figura 2A y datos no mostrados). Si bien se requiere un mayor análisis para validar estos resultados preliminares, los mapas son capaces de recuperar las respuestas fenotípicas que se correlacionan con la hipótesis de las funciones de clases de genes de fagos específicos.
Además de la elucidación de las proteínas virales desconocidos, los mapas son un recurso novedoso para investigar la diversidad funcional y metabólica de una bacteria individuo o una comunidad de bacterias. Componentes del PAM están diseñados para la alteración fácil de apoyar el crecimiento de una gama de bacterias; incluyendo marino, auxotrófica y microbios anaeróbicos. Para facilitar estos esfuerzos la basal y pre-crecimiento de los medios definidos requieren especies químicas adicionales o ajustados antes de que un género bacteriano diferente se puede apoyar en los mapas.Una nota en este uso de los mapas es mantener medios definidos, que prohíbe el uso de ingredientes tales como triptona, extracto de levadura y peptona.
Metabolómica
El campo de la metabolómica es dependiente de las bases de datos de metabolitos, que incluyen metabolitos aislados identificados por espectrometría de masas. La facilidad de la base elegida aquí tiene una de las mayores bases de datos de la metabolómica. Curiosamente, más de la mitad de los metabolitos resultantes de nuestras experimentaciones eran identificables (~ 65%), mientras que otros habían nunca antes se han registrado en nuestro anfitrión, Escherichia coli (ejemplos incluyen: el indol 3 acético 33, ácido salicílico 34, y ácido dihidroabiético 35). Este hecho podría atribuirse a ya sea un fuerte sesgo de la base de datos hacia metabolitos de plantas, o las proteínas específicas bajo investigación. Independientemente, el resultado es un número limitado de metabolitos conocidos disponibles para la representación y el análisis de datos. En el futura, múltiples métodos metabolómica utilizando diversas bases de datos permitiría una mayor cobertura metabolito.
En la actualidad, ambos conocidos y metabolitos desconocidos se utilizan al comparar y contrastar nuestras proteínas virales novedosos. Con este enfoque, la hipótesis de que los clones que albergan proteínas funcionalmente similares compartirán una mayor similitud en su perfil metabolómico completa. El análisis preliminar metabolómica reveló que mientras que los genes estructurales y metabólicas no se separan claramente una de otra, aquellos genes que exhiben efectos similares en el anfitrión cuando se sobreexpresa se correlacionan (Figura 6). Por ejemplo, la cápside grupos de genes anotados en estrecha colaboración con los genes metabólicos putativos de relieve en este estudio, EDT2440 y EDT2441. Las investigaciones utilizando un programa predictor topología transmembrana y péptido señal disponible públicamente mostraron evidencia de que ambos genes metabólicos putativo albergan un único dominio transmembrana. Curiosamente 5 de THe 9 clones en el primer grupo de clústeres (porción del dendrograma más a la izquierda) han pronosticado dominios transmembrana utilizando el mismo programa de topología. Se necesitan más investigaciones, sin embargo, es probable que los metabolitos presentes durante la sobreexpresión de estos clones están asociados con la respuesta al estrés celular resultante de la membrana o cargas estructurales. Esta evidencia apoya que mientras que los datos de la metabolómica posee una mayor cantidad de ruido, el método es capaz de poner de relieve las señales que diferencian a efectos generales de genes, tanto dentro ya través de una clase de genes. Para determinar si el método es capaz de extraer información específica de la función génica, los metabolitos se agruparon en vías metabólicas específicas. El ser hipótesis, si un clon afecta metabolitos específicos a una sola vía, a continuación, el gen sobreexpresado está activo en esa vía. Antes de la creación de nuestra línea de aseguramiento de la calidad metabolómica, los datos preliminares revelaron que más de unad metabolitos menos representados eran típicamente "desconocido", que proporciona poca información sobre las vías que están asociados (datos no mostrados). Metabolómica datos preprocesados, sin embargo, revela que la mayoría de los perfiles de metabolitos son similares y sólo un número selecto de las abundancias de metabolitos desconocidos y conocidos varía en los diferentes clones, por ejemplo putrescina y uracilo (Figura 6). Para proporcionar una mayor resolución de los esfuerzos de la función de proteínas se están realizando para comparar experimentalmente los nuevos genes de fagos contra genes de fagos conocidos, que se pueden utilizar para rellenar los "huecos" de metabolito basados caracterización funcional. Usando esta técnica, la función asignada de genes virales conocidos proporciona una referencia para la función de los genes desconocidos. No obstante, el factor limitante del análisis metabolómica es el tamaño y la relevancia de la base de datos. Para corregir estas limitaciones, bases de datos metabolómicos relacionables a esta investigación deben desarrollarse; talcomo una base de datos de metabolitos y sus abundancias específica a la colección ASKA de E. clones de E. coli en los que un ORF se sobreexpresa 36. La evidencia de la necesidad de este tipo de bases de datos fue proporcionada en 2013 cuando los investigadores del Laboratorio Nacional Lawerence Berkeley compilados la primera base de datos completa de los metabolitos específicos para bibliotecas enteras de bacterias mutantes modelo 37. Esta investigación proporciona una visión novedosa en los genes necesarios para la utilización de los metabolitos específicos, revelando la conexión clara entre fenotipo y genotipo.
Al considerar la metabolómica como una herramienta, es importante definir el régimen de procesamiento siguió en las instalaciones de la base. Un artefacto de la mayoría de los procedimientos experimentales es la varianza del día a día relacionados con los instrumentos de uso. Hasta la fecha todos los análisis GC-MS implementa el uso de las normas internas que se incluyen en cada serie analítica; Sin embargo, la adición de muestras internas específicas del proyecto </ Em> corrieron cada día de la experimentación elimina varianza adicional. Estas consideraciones deben ser abordados con antelación para evitar problemas de normalización y sesgos. Otra solución es procesar todas las muestras en una instalación de núcleo en la misma máquina y como un solo lote, una opción disponible en cualquier tipo de núcleo.
Las diversas herramientas tanto introducen y re-exploran en este manuscrito proporcionar nuevos medios para detectar y caracterizar los genes de fagos funcionalmente desconocidos. La simplicidad y la adaptabilidad de las técnicas experimentales con el uso de tuberías de línea de corriente computacionales asegura estos métodos son aplicables a una amplia gama de esfuerzos de investigación y campos. Nuestro objetivo es que los enfoques Phenomic presentados aquí ayudarán a nuevas investigaciones de las proteínas de fagos nuevos, además de los sistemas que son igualmente funcionalmente definido.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |