Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Le ricerche in corso in interazioni fago-ospite dipendono estrapolazione conoscenze da (meta) genomi. È interessante notare che, il 60 – 95% di tutte le sequenze dei fagi condividere alcuna omologia con le proteine annotati attuali. Di conseguenza, gran parte dei geni fago annotati come ipotetico. Questa realtà incide pesantemente l'annotazione di entrambi i geni metabolici strutturali e ausiliari. Qui vi presentiamo metodi Phenomic progettati per catturare la risposta fisiologica (s) di un host selezionato durante espressione di uno di questi geni fago sconosciuti. Multi-fenotipo del saggio Piastre (MAP) vengono utilizzati per monitorare la diversità di utilizzazione del substrato di accoglienza e successiva formazione della biomassa, mentre la metabolomica fornisce un'analisi bi-prodotto attraverso il monitoraggio del metabolita abbondanza e la diversità. Entrambi gli strumenti sono utilizzati simultaneamente per fornire un profilo fenotipica associata con l'espressione di un singolo fago putative open reading frame (ORF). Risultati rappresentativi per entrambi i metodi sono confrontati, highlighting le differenze fenotipiche profilo di un host che trasportano sia putativi geni fago strutturali o metaboliche. Inoltre, le tecniche di visualizzazione e ad alto rendimento condutture computazionali che hanno facilitato l'analisi sperimentale sono presentati.
I virus che infettano i batteri (aka batteriofago o fago) sono stimate a esistere da più di 10 31 particelle simili al virus (VLP) a livello globale e più numerosi di tutti gli altri organismi in un ambiente 1,2. Il primo studio metagenomica indagando le comunità virali associati agli ambienti marini incentrata sulla quantificazione della diversità visto all'interno della frazione virale 3. Inoltre, Breitbart e colleghi hanno scoperto che oltre il 65% delle sequenze virali di comunità condivisa omologia di eventuali sequenze disponibili nelle banche dati pubbliche. Studi successivi hanno trovato prove metagenomiche simile: metagenomi da sedimenti marini a San Diego, California contengono il 75% sconosciuti sequenze virali 4; metagenomi dai laghi ipersalini del Salton Sea contengono il 98% sconosciuti sequenze virali 5; e metagenomi corallo associata contengono 95-98% sequenze virali sconosciuti 6. Questo accumulo di informazioni non annotate ha portatomateriale genetico Fago essere "la materia oscura dell'universo biologico" 7.
Caratterizzazione genomica del fago si basa sull'identificazione di similarità di sequenza attraverso il confronto contro banche dati esistenti degli acidi nucleici e proteine. Poiché le informazioni genetiche fago codifica è prevalentemente ignota, metodi basati omologia-sono inefficaci. All'interno del loro genoma, fagi tipicamente codificano tre principali tipi di geni: trascrizione e replicazione dei geni, i geni del metabolismo, e geni strutturali. I geni di trascrizione e replicazione (classe I / II geni 8) includono polimerasi, primases, endo / eso-nucleasi e chinasi. Questi geni sono altamente conservati per la loro importanza in infezione fagi, trascrivendo e replicare materiale genetico fago. Polimerasi dei fagi sono facilmente identificabili con metodi sequenza omologia tradizionali a causa della loro conservazione globale 9 e hanno dimostrato di servire come efficace marcatori filogenetici 10.Al contrario, fago metabolico e geni strutturali (classe II / III geni 8) sono sempre più divergenti e spesso annotato come geni ipotetiche.
Fagi geni metabolici influenzano la capacità metabolica del paese ospitante e non sono necessariamente necessari per la replicazione virale. Questi geni, spesso denominate geni metabolici come ausiliari 11 (AMG), sembrano modulare il metabolismo di accoglienza e consentire la progressione ottimale di infezione e il successo del virione di maturazione. AMG sono stati associati con l'utilizzo e la diffusione delle sostanze nutritive che limitano o in percorsi di produzione di energia. Alcuni esempi includono geni fotosistema presenti nei genomi di varie cyanophage 12-16, geni connesse e regolati da metabolismo del fosfato 17,18, e l'utilizzo della via dei pentoso fosfati per fago dNTP biosintesi 18,19. In confronto, i geni strutturali sono tra la metà e la fine degli anni geni prodotte durante l'infezione e variano tra i diversi fago-hoSistemi di st. La produzione delle proteine strutturali sono subordinati alla disponibilità di dNTP virale, e piscine energia per la loro trascrizione, traduzione e assemblaggio 8. Le proteine del capside e fibra di coda strutturali sono considerati come il più divergente di tutti i geni codificanti proteine virali e sono necessari per la produzione di virion successo. La loro divergenza è tipicamente attribuita al ruolo attivo che ricoprono nella definizione dei virus-ospite coevoluzione 20. Proteine divergenti, indipendentemente dalla classe gene, vengono facilmente trascurati quando utilizzando tecniche di omologia e allineamento di sequenze tradizionali. Uno sforzo per correggere le limitazioni osservati con sequenza comparazioni severe ha comportato strumenti bioinformatici capaci di utilizzare caratteristiche di sequenza per determinare associazione, come le reti neurali artificiali 21. Reti neurali artificiali (ANN) consentono la previsione di geni strutturali e metabolici, tuttavia, richiedono validazione sperimentale a valle di caratterizzare direttamentela funzione del gene.
L'obiettivo di questo manoscritto è quello di fornire i protocolli Phenomic in grado di monitorare sia il metabolismo catabolico e anabolico di un batterio ospite durante l'espressione di un nuovo gene fago, funzionalmente previsto attraverso RNA. Il campo di fenomica, biologia associata a fenotipi cellulari, è ben consolidata in biologia dei sistemi per aiutare nelle indagini di proteine con funzione sconosciuta o pleiotropico. Strumenti Phenomic vengono utilizzati per collegare le informazioni fenotipiche all'informazione genotipica. Ipotizziamo per i geni dei fagi putativi che la loro funzione (s) può essere determinato attraverso l'osservazione di accoglienza effetti fisiologici durante l'espressione del gene fago. Per studiare questa ipotesi, sono stati scelti due metodi quantitativi. Piastre Multi-fenotipo Assay (MAP) sono stati usati per monitorare l'utilizzo del substrato di accoglienza e la conseguente formazione di biomassa, mentre la metabolomica misurate diversità metabolita ospite e relativa abbondanza durante la crescita in ambienti specificicondizioni mentali. Proteine strutturali e metaboliche putativi sono stati overexpressed in Escherichia coli e risultati rappresentativi di entrambi gli esperimenti vengono confrontati. Numerose tecniche visive e condotte di elaborazione high throughput vengono presentati per facilitare la replicazione sperimentale. Infine, la riproducibilità e la precisione dei metodi presentati sono discussi nel contesto degli effetti fisiologici attesi per una proteina capside annotato e fago proteine metabolica, tioredossina, più due AMGs putativi.
Qui vi presentiamo approcci Phenomic per la caratterizzazione funzionale dei geni dei fagi putativi. Le tecniche includono un saggio sviluppato capace di metabolismo anabolico monitoraggio host, le piastre Multi-fenotipo Assay (MAP), oltre al metodo stabilito di metabolomica, capace di effetti al metabolismo catabolico misurazione. Abbiamo fornito ulteriori strumenti per la gestione dei grandi insiemi di dati derivanti da queste tecnologie, consentendo l'elaborazione ad alta produttività e analisi 24. Infine, attraverso il confronto di una proteina annotato fago capside, fagi tioredoxina, due geni del metabolismo dei fagi putativi, e la risposta media sperimentale ci proponiamo diverse strategie per interpretare entrambe le serie di dati e le classi di geni, con particolare attenzione alla identificazione delle tendenze fenotipici e l'identificazione dei valori anomali.
Come detto, entrambi gli approcci quantitativamente misurano solo la metà del metabolismo dell'ospite. Per interpretare la relativa funzione di una qualsiasi dellenuove proteine in esame, i dati di entrambi i metodi è tenuto a fornire la prova della funzione. Anche se questo non è un punto focale della nostra manoscritto corrente, uscite dati di ogni metodo Phenomic è messo attraverso analisi combinatorie che si concentrano su tecniche di clustering come la foresta casuale e analisi delle componenti principali. Inoltre, le ipotesi emerse dall'analisi combinata devono essere convalidati da metodologie genetiche tradizionali.
Infine, i metodi presentati sono fortemente influenzate dalla fisiologia batterica e quindi seguire le stesse norme. Nell'avviare entrambi i metodi, le considerazioni devono essere fatte per garantire indipendenti, gruppi clonali sono sperimentato; è impedito contaminazione; una sola variabile è in fase di sperimentazione; e controlli adeguati sono corse contemporaneamente. La mancata per tenere conto di questi punti si tradurrà in risultati non chiari, simile a qualsiasi dosaggio fisiologico.
Multi-fenotipo Piastre Assay(MAP)
Lo sviluppo di MAP fornisce un elevato throughput e dosaggio adattabile rispetto alle tecnologie attualmente disponibili (Figura 5A e Tabelle 1,2). Il test utilizza forniture, attrezzature e le tecniche fondamentali disponibili in tutti i laboratori di microbiologia. L'incorporazione di una pipeline di calcolo, PMAnalyzer 24, per la successiva elaborazione e analisi dei dati assicura una rapida interpretazione dei dati. Inoltre, entrambi gli aspetti sperimentali e analitiche del metodo possono essere facilmente regolati o sintonizzati per scopi personalizzati. Ad esempio, se una gran parte dei dati non riesce a passare filtraggio descritto nella sezione 4, si può vagliare manualmente attraverso le curve di crescita per identificare problemi. Se il problema è legato ai parametri di filtro stringenti, adeguamenti lo script può essere fatto. In alternativa, se i problemi sono associati con il processo sperimentale (cioè, condensazione prolungata; impropria trasferimento di cel battericals, ecc) quindi replicati supplementari possono essere facilmente ripetuti.
Come descritto in Cuevas et al. 24, il PMAnalyzer è un unico programma bash scritto come uno script wrapper che esegue l'analisi e analisi script come una coesa, conduttura automatizzata. Tutti gli script sono liberamente accessibili da un repository Git a 25, prendendo il valore mediano per ogni punto di tempo attraverso i dati triplice copia, e successivamente parametrizza la curva logistica per ottenere il tempo di ritardo, il tasso di crescita massima, asintoto, e un termine romanzo, Livello Crescita. Il valore mediano è stato scelto il media nel nostro studio per ridurre l'effetto di grandi valori anomali, tuttavia, lo script può essere facilmente adattato per calcolare la media dei dati replicati. Grazie alla ridotta variazione (SE) visto attraverso dati replicati (Figura 2A) abbiamo mantenuto l'uso della mediana nel PMAnalyzer per montare una curva logistica. Inoltre, il limite per la crescita in questo studio (GL ≥ 0,4) era determined confrontando come i dati separati attraverso livello di crescita e tasso di crescita massimo (Figura 1A, B). A seconda del modello di sistema strumenti e ha usato questo termine può variare, richiedendo ridefinizione di questo valore di soglia.
Uno dei principali vantaggi della nostra analisi è la possibilità di confrontare fenotipi utilizzando un unico parametro che caratterizza la crescita microbica complessiva, che definiamo come livello di crescita (GL). GL è una media armonica, e mitiga quindi gli effetti di grandi valori anomali nei dati. L'utilizzo di un media armonica con i valori logistici-misura spostati per fornire una sintesi di crescita è arrivato a attraverso tentativi ed errori. Altri metodi hanno cercato di differenziare la crescita incluso: tempo impiegato per raggiungere i parametri specifici della curva (la metà μ max, μ max, e la capacità di carico), il coefficiente di determinazione (R 2), e combinazioni di R 2 moltiplicato per specifici parametri della curva. Utilizzando un media armonica con spostatavalori logistico-fit per il GL fornito la più grande gamma nella valutazione della crescita, quindi è diventato il metodo di scelta. Una considerazione da notare è che i modelli curva di crescita dinamici hanno il potenziale di perdersi quando si utilizza un singolo parametro o di un modello adattato. Per esempio, i singoli parametri della curva della curva logistica e GL sono incapaci di rappresentare crescita bifasico. In un unico ambiente di carbonio, questo effetto sulla crescita implica mediazione della proteina virale su entrambi conversione del substrato o cambiamento di utilizzazione del substrato. Ulteriori effetti potenzialmente persi quando non considerando parametri di crescita più comprendono: ritardo prolungato, proponendo un aumento del carico di macchinari o prodotti virale; rapida accelerazione fase esponenziale, suggerendo proteine virali accoppiati ad ospitare percorsi di produzione di energia; livelli o più alti di formazione della biomassa, che implica il supporto virale in assorbimento dei nutrienti ospite e anabolismo (dati non riportati). Così, tracciare curve di crescita nascenti ( <strong> Figura 2A, B) fornisce informazioni per quanto riguarda le tendenze nel corso del tempo, mentre la GL tiene conto delle principali variabili del modello logistico, fornendo un unico numero quantitativa per rappresentare il successo globale di un clone.
Se si considerano le diverse risposte fornite da geni strutturali e metabolici nelle mappe, si osserva che le diverse classi di substrato in questione forniscono la prova più funzione della proteina. Per esempio, le proteine metaboliche sono spesso associati con l'acquisizione di nutrienti limitanti, che sono non specifico per ospitare centrale metabolismo 16,32. MAP preliminari esperimenti rivelano che i cloni che ospitano putativi geni metabolici dei fagi hanno una maggiore fase di latenza quando coltivate su fonti di carbonio metabolismo centrali (Figura 2A). Al contrario, i cloni che portano geni strutturali putativi, che richiedono grandi proporzioni, di piscine energia ospite e dNTP, provocano una risposta falsi positivi sulla crescita per centosubstrati ral e aminoacidi carbonio metabolismo. Ciò è probabilmente dovuto all'accumulo di proteine insolubili conseguente filamentazione ospitante e / o corpi inclusi, come osservato mediante microscopia (Figura 2A e dati non mostrati). Mentre ulteriori analisi è necessaria per convalidare questi risultati preliminari, le mappe sono in grado di recuperare le risposte fenotipiche che correlano alle ipotizzato funzioni specifiche classi di geni fagi.
Oltre alla spiegazione delle proteine virali sconosciuti, le mappe sono un romanzo risorsa per indagare la diversità funzionale e metabolico di un individuo batterio o una comunità di batteri. I componenti del MAP sono progettati per una facile modifica per sostenere la crescita di una gamma di batteri; compresi marino, auxotrophic e microbi anaerobici. Per facilitare questi sforzi il basale e pre-sviluppo dei media definito richiedono ulteriori o regolate specie chimiche prima di un genere di batteri diverso può essere sostenuto nelle mappe.Una nota in questo uso delle mappe è quello di mantenere i media definiti, che vieta l'uso di ingredienti come triptone, estratto di lievito e peptone.
Metabolomica
Il campo della metabolomica dipende database metaboliti, che comprendono metaboliti isolati identificati mediante spettrometria di massa. La struttura di base scelto qui ha uno dei più grandi database metabolomica. È interessante notare che più della metà dei metaboliti derivanti dalle nostre sperimentazioni erano identificabili (~ 65%), mentre gli altri non erano mai stati registrati nel nostro ospite, Escherichia coli (esempi includono: Indole 3 acido acetico 33, acido salicilico 34, e l'acido dihydroabietic 35). Questo fatto potrebbe essere attribuita a una forte inclinazione del database verso metaboliti di piante, o le proteine specifiche in esame. Indipendentemente, il risultato è un numero limitato di metaboliti noti disponibili per la rappresentazione e l'analisi dei dati. Nella future, diversi metodi di metabolomica con varie banche dati consentirebbe una maggiore copertura metabolita.
Attualmente, sia conosciuto e metaboliti sconosciuti vengono utilizzati quando comparare e confrontare le nostre proteine virali romanzo. Usando questo approccio, ipotizziamo che i cloni che ospitano le proteine funzionalmente simili condivideranno una maggiore somiglianza nel loro profilo metabolomica completo. Analisi metabolomica preliminari hanno rivelato che mentre geni strutturali e metaboliche non si separano chiaramente uno dall'altro, quei geni esibendo effetti simili sul host quando overexpressed non correlare (Figura 6). Ad esempio, i Capside cluster di geni annotati da vicino con i geni metabolici putativi evidenziati in questo studio, EDT2440 e EDT2441. Le indagini che utilizzano una topologia transmembrana e peptide segnale programma predittore a disposizione del pubblico hanno mostrato evidenza che entrambi i geni metabolici putativi porto un singolo dominio transmembrana. Interessante 5 su the 9 cloni del primo gruppo di cluster (più a sinistra parte del dendrogramma) hanno previsto domini transmembrana che utilizzano lo stesso programma topologia. Sono necessari ulteriori studi, tuttavia, è probabile che i metaboliti presenti durante la sovraespressione di questi cloni sono associati a risposta allo stress cellulare risultante dalla membrana o fardelli strutturali. Queste prove sostengono che mentre i dati metabolomics possiede una maggiore quantità di rumore, il metodo è in grado di segnali che differenziano effetti generali di geni, sia all'interno e attraverso una classe gene evidenziando. Per determinare se il metodo è in grado di estrarre le informazioni specifiche della funzione del gene, i metaboliti sono stati raggruppati in specifiche vie metaboliche. L'essere ipotesi, se un clone colpisce metaboliti specifici di un unico percorso, allora il gene overexpressed è attivo in quel percorso. Prima della costituzione della nostra pipeline di garanzia della qualità metabolomica, dati preliminari hanno rivelato che più did metaboliti sottorappresentati erano tipicamente "sconosciuto", che fornisce poche informazioni sui percorsi a cui sono associati (dati non riportati). Dati metabolomica pre-elaborati, tuttavia, rivela che la maggior parte dei profili dei metaboliti sono simili e solo un numero selezionato di sconosciute e conosciute abbondanze metaboliti variano tra i cloni, per esempio putrescina e uracile (Figura 6). Per offrire una maggiore risoluzione degli sforzi di funzione della proteina sono stati fatti per confrontare sperimentalmente i geni dei fagi nuovi contro geni fago noti, che possono essere utilizzati per riempire i "buchi" del metabolita basate caratterizzazione funzionale. Usando questa tecnica, la funzione assegnata di geni virali conosciuti fornisce un riferimento per la funzione dei geni ignoti. Tuttavia, il fattore limitante di analisi metabolomica è la dimensione e la rilevanza del database. Per correggere queste limitazioni, i database metabolomica facilmente riconoscibili per questa ricerca da sviluppare; comecome un database di metaboliti e loro abbondanze specifico alla raccolta ASKA di E. cloni coli in cui un singolo ORF è sovraespresso 36. Le prove per la necessità di tali banche dati è stato fornito nel 2013 quando i ricercatori del Berkeley National Laboratory Lawerence compilato il primo database completo di metaboliti specifici per intere biblioteche mutanti di batteri modello 37. Questa ricerca ha fornito romanzo spaccato geni necessari per l'utilizzo di specifici metaboliti, rivelando la chiara connessione tra fenotipo e genotipo.
Quando si considera metabolomica come strumento, è importante definire il regime di trasformazione seguita al core facility. Un artefatto della maggior parte delle procedure sperimentali è la varianza giorno per giorno associati con gli strumenti di utilizzo. Fino ad oggi tutte le analisi GC-MS implementa l'uso di standard interni che sono inclusi in ogni seduta analitica; tuttavia, l'aggiunta di progetti specifici campioni interni </ Em> corse ogni giorno di sperimentazione rimuove varianza aggiuntivo. Queste considerazioni devono essere indirizzate presto per evitare problemi di normalizzazione e pregiudizi. Un'altra soluzione è di elaborare tutti i campioni in una struttura nucleo sulla stessa macchina e come singolo lotto, un'opzione disponibile presso qualsiasi struttura di base.
I vari strumenti sia introdotto e ri-esplorati in questo manoscritto fornire nuovi mezzi per lo screening e caratterizzare geni fagi funzionalmente sconosciuti. La semplicità e adattabilità delle tecniche sperimentali con l'uso Streamline di condotte computazionali assicura questi metodi sono applicabili ad una vasta gamma di sforzi e campi di ricerca. Il nostro obiettivo è che gli approcci Phenomic qui presentati saranno di aiuto ulteriori indagini di proteine fagi romanzo, oltre a sistemi che sono ugualmente funzionalmente indefinito.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |