Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Lopende onderzoeken in faag-gastheer interacties zijn afhankelijk van het extrapoleren van de kennis van (meta) genoom. Interessant 60-95% van faag sequenties delen geen homologie bij lopende geannoteerde eiwitten. Dientengevolge, een groot deel van faag genen geannoteerd als hypothetisch. Deze realiteit sterk van invloed op de annotatie van zowel structurele en hulpstoffen metabole genen. Hier presenteren we phenomic die zijn ontworpen met de fysiologische reactie (s) van een geselecteerde gastheercellen bij de expressie van een van deze onbekende faaggenen vangen. Multi-fenotype testplaten (MAP's) worden gebruikt om de diversiteit van vreemde drager gebruik en daaropvolgende vorming van biomassa te monitoren, terwijl metabolomics biedt bijproduct analyse door monitoring metaboliet overvloed en diversiteit. Beide modellen worden tegelijkertijd gebruikt om een fenotypische profiel geassocieerd met expressie van een vermeende faag enkele open leeskader (ORF) te verschaffen. Representatieve resultaten voor beide methoden worden vergeleken, highlighting de fenotypische verschillen profiel van een gastheer dragen ofwel vermeende structurele of metabole faaggenen. Bovendien zijn de visualisatietechnieken en high throughput computational pijpleidingen experimentele analyse vergemakkelijkt gepresenteerd.
Virussen die bacteriën (aka bacteriofaag of fagen) infecteren schatting bestaan meer dan 10 31 virusachtige deeltjes (VLP's) globaal en overtreffen alle andere organismen in een omgeving 1,2. De eerste metagenomic onderzoek naar de virale gemeenschappen in verband met het mariene milieu gericht op het kwantificeren van de diversiteit gezien binnen het virale fractie 3. Bovendien Breitbart en collega's vonden dat meer dan 65% van de virale sequenties gedeeld door geen homologie geven sequenties in publieke databanken. Latere metagenomic studies gevonden vergelijkbaar bewijs: metagenomes uit mariene sedimenten in San Diego, Californië bevatten 75% onbekende virale sequenties 4; metagenomes van zoute meren in de Salton Sea bevatten 98% onbekende virale sequenties 5; en koraal geassocieerd metagenomes bevatten 95-98% onbekende virale sequenties 6. Deze opeenstapeling van unannotated informatie heeft geleidfaag genetisch materiaal dat "de donkere materie van de biologische universum" 7.
Genomische karakterisering van faag baseert zich op het identificeren van sequentie-overeenkomst door vergelijking tegen bestaande nucleïnezuur en eiwit databases. Door faag gecodeerde genetische informatie is hoofdzakelijk bekend, homologie-gebaseerde methoden zijn niet effectief. Binnen hun genoom, fagen coderen gewoonlijk drie belangrijke genen types: transcriptie en replicatie genen metabole genen en structurele genen. De transcriptie en replicatie genen (klasse I / II genen 8) omvatten polymerasen, primases, endo / exo-nucleasen en kinases. Deze genen zijn sterk geconserveerd vanwege hun belang in de faag infectie, transcriberen en repliceren faag genetisch materiaal. Faag polymerasen worden gemakkelijk geïdentificeerd volgens traditionele sequentiehomologie methoden wegens hun wereldwijde bescherming 9 en is aangetoond als effectieve fylogenetische markers 10 dienen.Daarentegen faag metabole en structurele genen (klasse II / III genen 8) steeds divergent vaak geannoteerd als hypothetisch genen.
Faag metabole genen van invloed op de metabole capaciteit van de gastheer en zijn niet per se nodig zijn voor virale replicatie. Deze genen, vaak aangeduid als aanvullende metabole genen 11 (AMG), blijken gastheer metabolisme moduleren en zorgen voor een optimale progressie van de infectie en het succes van virion rijping. AMG zijn geassocieerd met het gebruik en toepassing van beperkende nutriënten of energieproductie trajecten. Voorbeelden zijn fotosysteem genen in het genoom van verschillende cyanophage 12-16, genen verbonden met en geregeld door fosfaatmetabolisme 17,18, en het gebruik van de pentose fosfaat route voor faag dNTP biosynthese 18,19. In vergelijking, structurele genen behoren tot de midden tot late genen die tijdens infectie en variëren in verschillende fagen-host systemen. De productie van structurele eiwitten zijn afhankelijk van de beschikbaarheid van virale dNTP en energie pools hun transcriptie, translatie en assemblage 8. De capside en staartvezel structurele eiwitten worden beschouwd als de meest uiteenlopende van viraal eiwit coderende genen en zijn nodig voor een succesvolle virion productie. Hun verschil wordt meestal toegeschreven aan de actieve rol die zij spelen in het vormgeven van virus-gastheer coevolution 20. Afwijkende eiwitten, ongeacht het gen klasse, worden gemakkelijk vergeten bij gebruik van traditionele homologie en sequence alignment technieken. Een poging om te corrigeren voor de beperkingen waargenomen strenge sequentievergelijkingen heeft geleid bioinformatica hulpmiddelen die gebruikt sequentiekenmerken Association, zoals kunstmatige neurale netwerken 21 bepalen. Kunstmatige neurale netwerken (ANNs) maken voor het voorspellen van de structurele en metabole genen, vereisen echter downstream experimentele validatie om direct te karakteriserengenfunctie.
Het doel van dit manuscript is phenomic protocollen voor de controle zowel katabole en anabole metabolisme van een gastheer bacterie tijdens de expressie van een nieuw faaggen verschaffen, functioneel voorspeld door middel ANNs. Het veld van phenomics, de biologie in verband met cellulaire fenotypes, is goed ingeburgerd in systeembiologie om te helpen bij het onderzoek naar eiwitten met onbekende of pleiotrope functie. Phenomic tools worden gebruikt om fenotypische informatie te koppelen aan genotypische informatie. We veronderstellen voor vermeende faag genen die hun functie (s) kunnen worden bepaald met inachtneming van ontvangst fysiologische effecten tijdens faag genexpressie. Om deze hypothese te onderzoeken, werden twee kwantitatieve methoden gekozen. Multi-fenotype testplaten (MAP's) gebruikt om vreemde drager gebruik en de daaropvolgende vorming van biomassa te controleren terwijl metabolomics gemeten diversiteit gastheer metaboliet en relatieve aanwezigheid tijdens de groei in bepaalde environpsychische aandoeningen. Vermeende structurele en metabole eiwitten werden tot overexpressie gebracht in Escherichia coli en representatieve resultaten van beide experimenten worden vergeleken. Tal van visuele technieken en high throughput verwerking pijpleidingen worden gepresenteerd aan de experimentele replicatie te vergemakkelijken. Ten slotte is de reproduceerbaarheid en de nauwkeurigheid van de gepresenteerde methoden worden besproken in de context van de verwachte fysiologische effecten van een geannoteerde capside-eiwit en faag metabolische eiwit thioredoxine, plus twee vermeende AMG.
Hier presenteren we phenomic benaderingen voor de functionele karakterisering van faaggenen vermeende. Technieken omvatten een ontwikkelde assay geschikt gastheer toezicht anabole metabolisme, de multi-fenotype testplaten (MAP), naast de gevestigde werkwijze van metabolomics, kan meten effecten katabole stofwisseling. Wij aanvullende instrumenten om het grote datasets als gevolg van deze technieken beheerst en hun high throughput verwerking en analyse 24. Tot slot, door middel van de vergelijking van een geannoteerde faag capsideproteïne, faag thioredoxine, twee vermeende faaggenen metabole, en de gemiddelde experimentele reactie stellen wij voor verschillende strategieën voor beide datasets en gen klassen te interpreteren, met de nadruk op de identificatie van fenotypische trends en identificatie van uitschieters.
Zoals gezegd, beide benaderingen kwantitatief te meten slechts de helft van ontvangst metabolisme. Om de relatieve werking van de interpretatienieuwe eiwitten in onderzoek, de gegevens van beide methoden is nodig om het bewijs van functie te geven. Hoewel dit niet een focus van onze huidige manuscript, wordt data-uitgangen van elke phenomic methode gebracht door middel van combinatorische analyses die zich richten op clustering technieken zoals willekeurige bos en principale componenten analyse. Bovendien moeten hypothesen gevolg van de gecombineerde analyse vervolgens bevestigd met klassieke genetische werkwijzen.
Tot slot, de methoden gepresenteerd worden sterk beïnvloed door bacteriële fysiologie en volgt dus dezelfde normen. Bij het uitvoeren van beide methoden, moeten overwegingen worden gedaan om onafhankelijke, klonale groepen worden geëxperimenteerd met waarborgen; besmetting wordt voorkomen; één variabele wordt getest; en passende controles worden tegelijkertijd liep. Het niet instaan voor dergelijke punten waardoor onzuivere resultaten, vergelijkbaar met fysiologische assay.
Multi-fenotype testplaten(MAP)
De ontwikkeling van MAP biedt een hoge doorvoer en aanpasbaar assay in vergelijking met technologieën die momenteel beschikbaar zijn (Figuur 5A en tabellen 1,2). De assay maakt gebruik van voorraden, apparatuur en basistechnieken in alle microbiologische laboratoria. De integratie van een computationele pijplijn, PMAnalyzer 24, voor verdere verwerking van gegevens en analyse zorgt voor een snelle data-interpretatie. Bovendien kunnen zowel experimenteel en analytische aspecten van de aanpak gemakkelijk worden afgesteld of afgestemd voor aangepaste doeleinden. Als bijvoorbeeld een groot deel van de gegevens mislukt filteren beschreven in hoofdstuk 4 passen, kan handmatig vinden in de groeicurven om te identificeren. Als het probleem ontstaat als gevolg van strengere filterparameters kunnen aanpassingen aan het script worden. Alternatief, als er problemen geassocieerd met de experimentele werkwijze (bijv verlengde condensatie, onjuist overdracht van bacteriële cells, etc.) zullen aanvullende duplo gemakkelijk worden herhaald.
Zoals beschreven in Cuevas et al. 24, de PMAnalyzer is een enkel bash programma geschreven als een wrapper script dat de parsing en analyse scripts als een samenhangend, geautomatiseerde pijplijn uitvoert. Alle scripts zijn vrij toegankelijk vanuit een Git repository bij 25 Door de mediane waarde voor elk tijdstip tussen drievoud data en vervolgens parameterizes de logistische curve om de vertragingstijd te verkrijgen, maximale groeisnelheid, asymptoot, en een nieuwe term, Growth niveau. De mediaanwaarde is in onze studie om het effect van grote uitbijters te verminderen verkozen boven het gemiddelde, maar het script kan gemakkelijk worden aangepast aan het gemiddelde van duplo te berekenen. Door minder variatie (SE) gezien over herhaalde data (Figuur 2A) behielden we het gebruik van de mediaan in de PMAnalyzer voor bevestiging van een logistische curve. Bovendien, de afgesneden voor groei in deze studie (GL ≥ 0,4) was determined door het vergelijken van hoe gegevens gescheiden over Groei Level en maximale groei (Figuur 1A, B). Afhankelijk van de instrumenten en het model dat wordt gebruikt deze term kan variëren, waarbij herdefiniëring van deze afgesneden waarde.
Een groot voordeel van onze test is het vermogen te vergelijken fenotypes met één kenmerkende parameter totale microbiële groei, die we definiëren als groeipeil (GL). GL is een harmonisch gemiddelde, en vermindert daardoor de effecten van grote uitschieters. Het gebruik van een harmonisch gemiddelde met verschoven-logistieke gemonteerd waarden geven een overzicht van de groei is gekomen door middel van trial and error. Andere methoden geprobeerd om onderscheid groei opgenomen: tijd waarin specifieke curveparameters (half μ max, μ max en draagvermogen), de determinatiecoëfficiënt (R2), en combinaties van de R 2 vermenigvuldigd met specifieke curve parameters bereikt. Met behulp van een harmonisch gemiddelde met verschovenlogistieke-fit waarden voor de GL ontvangen uit zoveel mogelijk bij de evaluatie groei, waardoor werd de werkwijze van keuze. Een overweging te merken is dat dynamische groeicurve patronen hebben het potentieel verloren bij gebruik van een enkele parameter of aangepaste model. Bijvoorbeeld, de afzonderlijke curve parameters van het logistische curve en GL zijn niet in staat vertegenwoordigen bifasische groei. In enige koolstofbron, dit effect op de groei impliceert bemiddeling van het virale eiwit op ofwel de omzetting van het substraat of verschuiving van substraat gebruik. Bijkomende effecten potentieel verloren als niet het overwegen van meerdere groei parameters omvatten: langdurige vertraging, stelt een grotere last van virale machines of producten; snel versnellen exponentiële fase, suggereert virale eiwitten gekoppeld aan de productie van energie trajecten gastheer; of hogere vorming van biomassa, wat impliceert virale ondersteuning opname en anabolisme gastheer nutriënten (data niet getoond). Zo plotten ontluikende groeicurves ( <strong> Figuur 2A, B) geeft informatie over trends in de tijd dat de GL houdt rekening met de belangrijkste variabelen van het logistische model, verschaffen een kwantitatieve getal aan het succes van een kloon vertegenwoordigen.
Worden de verschillende reacties bijgedragen door structurele en metabole genen in de MAP wordt opgemerkt dat de verschillende substraat betrokken klassen de krachtigste bewijs voor eiwitfunctie. Zo zijn metabole eiwitten vaak geassocieerd met het verkrijgen beperken nutriënten die aspecifieke de centrale metabolisme 16,32 gastheer. Voorlopige MAP experimenten blijkt dat klonen vermeende faaggenen metabole hebben een verhoogde vertragingsfase wanneer gegroeid op centraal metabolisme koolstofbronnen (Figuur 2A). Omgekeerd klonen uitvoeren vermeende structurele genen, waarin grote verhoudingen van gastheer energie en dNTP zwembaden vergen, resulteren in een vals positieve reactie op de groei voor central en aminozuurmetabolisme koolstofsubstraten. Dit is waarschijnlijk te wijten aan de accumulatie van onoplosbare eiwitten die in gastheer filamentatie en / of insluitingslichamen, zoals waargenomen via microscopie (figuur 2A en data niet getoond). Terwijl verdere analyse is nodig om deze voorlopige resultaten te valideren, de kaarten zijn in staat om ophalen van fenotypische reacties die correleren met de functies van specifieke faag gen klassen hypothese.
Naast de opheldering van onbekende virale eiwitten, de kaarten zijn een nieuwe bron om de functionele en metabolische diversiteit van een individuele bacterie of door bacteriën te onderzoeken. MAP componenten zijn ontworpen voor eenvoudige wijziging van de groei van verschillende bacteriën te ondersteunen; waaronder marine, auxotrofe en anaërobe bacteriën. Om deze inspanningen gedefinieerde basale pre-kweekmedium vereisen extra of gewijzigde chemische species voor een ander bacterieel genus kunnen worden ondersteund in de MAP vergemakkelijken.Een opmerking in dit gebruik van de kaarten is naar gedefinieerd media te behouden, een verbod op het gebruik van ingrediënten zoals trypton, gistextract en pepton.
Metabolomics
Het gebied van metabolomics is afhankelijk metabolietdatabases, die geïsoleerd metabolieten geïdentificeerd door massaspectrometrie omvatten. De kern faciliteit hier gekozen heeft één van de grootste metabolomics databases. Interessant is dat meer dan de helft van de metabolieten als gevolg van onze experimenten waren identificeerbaar (~ 65%), terwijl andere nooit eerder opgeslagen in de gastheer Escherichia coli (voorbeelden zijn: Indole 3 33 azijnzuur, salicylzuur 34 en dihydroabiëtinezuur 35). Dit feit kan worden toegeschreven aan zowel een sterke neiging van de gegevensbank richting plantenmetabolieten of de specifieke eiwitten onderzocht. Ongeacht, het resultaat een beperkt aantal bekende metabolieten vindt datarepresentatie en analyse. In de futuur, meerdere metabolomics methoden gebruik van verschillende databases zou zorgen voor een grotere metaboliet dekking.
Momenteel bekende en onbekende metabolieten worden gebruikt bij het vergelijken en tegenover elkaar onze nieuwe virale eiwitten. Met deze aanpak, veronderstellen we dat klonen functioneel vergelijkbare eiwitten een verhoogde gelijkenis in hun volledige metabolomic profiel zullen delen. Voorafgaande metabolomics analyse bleek dat terwijl structurele en metabolische genen niet duidelijk van elkaar gescheiden, die genen vertonen soortgelijke effecten op de gastheer wanneer overexpressie correleren (figuur 6). Bijvoorbeeld, de geannoteerde capside-gen clusters samen met het vermeende metabole genen die in deze studie, EDT2440 en EDT2441. Onderzoeken met behulp van een algemeen beschikbare transmembraan topologie en signaalpeptide voorspeller programma toonde bewijs dat beide vermeende metabole genen haven een enkele transmembraandomein. Interessant 5 uit the 9 klonen in de eerste clustergroep (meest linkse gedeelte van het dendrogram) hebben transmembraandomeinen volgens dezelfde topologie programma voorspeld. Verder onderzoek is nodig, maar is het waarschijnlijk dat dit bij de overexpressie van deze klonen metabolieten worden geassocieerd met cellulaire stressrespons gevolg van membraan of structurele lasten. Dit bewijs ondersteunt dat terwijl metabolomics data bezit een verhoogde hoeveelheid ruis, de werkwijze kan benadrukken signalen die algemene gevolgen van genen, zowel binnen als tussen een gen klasse differentiëren. Om te bepalen of de werkwijze kan extraheren uit specifieke informatie genfunctie, metabolieten werden gegroepeerd in specifieke metabole pathways. De hypothese zijn, indien een kloon beïnvloedt metabolieten specifiek voor één traject, dan is de overexpressie gen actief in dat traject. Voorafgaand aan de oprichting van ons metabolomics kwaliteitsborging pijpleiding, voorlopige gegevens blijkt dat meer dan eend ondervertegenwoordigd metabolieten meestal "onbekend", die weinig informatie over de paden waaraan ze zijn gekoppeld (data niet getoond). Voorbewerkte metabolomics data toont echter dat de meeste metabolietprofielen soortgelijk zijn en slechts een beperkt aantal bekende en onbekende metaboliet abundanties variëren tussen klonen, bijvoorbeeld putrescine en uracil (figuur 6). Om hogere resolutie eiwitfunctie inspanningen leveren worden aan de faaggenen nieuwe experimenten vergelijken met bekende faag genen, die kunnen worden gebruikt in de "gaten" metaboliet gebaseerde functionele karakterisering te vullen. Met deze techniek, de toegewezen functie van bekende virale genen verschaft een referentie voor de functie van onbekende genen. Toch is de beperkende factor metabolomic analyse is de omvang en relevantie van de database. Om te corrigeren voor deze beperkingen, metabolomic databases relatable aan dit onderzoek moeten worden ontwikkeld; zodanigals een database van metabolieten en hun abundanties specifiek voor de ASKA verzameling E. coli klonen waarin één enkel ORF tot overexpressie 36. Bewijs voor de noodzaak van dergelijke databases was voorzien in 2013 toen onderzoekers van de Lawerence Berkeley National Laboratory samengesteld de eerste uitgebreide database van metabolieten die specifiek zijn voor hele mutant bibliotheken van model bacteriën 37. Dit onderzoek leverde nieuw inzicht in de genen die nodig zijn voor het gebruik van specifieke metabolieten, het openbaren van de duidelijk verband tussen fenotype en genotype.
Bij het overwegen van metabolomics als hulpmiddel, is het belangrijk om duidelijk af te bakenen verwerking, gevolgd in de kern faciliteit. Een artefact van de meest experimentele procedures is de dag-tot-dag variatie in verband met de instrumenten van het gebruik. Tot op heden zijn alle GC-MS-analyse implementeert het gebruik van interne standaarden die zijn opgenomen in elke analytische run; Echter, de toevoeging van projectspecifieke interne samples </ Em> liep elke dag van experimenten verwijdert extra variantie. Deze overwegingen moet vroeg worden gericht aan normalisering problemen en vooroordelen te voorkomen. Een andere oplossing is om alle monsters te verwerken op een kernfaciliteit op dezelfde machine als los batch, optioneel verkrijgbaar bij elke doorvoer faciliteit.
De verschillende instrumenten zowel geïntroduceerd en opnieuw onderzocht in dit manuscript bieden nieuwe middelen om te screenen en te karakteriseren faaggenen functioneel onbekend. De eenvoud en de aanpasbaarheid van de experimentele technieken de stroomlijn gebruik van computationele leidingen verzekert deze methoden zijn toepasbaar op een breed scala van onderzoek inspanningen en velden. Ons doel is dat de phenomic benaderingen hier gepresenteerde verdere onderzoeken van faageiwitten roman in aanvulling zal helpen om systemen die even functioneel undefined.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |