Het doel van dit protocol is met een combinatie van rekenkundige en onderzoek van de Bank te vinden van nieuwe sequenties die niet gemakkelijk kunnen worden gescheiden van een mede zuiverende sequentie, die slechts gedeeltelijk bekend kan zijn.
Subtractieve genomics kan worden gebruikt in elk onderzoek waar het doel is om het identificeren van de sequentie van een gen, eiwit of algemene regio die is ingesloten in een bredere context van de genomic. Subtractieve genomics laat een onderzoeker een opeenvolging van de doelgroep van belang (T) isoleren door uitgebreide sequentie en af te trekken uit de bekende genetische elementen (referentie, R). De methode kan worden gebruikt voor het identificeren van nieuwe reeksen zoals mitochondriën, chloroplasten, virussen, of germline chromosomen beperkt, en is vooral handig als T niet kan worden eenvoudig geïsoleerd van R. beginnen met de uitgebreide genomic gegevens (R + T), de methode maakt gebruik van elementaire lokale Alignment Search Tool (BLAST) tegen een referentie-reeks, of sequenties, verwijderen van de overeenkomende bekende opeenvolgingen (R), weggaand achter het doel (T). Voor aftrekken te werken het beste, moet R een relatief volledige ontwerp dat T. ontbreekt Sinds sequenties overblijft nadat aftrekken worden getest door middel van kwantitatieve Polymerase Chain Reaction (qPCR), hoeft R niet te worden voltooid voor de methode om te werken. Hier koppelen we computationele stappen met experimentele stappen in een cyclus die herhaald kan worden, zo nodig, opeenvolgend verwijderen van meerdere referentie sequenties en verfijnen van het zoeken naar T. Het voordeel van subtractieve genomics is dat een volledig nieuwe target-reeks zelfs in gevallen waarin fysieke zuivering moeilijk, niet onmogelijk, of duur is kan worden geïdentificeerd. Een nadeel van de methode is het vinden van een geschikte referentiemiddelen voor aftrekken en het verkrijgen van T-positieve en negatieve monsters voor het testen van qPCR. Wij beschrijven onze implementatie van de methode in de identificatie van het eerste gen van het chromosoom germline-beperkte van Zebravink. In dat geval drie verwijzingen (R), opeenvolgend verwijderd gedurende drie cycli computationele filteren betrokken: een onvolledige genomic vergadering, ruwe genomische data en transcriptomic gegevens.
Het doel van deze methode is om te identificeren een nieuwe doelstelling (T) genomic opeenvolging, hetzij DNA hetzij RNA, uit een genomic context of een verwijzing (R) (Figuur 1). De methode is vooral handig als het doel niet fysiek worden gescheiden, of het zou duur om dit te doen. Alleen een paar organismen hebben genomen voor aftrekken, perfect afgewerkt dus een belangrijke innovatie van onze methode is de combinatie van computationele en methoden van de Bank in een cyclus waardoor onderzoekers te isoleren doel sequenties wanneer de verwijzing onvolmaakt is, of een ontwerp genoom van een organisme niet-model. Aan het einde van een cyclus, wordt qPCR testen gebruikt om te bepalen of meer aftrekken nodig is. Een reeks gevalideerde kandidaat-T zal de bekende T-positieve monsters statistisch meer detectie vertonen door qPCR.
Incarnaties van de methode zijn doorgevoerd in de ontdekking van nieuwe bacteriële drug targets die geen host homologen1,2,3,4 en identificatie van nieuwe virussen geïnfecteerde hosts 5,6. Naast de identificatie van T, kan de methode verbeteren R: wij recent gebruikte de methode om 936 ontbrekende genen van het genoom van de verwijzing Zebravink en een nieuw gen van een alleen-germline chromosoom (T)7te identificeren. Subtractieve genomics is bijzonder waardevol wanneer T dreigt te worden zeer uiteenlopende vanaf de bekende opeenvolgingen of wanneer de identiteit van T is in grote lijnen gedefinieerd, zoals de Zebravink germline-beperkte chromosoom7.
Doordat er geen positieve identificatie van T vooraf, is een belangrijk voordeel van subtractieve genomics dat er onbevooroordeelde. In een recente studie onderzocht Readhead et al. de relatie tussen de ziekte van Alzheimer en virale overvloed in vier hersengebieden. Readhead et al. gemaakt voor virale identificatie, een database van 515 virussen8, ernstig beperken de virale agenten die hun studie kon identificeren. Subtractieve genomics kunnen zijn gebruikt om het gezond en Alzheimer genoom te vergelijken om te isoleren mogelijk roman virussen die zijn gekoppeld aan de ziekte, ongeacht hun gelijkenis met bekende infectieuze agentia. Hoewel er 263 bekende mens-targeting virussen, wordt er geschat dat ongeveer 1,67 miljoen onontdekte virale soorten bestaat, met 631,000-827,000 van hen hebben een potentieel te infecteren mensen9.
Isolatie van roman virussen is een terrein waarop subtractieve genomics is bijzonder effectief, maar sommige studies wellicht niet zo’n strenge methode. Bijvoorbeeld, transcriberen studies identificerende roman virussen hebt gebruikt onbevooroordeelde high-throughput sequencing gevolgd door omgekeerde transcriptie en BLASTx voor virale opeenvolgingen5 of verrijking van virale nucleïnezuren te halen en keren virale opeenvolgingen 6. Hoewel deze studies werkzaam DOVO Sequencen en vergadering, aftrekken werd niet gebruikt omdat de doelgroep sequenties werden positief geïdentificeerd door BLAST. Als de virussen zijn volledig nieuw en niet verwant (of zijdelings gerelateerde) aan andere virussen, subtractieve genomics zou zijn geweest een nuttige techniek. Het voordeel van subtractieve genomics is dat sequenties die volledig nieuw zijn kunnen worden verkregen. Als van het organisme genoom bekend is, kan het worden afgetrokken uit te verlaten een virale opeenvolgingen. Bijvoorbeeld, in onze gepubliceerde studie geïsoleerd we een nieuwe virale sequence Zebravink via subtractieve genomics, hoewel het was niet onze oorspronkelijke opzet7.
Subtractieve genomics is ook nuttig bij de identificatie van bacteriële vaccin doelen, ingegeven door de dramatische stijging van de antibiotica-resistentie1,,2,,3,4gebleken. Om het risico van auto-immune reactie, onderzoekers het doelwit van vaccin door af te trekken alle proteïnen die homologen in de menselijke gastheer hebben teruggebracht. Een bijzondere studie, Corynebacterium pseudotuberculosis, kijken uitgevoerd aftrekken van gewervelde gastheer genomen vanaf verschillende bacteriële genoom om ervoor te zorgen dat de mogelijke drug targets niet afbreuk zou doen aan eiwitten in de hosts die leiden tot bijwerkingen 1. de basishandelingen stroom van deze studies is het downloaden van de bacteriële Proteoom, bepalen van vitale eiwitten, verwijderen van redundante eiwitten, gebruik BLASTp om te isoleren de essentiële eiwitten en BLASTp tegen gastheer Proteoom te verwijderen van alle eiwitten met host homologen 1 , 2 , 3 , 4. In dit geval subtractieve genomics ervoor zorgen dat de vaccins ontwikkeld geen af-target effecten in de host1,2,3,4 hebben zal.
We gebruikten subtractieve genomica te identificeren van het eerste eiwit-codeert gen op een germline-beperkte chromosoom (GRC) (in dit geval, T), dat in germlines wordt gevonden maar niet somatische weefsel van beide vrouwen10. Voor deze studie was de alleen genomische informatie die was bekend over het GRC een repetitieve regio11. DOVO vergadering werd uitgevoerd op RNA sequenced van eierstok en teste weefsels (R + T) van volwassen zebra vinken. De computationele afschaffing van sequenties werd uitgevoerd met behulp van gepubliceerde somatische (spier) genoom reeks (R1)12, haar rauwe (Sanger) lezen gegevens (R2), en een somatische (hersenen) transcriptome (R3)13. De sequentiële gebruik van drie verwijzingen werd gedreven door de qPCR testen bij stap 5 van elke cyclus (Figuur 2A), waaruit blijkt dat aanvullende filteren vereist was. Het ontdekte α-SNAP-gen werd bevestigd door de qPCR van DNA en RNA, klonen en rangschikken. We laten zien in ons voorbeeld dat deze methode flexibel is: het is niet afhankelijk van de matching van nucleic zuren (DNA vs RNA) en dat aftrekken kan uitgevoerd worden met verwijzingen (R), die bestaan uit assemblages of ruwe leest.
Subtractieve genomics is krachtig, maar het is niet een cookie-cutter aanpak, waarbij aanpassingen op verschillende belangrijke stappen, en zorgvuldige selectie van referentie sequenties en proefmonsters. Als de query-vergadering van slechte kwaliteit is, misschien filteren stappen alleen isoleren vergadering artefacten. Daarom is het belangrijk om grondig valideren de DOVO vergadering met behulp van een geschikte validatie-protocol aan het specifieke project. Voor RNA-seq, worden richtsnoeren verstrekt op de we…
The authors have nothing to disclose.
De auteurs erkennen Michelle Biederman, Alyssa Pedersen en Colin J. Saldanha voor hun hulp bij de Zebravink genomics project in verschillende stadia. We erkennen ook Evgeny Bisk voor het berekenen van cluster Systeembeheer en NIH grant 1K22CA184297 (voor J.R.B.) en NIH NS 042767 (voor C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |