In tegenstelling tot DNA sequencedata, epigenomic gegevens niet gemakkelijk worden blootgesteld aan tekstgebaseerde zoekopdrachten. Hier zijn de procedures voor het gebruik van een bijgewerkte versie van GeNemo, een tool web gebaseerde bioinformatics, uit te voeren patroon gebaseerde overeenkomsten in epigenomic gegevens vergelijken beschikbaar online databanken, met inbegrip van de encyclopedie van de elementen van het DNA met zoekt gebruikersgegevens.
In vergelijking met de robuuste tekst gebaseerde Zoekhulpmiddelen voor genomic of RNA sequencing gegevens, huidige methodologieën voor zoekopdrachten op basis van een patroon van epigenomic en andere functionele genomic gegevens zijn zeer beperkt. GeNemo is de eerste online zoekprogramma dat voldoet aan dit doel. Gebruikers input van hun functionele genomic gegevens in de Browser Extensible gegevens (BED), pieken en kopstuk formaten en kunnen zoeken naar gegevens in een van de drie indelingen. Gebruikers kunnen opgeven welke soorten datasets te zoeken tegen, kiezen uit een scala aan online datasets, met de encyclopedie van DNA elementen (CODEER) die verschillende epigenomic merken, transcriptionele factor bandplaatsen en chromatine hypersensitivities of toegankelijkheidsopties in specifieke celtypes, en ontwikkelingsstadia of soorten (muis of mens). GeNemo geeft als resultaat een lijst van genomic regio’s met bijpassende patronen aan de invoergegevens, die kan worden weergegeven in de browser evenals gedownload in de bestandsindeling van het BED. De bijgewerkte GeNemo grafische weergave is verbeterd, heeft meer robuuste interface en is niet langer vatbaar voor fouten ten gevolge van veranderingen in de University of California, Santa Cruz (UCSC) genome browser. Stappen voor probleemoplossing voor veelvoorkomende problemen worden besproken. Als de hoeveelheid functionele genomic gegevens exponentieel groeit, is er een kritische noodzaak om te ontwikkelen en verfijnen van de nieuwe bioinformatic hulpmiddelen, zoals GeNemo voor data-analyses en interpretatie.
Recente technologische vooruitgang hebben toegestaan voor een snelle uitbreiding van de epigenomic of functionele genomic gegevens depothouders, die de ontwikkeling van relevante analytische tools om uit te pakken van biologische inzichten hebben voorbijgestreefd. Een belangrijke manier om epigenomic gegevens te analyseren is om te zoeken naar gebruiker-geproduceerde gegevens tegen gegevens depothouders en vooral die uit de encyclopedie van DNA elementen (CODEER)1 projecten voor het afstemmen van de patronen die tot nieuwe kennis leiden kunnen. Bijvoorbeeld, kan identificeren van gelijkenissen in de patronen van twee verschillende epigenomic merken gedefinieerde loci in het genoom duiden op gecoördineerde actie door verschillende moleculaire spelers op chromatine bevleesdheid en transcriptionele voorschrift2 ,3,4.
Conventionele tekst gebaseerde zoekmachines zijn ondoeltreffend in dit opzicht omdat, in tegenstelling tot de opeenvolging van DNA, epigenomic gegevens hoofdzakelijk bestaan in het formaat van de intensiteiten of functioneel genomisch gebieden. GeNemo, permanent voor Gene Nemo (zoals in Finding Nemo), werd ontwikkeld om deze onvervulde behoefte met behulp van patronen gebaseerde zoekopdrachten5. Zijn algoritme maakt gebruik van een Markov Chain Monte Carlo maximalisatie proces5. Gebruikers nemen hun eigen gegevens of een dataset gedownload van depositories en zoek een matrix met gegevens van de online epigenomic te identificeren van gelijkenissen in patronen.
De huidige versie van GeNemo heeft een bijgewerkte display, interfaces meer krachtig met de University of California, Santa Cruz (UCSC) genome browser6, en is minder gevoelig voor problemen veroorzaakt door veranderingen in de laatste. In het bijzonder, terwijl GeNemo de resultatenpagina gebruikt om te worden gebaseerd op de UCSC genome browserinterface, de huidige versie van GeNemo ondersteunt een eigen pagina met resultaten en is bijgevolg niet langer negatief beïnvloed door structurele veranderingen aan de UCSC genome browser. GeNemo kunt geen genomic signaal, met inbegrip van binding aan eiwitten, histone modificatie, chromatine toegankelijkheid, topologische domeinen en zo verder, als een query te vinden colocalized/vergelijkbare segmenten onder bekende datasets van grote consortia. Het is daarom een belangrijk instrument voor de studie van de relatie tussen de verschillende epigenomic van belang en bekende gegevens gegenereerd in grootschalige genomic projecten.
Een grondige kennis van de epigenome is vereist om het volledige potentieel van het menselijk genoom sequencing in het verstrekken van nieuwe biologische inzichten8. Momenteel zijn er slechts manieren om te zoeken online epigenomic datasets door hun gegevens beschrijving en titel (d.w.z., metadata)1. De soorten zoeken men met epigenomic gegevens doen kan beperkt ernstig. Patroon gebaseerde zoekinstrumenten voor epigenomic gegevens zijn essentieel voor het verkennen van de relatie tussen verschillende epigenomic merken, wat tot nieuwe biologische inzichten leiden kunnen. GeNemo, die wordt gezocht door de inhoud van de gegevens en niet metagegevens, is de eerste dienst van zijn soort te vergelijken patronen in epigenomic gegevens van gepubliceerde depositories zoals de CODEER-database met een gebruiker-geproduceerde of gedownload dataset5. Dit markeert het begin van de beschikbaarheid van een epigenomic-zoekfunctie die algemeen toegankelijk is voor onderzoekers over de hele wereld gewoon als tekst gebaseerde reeks onderzoekshulpmiddel werd verspreid in de jaren 1990. Er zijn momenteel geen alternatieven voor online zoeken patronen gebaseerde tools voor epigenomic gegevens dan GeNemo.
Een mogelijke voorbeeld van het gebruik van GeNemo is om te zoeken van de CO weergegeven histone modificaties en andere epigenetische merken met de transcriptionele factor E2F6 in menselijke embryonale stamcellen (een voorbeeld E2F6 bindende signaal bestand is verkrijgbaar bij CODEER gegevens portaal of op https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.bed). Met behulp van dit bestand als query om te zoeken tegen alle ENCODE datasets in H1-hESC, zal GeNemo tonen dat E2F6 bindende signaal sterk is verrijkt met H3K4me1, H3K4me2, H3K4me3 en H3K27me3, die met bestaande onderzoek toont instemt dat E2F6 sommige genen via regelt methylatie van H3K279. Aan de andere kant, lijkt er te zijn colocalization van E2F6 en CtBP2 bandplaatsen, die bekend staat om te communiceren met een factor in de zelfde familie, E2F710. Deze resultaten voor de gehele genoom tegen een groot aantal epigenetische alineamarkeringen, transcriptionele factor bindende signalen en andere signalen opgenomen in ENCODE kunnen vrij gemakkelijk worden verkregen met GeNemo, die alle mogelijke doelen voor verdere analyse vormen kan.
Sinds de eerste publicatie5 van GeNemo als een epigenomic web gebaseerde gegevens search tool, is het gedeelte van de resultaten van de GeNemo bijgewerkt om een bijpassende verschijning met GeNemo de voorpagina. Het oude gedeelte van de resultaten nauw gespiegeld UCSC genome browser gedeelte ‘ resultaten ‘, en was grotendeels afhankelijk van de externe UCSC server voor weergave. Met de nieuwe interface is GeNemo gebruiksvriendelijker en niet langer afhankelijk van de UCSC genoom server (Hoewel gegevens zijn nog steeds op afstand opgehaald). Dit maakt GeNemo robuuster en minder gevoelig voor problemen als gevolg van wijzigingen in de code op de server UCSC. Bovendien, de interface van de nieuwe, snellere polymeer van GeNemo geeft de gebruiker meer tools om te visualiseren en analyseren van patronen in de gegevens.
Kritische stappen omvatten het verstrekken van de juiste input file en gegevens te zoeken tegen tracks selecteren. Gebruikers wordt geadviseerd om te experimenteren met verschillende track selectie functies vertrouwd te raken met de selectieprocedure en hoe verschillende commando’s kunnen worden gecombineerd tot het beoogde resultaat te bereiken. In het bijzonder, er rekening mee dat de “Toevoegen”-functie is vereist om toe te voegen van de gewenste nummers geselecteerd voor de query, terwijl “Filteren” of “Exclusief” kunnen worden gebruikt als logic poort opdrachten “En” en “Of”, respectievelijk. De “Update”-functie is nodig om invloed op alle de selecties voor de uitvoering van de zoekopdracht. Wanneer geen resultaten worden geretourneerd, kan een gebruiker controleren of de ingevoerde gegevensbestand, zoeken meer tracks of verhogen van het zoekbereik. Wanneer er een fout is, zal er een venster opduiken definiëren wat precies de fout is. Er zijn wel enkele dubbelzinnige fouten. Bijvoorbeeld, wanneer het venster zegt dat ‘geen bestand is geupload’, ofwel geen bestand is geupload, of het geüploade bestand was niet van een aanvaardbaar formaat en bijgevolg het programma kon niet leest het goed. Aanvaardbaar bestandsindelingen voor bestandsupload zijn BED en de pieken-bestandsindeling voor zowel upload methoden en kopstuk voor online link uploaden alleen. De ingepakte versies van deze bestandsindelingen zijn ook aanvaardbaar.
Huidige beperkingen van deze aanpak zijn de nog-te-worden-geoptimaliseerde algoritmen en functies werkzaam in GeNemo. GeNemo kan niet nog leidraad zijn voor de interpretatie van elke datasets keerde terug. Deze taak is aan de gebruikers, waarvoor aanzienlijke kennis en expertise in de biologie van het genoom en de epigenome. Bovendien, is een andere huidige beperking dat gebruikers het gevoeligheid en lawaai niveau van de zoekopdrachten niet wijzigen. We verwachten te blijven verbeteren en uitbreiden van de GeNemo op haar patroon zoeken vermogens en dataset-collectie in de toekomst.
The authors have nothing to disclose.
Dit werk werd gesteund door de NIH grants met inbegrip van DP1HD087990 van NICHD, R01HG008135 van NHGRI. Wij danken de leden van de Zhong lab voor waardevolle feedback.
Auteur bijdragen:
X.C. en A.T.Z. bijgewerkt GeNemo door codering van de nieuwe interface en functies; A.T.Z. geproduceerd de in-house monster video; A.T.Z., X.C en S.Z. schreef het papier.