Summary

Patroon-based Search van Epigenomic gegevens met behulp van GeNemo

Published: October 08, 2017
doi:

Summary

In tegenstelling tot DNA sequencedata, epigenomic gegevens niet gemakkelijk worden blootgesteld aan tekstgebaseerde zoekopdrachten. Hier zijn de procedures voor het gebruik van een bijgewerkte versie van GeNemo, een tool web gebaseerde bioinformatics, uit te voeren patroon gebaseerde overeenkomsten in epigenomic gegevens vergelijken beschikbaar online databanken, met inbegrip van de encyclopedie van de elementen van het DNA met zoekt gebruikersgegevens.

Abstract

In vergelijking met de robuuste tekst gebaseerde Zoekhulpmiddelen voor genomic of RNA sequencing gegevens, huidige methodologieën voor zoekopdrachten op basis van een patroon van epigenomic en andere functionele genomic gegevens zijn zeer beperkt. GeNemo is de eerste online zoekprogramma dat voldoet aan dit doel. Gebruikers input van hun functionele genomic gegevens in de Browser Extensible gegevens (BED), pieken en kopstuk formaten en kunnen zoeken naar gegevens in een van de drie indelingen. Gebruikers kunnen opgeven welke soorten datasets te zoeken tegen, kiezen uit een scala aan online datasets, met de encyclopedie van DNA elementen (CODEER) die verschillende epigenomic merken, transcriptionele factor bandplaatsen en chromatine hypersensitivities of toegankelijkheidsopties in specifieke celtypes, en ontwikkelingsstadia of soorten (muis of mens). GeNemo geeft als resultaat een lijst van genomic regio’s met bijpassende patronen aan de invoergegevens, die kan worden weergegeven in de browser evenals gedownload in de bestandsindeling van het BED. De bijgewerkte GeNemo grafische weergave is verbeterd, heeft meer robuuste interface en is niet langer vatbaar voor fouten ten gevolge van veranderingen in de University of California, Santa Cruz (UCSC) genome browser. Stappen voor probleemoplossing voor veelvoorkomende problemen worden besproken. Als de hoeveelheid functionele genomic gegevens exponentieel groeit, is er een kritische noodzaak om te ontwikkelen en verfijnen van de nieuwe bioinformatic hulpmiddelen, zoals GeNemo voor data-analyses en interpretatie.

Introduction

Recente technologische vooruitgang hebben toegestaan voor een snelle uitbreiding van de epigenomic of functionele genomic gegevens depothouders, die de ontwikkeling van relevante analytische tools om uit te pakken van biologische inzichten hebben voorbijgestreefd. Een belangrijke manier om epigenomic gegevens te analyseren is om te zoeken naar gebruiker-geproduceerde gegevens tegen gegevens depothouders en vooral die uit de encyclopedie van DNA elementen (CODEER)1 projecten voor het afstemmen van de patronen die tot nieuwe kennis leiden kunnen. Bijvoorbeeld, kan identificeren van gelijkenissen in de patronen van twee verschillende epigenomic merken gedefinieerde loci in het genoom duiden op gecoördineerde actie door verschillende moleculaire spelers op chromatine bevleesdheid en transcriptionele voorschrift2 ,3,4.

Conventionele tekst gebaseerde zoekmachines zijn ondoeltreffend in dit opzicht omdat, in tegenstelling tot de opeenvolging van DNA, epigenomic gegevens hoofdzakelijk bestaan in het formaat van de intensiteiten of functioneel genomisch gebieden. GeNemo, permanent voor Gene Nemo (zoals in Finding Nemo), werd ontwikkeld om deze onvervulde behoefte met behulp van patronen gebaseerde zoekopdrachten5. Zijn algoritme maakt gebruik van een Markov Chain Monte Carlo maximalisatie proces5. Gebruikers nemen hun eigen gegevens of een dataset gedownload van depositories en zoek een matrix met gegevens van de online epigenomic te identificeren van gelijkenissen in patronen.

De huidige versie van GeNemo heeft een bijgewerkte display, interfaces meer krachtig met de University of California, Santa Cruz (UCSC) genome browser6, en is minder gevoelig voor problemen veroorzaakt door veranderingen in de laatste. In het bijzonder, terwijl GeNemo de resultatenpagina gebruikt om te worden gebaseerd op de UCSC genome browserinterface, de huidige versie van GeNemo ondersteunt een eigen pagina met resultaten en is bijgevolg niet langer negatief beïnvloed door structurele veranderingen aan de UCSC genome browser. GeNemo kunt geen genomic signaal, met inbegrip van binding aan eiwitten, histone modificatie, chromatine toegankelijkheid, topologische domeinen en zo verder, als een query te vinden colocalized/vergelijkbare segmenten onder bekende datasets van grote consortia. Het is daarom een belangrijk instrument voor de studie van de relatie tussen de verschillende epigenomic van belang en bekende gegevens gegenereerd in grootschalige genomic projecten.

Protocol

Opmerking: het protocol kan overal worden gepauzeerd. 1. basic Setup verkrijgen een BED, pieken notatie of kopstuk 7-bestand met de gegevens moeten worden ingevoerd in genoom. Het bestand moet de Extensienaam van de " bed ", " broadpeaks " " narrowpeaks ", of " kopstuk " respectievelijk. ​ Opmerking: gecomprimeerde versies van dit soort bestanden werkt ook. Een internetbrowser gebruiken om naar genemo.org te gaan. Een werkend systeem kunnen uitvoeren van de meest voorkomende internet-browsers moeten kunnen gebruiken GeNemo. Kiezen welke soorten te zoeken tegen het gebruik van het dropdownmenu. Momenteel beschikbare soorten bevatten menselijke en muis. Upload gebruikersbestand met behulp van een url of een direct kunnen worden geüpload. Kopstuk bestanden alleen werken met de methode van de upload url. BED en pieken formaat bestanden werk met beide methoden (wiggle bestanden kunnen niet worden geüpload als de belangrijkste gegevens vanaf nu). 2. Optionele Setup Geef een e-mailadres in het bijbehorende vak om te ontvangen van de zoekresultaten per e-mail wanneer het zoeken klaar is. ​ Opmerking: wanneer het zoeken van een groot deel van het genoom en/of tegen een groot aantal nummers (zie hieronder), is het raadzaam dat de gebruiker zijn/haar e-mail, biedt, aangezien de zoektocht kan lang duren. Bijvoorbeeld een zoekopdracht 100 megabase neemt ongeveer 15 s. Een link naar de lijst met zoekresultaten worden verstuurd naar het e-mailadres opgegeven wanneer de zoekactie is voltooid. De link vervalt in 7 dagen na de voltooiing van een zoekopdracht. Bieden een kopstuk-bestand of het bestand van de weergave wiggle mogelijk vanaf een url. Dit display-bestand heeft geen invloed op de resultaten; het zal alleen worden getoond naast de resultaten. Een zoekbereik (met inbegrip van de posities van het chromosoom en basenpaar) opgeven in het bijbehorende vak. Lijst van het chromosoom, basenpaar starten en eindigen basenpaar. Gebruik ' chrN ' voor het formaat van het chromosoom, waar ' N ' is het chromosoom nummer/de letter (1, 2, … X of Y). Voor de baseparen, enkel type in de getallen. Spaties tussen alle drie posten, of een dubbele punt (:) tussen het aantal chromosomen en het paar van het eerste honk, en/of een streepje tussen de twee basenparen. Bijvoorbeeld: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000. Opmerking: De stappen 2.1-2.3 zijn optioneel. Figuur 1 : GeNemo ' s voorpagina met de nodige gebieden ingevuld. Een gebruiker moet input van de soorten, Zoek bestand en zoekbereik en selecteer tracks die hij/zij wil zoeken tegen. E-mailadres en het bestand weer te geven zijn optioneel. Klik hier voor een grotere versie van dit cijfer. 3. gegevensselectie Figuur 2 : Track selectie venster. Dit wordt opgevoed door te klikken op de " GEGEVENSSELECTIE " knop op de voorpagina. Hier, Selecteer gebruikers tracks om te zoeken van het invoerbestand tegen. Sommige van de nummers zijn al geselecteerd door standaard. Klik hier voor een grotere versie van dit cijfer. Na het klikken op de selectieknop, kiezen welke typen tracks te zoeken tegen (dat wil zeggen, om toe te voegen aan de query). De track-collectie bevat veel verschillende datasets van over de hele wereld labs. Zoals de lijst met tracks vrij lang is, gebruikers kunnen op wilt gebruiken de filterknop (boven) ter vergemakkelijking van de track selecties. Tracks kunnen worden gefilterd door het Experiment-, weefsel-, cel-lijn-en/of Lab. Er zijn vijf knoppen aan de onderkant te helpen uitvoeren van track selectie: Alles selecteren, selecteert u None, Add, Filter, uitsluiten. Alles selecteren " en " selecteren geen " zijn vanzelfsprekend. De " toevoegen " knop voegt de geselecteerde tracks aan de query. Het dient als de logische poort " of ". Merk op dat het filter/de filters boven (bijvoorbeeld bepaalde experimenten, weefsels, cellijnen of Labs) selecteren automatisch geen overeenkomstige nummers aan de zoekopdracht voegt. Gebruikers moeten eerst Selecteer tracks (bijvoorbeeld, hersenen, lever onder het weefsel), en klik vervolgens op de " toevoegen " knop toe te voegen aan de query. Bij het selecteren van tracks, er rekening mee dat alleen de filters dat is opgegeven in het geopende tabblad in het filtervenster zal worden toegepast op de zoekopdracht. Selecties op andere tabbladen zal worden opgeslagen in het filtervenster van, maar niet op de zoekopdracht toegepast. De " Filter " knop behoudt alleen de soorten nummers die momenteel is geselecteerd in het filtervenster in de query en verwijdert alle andere soorten tracks. Het dient als de logische poort " en ". In wezen, " Filter " kunt de selectie van de interactie tussen twee categorieën van tracks (bijvoorbeeld, bepaalde weefsels met bepaalde Labs). Merk op dat " Filter " doet niet de geselecteerde soorten nummers aan de query toevoegen als ze nog niet in de query. De " uitsluiten " knop verwijdert alle soorten tracks die momenteel zijn geselecteerd in het filtervenster uit de query. Het dient als de logische poort " niet ", tegen de " Filter " functie. Nogmaals, " uitsluiten " voegt niet de nummers die momenteel niet geselecteerd in het filtervenster aan de query. Figuur 3 : filtervenster . Dit wordt opgevoed door te klikken op de " FILTER " knop op de Track selectie venster. Hier, de gebruikers kunnen selecteren veel tracks op hetzelfde moment, met relatief gemak. Klik hier voor een grotere versie van dit cijfer. Figuur 4 : het gebruik van de filter-functie. Klik hier voor een grotere versie van dit cijfer. na de gewenste tracks aan de query toevoegt, klikt u op de " Update " knop op het bodemrecht. Dit is nodig om twee manieren om gegevens te selecteren: individuele gegevens tracks selecteren of filteren/exclusief. De " Reset weergave " knop herstelt u de query naar de standaard-tracks aan expressie genregulatie in mens/muis embryonale stamcellen gerelateerde. Opmerking: Selectie van nummers moet worden gezocht tegen " gegevensselectie " is optioneel maar aanbevolen wordenoorzaak de standaard Zoek tracks waarschijnlijk niet geschikt is voor de gebruiker zijn ' s behoeften. 4. Zoek- en resultatenpagina Klik op de " Zoek " knop na gegevensselectie. De zoekactie kan enige tijd duren. Zodra het zoeken voltooid is, zien gebruikers verschillende vakken in de resultatenpagina. Elk vak geeft een deel van het genoom waar een gebruiker ' s gegevensbestand heeft een nauw geëvenaard patroon met een of meer van de nummers die de gebruiker heeft opgevraagd. Als er geen vakken zichtbaar, probeer meer soorten tracks zoeken of maken het zoekbereik groter met het zelfde invoerbestand. Een gemakkelijke manier om dit te doen zonder overdoen alles is te klikken op de " ☰ " knop naast het logo. Dit zal openstellen van een zijbalk waarmee de gebruiker de zoekactie wijzigen. De resultaten kunnen worden geëxporteerd als een BED-bestand door te klikken op de " DOWNLOAD BED FILE " knop aan de onderkant van de resultatenpagina. Klik op de knop visualiseren op het hoogste recht van elk vak te visualiseren van de resultaten. In het weergavevenster op de juiste, meerdere dingen worden weergegeven met inbegrip van de gegevens, waarin de gebruiker input bestand, het bestand weergeven als een werd ingevoerd, overeenkomen met nummers, en sommige standaard bijgehouden. Van de resultaten, de gebruiker kan het vergelijken van bekende ENCODE datasets tegen de verstrekte dataset voor verder onderzoek. De gebruiker kan ook verwijzen naar UCSC genen verband met de query-resultaten te zien. Als nummers van meerdere cel lijnen/weefsels zijn geselecteerd, de gebruiker dergelijke resultaten kan gebruiken om te krijgen inzichten over de specificiteit van het weefsel van de overeenkomsten tussen de gegeven dataset en ENCODE datasets. Op de resultatenpagina, gebruiker kan slepen op de nummers om te bewegen stroomopwaarts of stroomafwaarts van het genoom; wanneer de muiscursor op de coördinaten, de gebruiker kan het muiswiel gebruiken en/of in-en uitzoomen. Figuur 5 : resultatenpagina. Deze bepaalde zoekopdracht leverde 363 overeenkomende gebieden. Weergeven van het eerste overeenkomende gebied kan worden gedaan door te klikken op de " SHOW " knop op de linkerbenedenhoek van elke resulterende vak gebied. Op het linkerdeel van het venster Eigenschappen voor beeldscherm kan men zien dat de twee gegevensbestanden (input en geselecteerde track) qua signaal sterkte patroon zijn. Klik hier voor een grotere versie van dit cijfer.

Representative Results

Hier afgebeeld in Figuur 5 is een gesimuleerde zoektocht. De menselijke soort werd geselecteerd en de bijbehorende voorbeeldbestand werd gebruikt als het bestand van de invoergegevens. Daarnaast is de standaard nummers, zoals te zien in Figuur 3, uitgekozen. Er waren in totaal 363 matching van regio’s en het eerste gebied wordt weergegeven in de weergave pagina. Het kan worden gezien dat het patroon van de intensiteit van 17036000 naar 17038000 baseren op chromosoom 1 voor het invoerbestand en een van de geselecteerde tracks zeer vergelijkbaar is.

Discussion

Een grondige kennis van de epigenome is vereist om het volledige potentieel van het menselijk genoom sequencing in het verstrekken van nieuwe biologische inzichten8. Momenteel zijn er slechts manieren om te zoeken online epigenomic datasets door hun gegevens beschrijving en titel (d.w.z., metadata)1. De soorten zoeken men met epigenomic gegevens doen kan beperkt ernstig. Patroon gebaseerde zoekinstrumenten voor epigenomic gegevens zijn essentieel voor het verkennen van de relatie tussen verschillende epigenomic merken, wat tot nieuwe biologische inzichten leiden kunnen. GeNemo, die wordt gezocht door de inhoud van de gegevens en niet metagegevens, is de eerste dienst van zijn soort te vergelijken patronen in epigenomic gegevens van gepubliceerde depositories zoals de CODEER-database met een gebruiker-geproduceerde of gedownload dataset5. Dit markeert het begin van de beschikbaarheid van een epigenomic-zoekfunctie die algemeen toegankelijk is voor onderzoekers over de hele wereld gewoon als tekst gebaseerde reeks onderzoekshulpmiddel werd verspreid in de jaren 1990. Er zijn momenteel geen alternatieven voor online zoeken patronen gebaseerde tools voor epigenomic gegevens dan GeNemo.

Een mogelijke voorbeeld van het gebruik van GeNemo is om te zoeken van de CO weergegeven histone modificaties en andere epigenetische merken met de transcriptionele factor E2F6 in menselijke embryonale stamcellen (een voorbeeld E2F6 bindende signaal bestand is verkrijgbaar bij CODEER gegevens portaal of op https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.bed). Met behulp van dit bestand als query om te zoeken tegen alle ENCODE datasets in H1-hESC, zal GeNemo tonen dat E2F6 bindende signaal sterk is verrijkt met H3K4me1, H3K4me2, H3K4me3 en H3K27me3, die met bestaande onderzoek toont instemt dat E2F6 sommige genen via regelt methylatie van H3K279. Aan de andere kant, lijkt er te zijn colocalization van E2F6 en CtBP2 bandplaatsen, die bekend staat om te communiceren met een factor in de zelfde familie, E2F710. Deze resultaten voor de gehele genoom tegen een groot aantal epigenetische alineamarkeringen, transcriptionele factor bindende signalen en andere signalen opgenomen in ENCODE kunnen vrij gemakkelijk worden verkregen met GeNemo, die alle mogelijke doelen voor verdere analyse vormen kan.

Sinds de eerste publicatie5 van GeNemo als een epigenomic web gebaseerde gegevens search tool, is het gedeelte van de resultaten van de GeNemo bijgewerkt om een bijpassende verschijning met GeNemo de voorpagina. Het oude gedeelte van de resultaten nauw gespiegeld UCSC genome browser gedeelte ‘ resultaten ‘, en was grotendeels afhankelijk van de externe UCSC server voor weergave. Met de nieuwe interface is GeNemo gebruiksvriendelijker en niet langer afhankelijk van de UCSC genoom server (Hoewel gegevens zijn nog steeds op afstand opgehaald). Dit maakt GeNemo robuuster en minder gevoelig voor problemen als gevolg van wijzigingen in de code op de server UCSC. Bovendien, de interface van de nieuwe, snellere polymeer van GeNemo geeft de gebruiker meer tools om te visualiseren en analyseren van patronen in de gegevens.

Kritische stappen omvatten het verstrekken van de juiste input file en gegevens te zoeken tegen tracks selecteren. Gebruikers wordt geadviseerd om te experimenteren met verschillende track selectie functies vertrouwd te raken met de selectieprocedure en hoe verschillende commando’s kunnen worden gecombineerd tot het beoogde resultaat te bereiken. In het bijzonder, er rekening mee dat de “Toevoegen”-functie is vereist om toe te voegen van de gewenste nummers geselecteerd voor de query, terwijl “Filteren” of “Exclusief” kunnen worden gebruikt als logic poort opdrachten “En” en “Of”, respectievelijk. De “Update”-functie is nodig om invloed op alle de selecties voor de uitvoering van de zoekopdracht. Wanneer geen resultaten worden geretourneerd, kan een gebruiker controleren of de ingevoerde gegevensbestand, zoeken meer tracks of verhogen van het zoekbereik. Wanneer er een fout is, zal er een venster opduiken definiëren wat precies de fout is. Er zijn wel enkele dubbelzinnige fouten. Bijvoorbeeld, wanneer het venster zegt dat ‘geen bestand is geupload’, ofwel geen bestand is geupload, of het geüploade bestand was niet van een aanvaardbaar formaat en bijgevolg het programma kon niet leest het goed. Aanvaardbaar bestandsindelingen voor bestandsupload zijn BED en de pieken-bestandsindeling voor zowel upload methoden en kopstuk voor online link uploaden alleen. De ingepakte versies van deze bestandsindelingen zijn ook aanvaardbaar.

Huidige beperkingen van deze aanpak zijn de nog-te-worden-geoptimaliseerde algoritmen en functies werkzaam in GeNemo. GeNemo kan niet nog leidraad zijn voor de interpretatie van elke datasets keerde terug. Deze taak is aan de gebruikers, waarvoor aanzienlijke kennis en expertise in de biologie van het genoom en de epigenome. Bovendien, is een andere huidige beperking dat gebruikers het gevoeligheid en lawaai niveau van de zoekopdrachten niet wijzigen. We verwachten te blijven verbeteren en uitbreiden van de GeNemo op haar patroon zoeken vermogens en dataset-collectie in de toekomst.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gesteund door de NIH grants met inbegrip van DP1HD087990 van NICHD, R01HG008135 van NHGRI. Wij danken de leden van de Zhong lab voor waardevolle feedback.

Auteur bijdragen:
X.C. en A.T.Z. bijgewerkt GeNemo door codering van de nieuwe interface en functies; A.T.Z. geproduceerd de in-house monster video; A.T.Z., X.C en S.Z. schreef het papier.

Materials

GENEMO https://www.genemo.org Comparative Epigenome Browser

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -. Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Play Video

Cite This Article
Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

View Video