Summary

Ricerca basata su pattern di Epigenomic dati utilizzando GeNemo

Published: October 08, 2017
doi:

Summary

A differenza dei dati di sequenza di DNA, epigenomic dati non sono facilmente soggetti a ricerche basate su testo. Presentato qui sono le procedure per utilizzare una versione aggiornata di GeNemo, uno strumento web-based di bioinformatica, per condurre le ricerche basate su pattern per somiglianze nei dati di epigenomic confronto database online disponibili tra cui Encyclopedia of DNA Elements con dati dell’utente.

Abstract

Confrontato con gli strumenti di ricerca testuale robusto per genomica o RNA dati di sequenziamento, attuali metodologie per ricerche basate su pattern di epigenomic e altri dati di genomici funzionali sono molto limitati. GeNemo è il primo strumento di ricerca online che compie questo obiettivo. Gli utenti loro dati genomici funzionali nel Browser Extensible dati (letto), picchi e Parruccone formati di input e possono cercare i dati in uno dei tre formati. Gli utenti possono specificare quali tipi di set di dati per la ricerca contro, scegliendo tra una varietà di set di dati online, con l’enciclopedia di DNA elementi (ENCODE) che rappresentano diversi epigenomic marchi, siti di legame del fattore trascrizionale e cromatina ipersensibilità o accessibilità in tipi cellulari specifici e fasi di sviluppo o specie (mouse o umani). GeNemo restituisce un elenco di regioni genomiche con corrispondenti modelli per i dati di input, che possono essere visualizzati nel browser come pure scaricati nel formato di file letto. Il GeNemo aggiornato ha migliorato la visualizzazione grafica, ha interfaccia più affidabile e non è più soggetto a errori a causa di modifiche nella Università della California, browser del genoma di Santa Cruz (UCSC). Procedure di risoluzione dei problemi più comuni sono discussi. Come la quantità di dati di genomici funzionale si sta espandendo in modo esponenziale, c’è un bisogno critico per sviluppare e perfezionare nuovi strumenti bioinformatici come GeNemo per l’analisi dei dati e interpretazione.

Introduction

I recenti progressi tecnologici hanno permesso una rapida espansione di epigenomic o depositari di dati di genomica funzionale, che hanno superato lo sviluppo di strumenti analitici pertinenti per estrarre intuizioni biologiche. Un modo importante per analizzare i dati di epigenomic è per la ricerca di dati generati dall’utente contro depositari di dati e soprattutto quelli dai progetti1 Enciclopedia del DNA Elements (codifica) per corrispondenti modelli che potrebbero portare a nuove conoscenze. Per esempio, identificando somiglianze nei modelli di due marchi diversi epigenomic loci definiti attraverso il genoma può indicare un’azione coordinata di diversi attori molecolari sulla conformazione della cromatina e regolazione trascrizionale2 ,3,4.

Motori di ricerca basati su testo convenzionali sono inefficaci a questo proposito perché, a differenza di sequenza di DNA, epigenomic dati esistono principalmente nel formato di intensità o di regioni genomiche funzionali. GeNemo, in piedi per Gene Nemo (come in Finding Nemo), è stato sviluppato per soddisfare questa esigenza non soddisfatta utilizzando ricerche basate su pattern5. L’algoritmo utilizza un processo di Markov Chain Monte Carlo massimizzazione5. Gli utenti prendere i propri dati o un set di dati scaricati da depositari e cerca una matrice di dati online epigenomic per identificare somiglianze nei modelli.

La versione corrente di GeNemo ha un display aggiornato, interfacce più robustamente con la University of California, Santa Cruz (UCSC) genome browser6ed è meno soggetta a problemi causati da modifiche in quest’ultimo. In particolare, mentre la pagina dei risultati di GeNemo utilizzato per essere basato sull’interfaccia del browser genoma UCSC, la versione corrente di GeNemo supporta la propria pagina di risultati e di conseguenza non più negativamente è influenzata dai cambiamenti strutturali al browser del genoma UCSC. GeNemo può utilizzare qualsiasi segnale genomico, compreso il legame alle proteine, modifica dell’istone, all’accessibilità cromatinica, domini topologici e così via, come una query per trovare segmenti colocalized/simili tra set di dati noti da grandi consorzi. Pertanto, è un importante strumento per studiare la relazione tra epigenomic diversi dati di interesse e dati noti generati nei progetti di genomica su larga scala.

Protocol

Nota: il protocollo può essere sospesa in qualsiasi punto. 1. configurazione di base di formato ottenere un letto, picchi, o BigWig 7 file contenente i dati da immettere nel genoma. Il file deve avere estensione nome " letto ", " broadpeaks " " narrowpeaks ", o " Parruccone " rispettivamente. ​ Nota: funzioneranno anche con zip versioni di questi tipi di file. Utilizzare un browser internet per andare a genemo.org. Qualsiasi sistema operativo in grado di eseguire più comuni browser di internet dovrebbe essere in grado di utilizzare GeNemo. Scegliere quali specie per la ricerca contro usando il menu a discesa. Attualmente specie disponibili includono umani e del mouse. Upload file utente utilizzando un url o un upload diretto. Parruccone file funzionano solo con il metodo di caricamento di url. LETTO e picchi formato file lavoro con entrambi i metodi (wiggle file non possono essere caricati come i principali dati fin d’ora). 2. Installazione opzionale fornire un indirizzo e-mail nella casella corrispondente al fine di ricevere i risultati di ricerca via e-mail quando viene eseguita la ricerca. ​ Nota: durante la ricerca di una grande parte del genoma e/o contro un gran numero di brani (Vedi sotto), è consigliabile che l’utente fornisce il suo e-mail, dal momento che la ricerca potrebbe richiedere molto tempo. Ad esempio, una ricerca di 100 megabase richiede circa 15 s. Un link ai risultati della ricerca sarà inviato all’indirizzo e-mail fornito quando la ricerca è completata. Il link scade in 7 giorni dopo il completamento di una ricerca. Fornire un file di Parruccone o il file di visualizzazione wiggle potrebbe essere da un url. Questo file di visualizzazione non influenzerà i risultati; esso verrà mostrato solo accanto ai risultati. Specificare un intervallo di ricerca (incluse le posizioni del cromosoma e coppie di basi) nella casella corrispondente. Il cromosoma, iniziare la coppia di basi e la lista fine coppia di basi. Uso ' chrN ' per il cromosoma formato, dove ' N ' è il cromosoma numero/lettera (1, 2, … X o Y). Per le coppie di basi, basta digitare i numeri. Includono spazi tra tutte e tre le voci, o includere i due punti (:) tra il numero di cromosoma e la coppia di prima base, e/o un trattino tra le due coppie di basi. Ad esempio: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000. Nota: I passaggi 2.1-2.3 sono facoltativi. Figura 1 : GeNemo ' pagina anteriore di s con le aree necessarie compilato. Un utente ha bisogno di input specie, file di ricerca e intervallo di ricerca e selezionare i brani che desidera cercare contro. Indirizzo di posta elettronica e visualizzare file sono facoltativi. Clicca qui per visualizzare una versione più grande di questa figura. 3. selezione dei dati Figura 2 : finestra di selezione traccia. Questo è cresciuto facendo il " selezione dati " pulsante sulla prima pagina. Qui, gli utenti selezionano le tracce da cercare il file di input contro. Alcune delle tracce sono già selezionate di default. Clicca qui per visualizzare una versione più grande di questa figura. Dopo aver cliccato il pulsante di selezione di dati, scegliere quali tipi di tracce per la ricerca contro (vale a dire, da aggiungere alla query). La collezione di track include molti set di dati diversi da laboratori di tutto il mondo. Come l’elenco dei brani è abbastanza lunga, gli utenti potrebbero voler utilizzare il pulsante filtro (in alto a sinistra) per facilitare le selezioni di pista. Le tracce possono essere filtrate da esperimento, tessuto, cellula o Lab. Ci sono cinque pulsanti sulla parte inferiore consente di eseguire la selezione delle tracce: Seleziona tutto, nessuna selezione, Aggiungi, filtro, Exclude. Seleziona tutto " e " selezionare None " sono autoesplicativi. La " Aggiungi " pulsante aggiunge tracce attualmente selezionate per la query. Serve come il cancello di logica " o ". Si noti che selezionando i filtri sopra (per esempio, alcuni esperimenti, tessuti, linee cellulari o Labs) non aggiunge automaticamente tracce corrispondenti alla query di ricerca. Gli utenti devono prima selezionare tracce (ad es., cervello, fegato sotto tessuto) e quindi fare clic sul " Aggiungi " per aggiungerli alla query. Quando si seleziona tracce, notare che solo i filtri specificati nella scheda aperta nella finestra del filtro verranno applicati alla query di ricerca. Selezioni in altre schede saranno salvate nella finestra del filtro, ma non applicate alla query di ricerca. La " filtro " pulsante mantiene solo i tipi di tracce attualmente selezionato nella finestra di filtro nella query e rimuove tutti gli altri tipi di tracce. Serve come il cancello di logica " AND ". Essenzialmente, " filtro " consente la selezione dell’interazione tra due categorie di tracce (ad es., alcuni tessuti con alcuni laboratori). Si noti che " filtro " non aggiunge i tipi selezionati di tracce per la query se non sono già nella query. La " Exclude " pulsante rimuove tutti i tipi di tracce che sono attualmente selezionati nella finestra di filtro della query. Serve come il cancello di logica " non ", in opposizione alla " filtro " funzione. Ancora una volta, " escludere " non aggiunge alcun brano attualmente non è selezionata nella finestra di filtro alla query. Figura 3 : finestra del filtro . Questo è cresciuto facendo il " filtro " pulsante nella finestra di selezione traccia. Qui, gli utenti possono selezionare il numero di tracce allo stesso tempo, con relativa facilità. Clicca qui per visualizzare una versione più grande di questa figura. Figura 4 : come utilizzare la funzione di filtro. Clicca qui per visualizzare una versione più grande di questa figura. dopo aver aggiunto i brani desiderati alla query, fare clic il " aggiornamento " pulsante in basso a destra. Ciò è necessario al fine di ospitare due modi per selezionare i dati: selezione tracce dati individuali o filtraggio/esclusione. Il " Reimposta visualizzazione " pulsante Reimposta la query le tracce predefinite relazionate alla regolazione dell’espressione genica in cellule staminali embrionali umane/mouse. Nota: Selezionando tracce da cercare contro " selezione dati " è facoltativo ma consigliato esserecausa le tracce di ricerca predefinite sono probabilmente non adatto per l’utente ' esigenze di s. 4. Risultati della ricerca e clic la " ricerca " pulsante dopo la selezione di dati. La ricerca potrebbe richiedere qualche tempo. Una volta completata la ricerca, gli utenti visualizzeranno varie caselle nella pagina dei risultati. Ogni casella rappresenta una sezione del genoma dove un utente ' file di dati di s ha un modello strettamente abbinato con uno o più le tracce che l’utente ha richiesto. Se non ci sono nessuna prova visibile, scatole alla ricerca di altri tipi di tracce o rendere la gamma di ricerca più grande con lo stesso file di input. Un modo semplice per fare questo senza rifare tutto è cliccando il " ☰ " pulsante accanto al logo. Si aprirà una barra laterale che consente all’utente di modificare la ricerca. i risultati possono essere esportati come file letto cliccando sul " letto, Scarica il FILE " pulsante nella parte inferiore della pagina dei risultati. Fare clic sul pulsante Visualizza in alto a destra di ogni casella per visualizzare i risultati. Pannello in the visualizzazione sul destro, più cose vengono visualizzate tra cui i dati, che incorpora il file di input utente, il file di visualizzazione se uno è stato immesso, tracce, di corrispondenza e tracce di alcuni predefinito. Dai risultati, l’utente può confrontare noto ENCODE DataSet sul DataSet fornito per ulteriori indagini. L’utente può anche riferirsi a geni UCSC per vedere il contesto dei risultati della query. Se vengono selezionati i brani da più linee/tessuti cellulari, l’utente può utilizzare tali risultati per guadagnare le comprensioni circa la specificità del tessuto delle somiglianze tra l’oggetto dataset specificato ed ENCODE DataSet. Pagina su the risultati, l’utente può trascinare su eventuali tracce di spostare a Monte o a valle del genoma; quando il cursore del mouse è sulle coordinate, l’utente può utilizzare la rotellina del mouse e/o zoom in e out. Figura 5 : pagina dei risultati di. Questa particolare ricerca restituito 363 regioni corrispondenti. Visualizzazione della prima regione corrispondente può essere fatto cliccando il " Visualizza " pulsante in basso a sinistra di ogni casella di area risultante. Sulla parte sinistra della finestra di visualizzazione può essere visto che i due dati (input e selezionata traccia) sono simili a motivo di forza segnale. si prega di cliccare qui per visualizzare la versione ingrandita di questa figura.

Representative Results

Mostrato in Figura 5 è una ricerca simulata. La specie umana è stata selezionata, e il corrispondente file di esempio è stato utilizzato come file di dati di input. Inoltre, le tracce predefinite, come si vede nella Figura 3, sono state selezionate. C’erano un totale di 363 corrispondenti regioni, e la prima regione è indicata nella pagina di visualizzazione. Si vede che il modello di intensità da base 17036000 a 17038000 sul cromosoma 1 per il file di input e uno delle tracce selezionate è molto simile.

Discussion

Per raggiungere il pieno potenziale del sequenziamento del genoma umano nel fornire nuove intuizioni biologiche8è necessaria una conoscenza approfondita dell’epigenoma. Attualmente ci sono solo modi per cercare online epigenomic DataSet da loro dati Descrizione e titolo (cioè, metadata)1. Questo limita fortemente i tipi di ricerca si può fare con epigenomic dati. Strumenti di ricerca basati su pattern per epigenomic dati sono essenziali per esplorare il rapporto tra epigenomic diversi marchi, che possono portare a nuove intuizioni biologiche. GeNemo, che le ricerche dal contenuto dei dati e non i metadati, è il primo servizio del suo genere per confrontare modelli nei dati di epigenomic da depositari pubblicati ad esempio il database di codificare con un user generated o scaricato dataset5. Questo segna l’inizio della disponibilità di uno strumento di ricerca di epigenomic è ampiamente accessibile ai ricercatori di tutto il mondo solo come strumento di ricerca basato su testo sequenza è diventato ampiamente disponibile nel 1990. Attualmente, non ci sono alternative per gli strumenti di ricerca online basati su pattern per epigenomic dati diversi da GeNemo.

Un esempio potenziale di utilizzo GeNemo è quello di cercare le modifiche dell’istone co-comparenti e altri segni epigenetici con il fattore trascrizionale E2F6 in cellule staminali embrionali umane (un file di esempio E2F6 associazione segnale è disponibile al portale di dati di codifica o https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.Bed). Utilizzando questo file come query di ricerca su tutti i DataSet di ENCODE in H1-hESC, GeNemo mostrerà che segnale di collegamento E2F6 è fortemente arricchito con H3K4me1, H3K4me2, H3K4me3 e H3K27me3, che concorda con i risultati che E2F6 regola alcuni geni tramite le ricerche esistenti metilazione di H3K279. D’altra parte, sembra essere la colocalizzazione di siti di legame di E2F6 e CtBP2, che è noto per interagire con un fattore nella stessa famiglia, E2F710. Questi risultati per l’intero genoma contro un gran numero di segni epigenetici, fattore trascrizionale associazione segnali e altri segnali inclusi nella codifica possono essere abbastanza facilmente ottenuti con GeNemo, in grado di fornire tutti i potenziali bersagli per ulteriori analisi.

Poiché la prima pubblicazione5 del GeNemo come strumento di ricerca di dati basati su web epigenomic, sezione risultati di GeNemo è stata aggiornata per avere un aspetto corrispondente con front page di GeNemo. La vecchia sezione di risultati strettamente mirroring la sezione di risultati UCSC browser genoma e fu in gran parte dipendente dal server remoto UCSC per la visualizzazione. Con la nuova interfaccia, GeNemo è più facile da usare e non è più dipendente dal server di genoma UCSC (anche se i dati sono recuperati ancora in remoto). Questo rende GeNemo più robusta e meno soggetta a problemi a causa di modifiche del codice sul server UCSC. Inoltre, l’interfaccia di polimero nuovo, più veloce di GeNemo offre all’utente più strumenti per visualizzare e analizzare i modelli nei dati.

Fasi critiche includono fornendo il file di input appropriato e tracce di dati per la ricerca contro la selezione. Gli utenti sono fortemente incoraggiati a sperimentare con le varie funzioni di selezione traccia per acquisire familiarità con il processo di selezione e come i diversi comandi possono essere combinate per ottenere il risultato desiderato. In particolare, si noti che la funzione “Add” è necessaria per aggiungere i brani desiderati selezionati per la query, mentre «Filtro» o «Escludere» può essere utilizzati come comandi del cancello di logica “AND” e “O”, rispettivamente. Per interessare tutte le selezioni prima di implementare la ricerca è necessaria la funzione di “Aggiornamento”. Quando non vengono restituiti, un utente può controllare il file di dati di input, cercare altri brani o aumentare l’intervallo di ricerca. Ogni volta che c’è un errore, ci sarà una finestra popping up definire che cosa è esattamente l’errore. Ci sono alcuni errori di ambigui, però. Ad esempio, quando la finestra dice che ‘nessun file è stato caricato’, o nessun file è stato caricato, o il file caricato non era di un formato accettabile e, di conseguenza, il programma non era in grado di leggerlo correttamente. Formati di file accettati per l’upload di file includono file di formato per letto e picchi per metodi di caricamento sia e Parruccone per l’upload di collegamento on-line solo. Le versioni con zip di questi formati di file sono anche accettabili.

Attuali limiti di questo approccio includono le funzioni impiegate in GeNemo e algoritmi ancora-per-essere-ottimizzato. GeNemo non può ancora fornire eventuali orientamenti sull’interpretazione di qualsiasi set di dati restituito. Questo compito spetta agli utenti, che richiede notevoli conoscenze e competenze nella biologia del genoma ed epigenome. Inoltre, un’altra limitazione corrente è che gli utenti non possono modificare il livello di sensibilità e rumore delle ricerche. Ci aspettiamo di continuare a migliorare ed espandere la GeNemo il suo modello di ricerca funzionalità e raccolta di set di dati in futuro.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato da NIH sovvenzioni inclusi DP1HD087990 da NICHD, R01HG008135 da NHGRI. Ringraziamo i membri del laboratorio Zhong per prezioso feedback.

Autore di contributi:
X.C. e A.T.Z. aggiornamento GeNemo codificando la nuova interfaccia e funzionalità; A.T.Z. prodotto il video di esempio in-House; A.T.Z., x. c e S.Z. ha scritto il libro.

Materials

GENEMO https://www.genemo.org Comparative Epigenome Browser

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -. Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Play Video

Cite This Article
Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

View Video