A differenza dei dati di sequenza di DNA, epigenomic dati non sono facilmente soggetti a ricerche basate su testo. Presentato qui sono le procedure per utilizzare una versione aggiornata di GeNemo, uno strumento web-based di bioinformatica, per condurre le ricerche basate su pattern per somiglianze nei dati di epigenomic confronto database online disponibili tra cui Encyclopedia of DNA Elements con dati dell’utente.
Confrontato con gli strumenti di ricerca testuale robusto per genomica o RNA dati di sequenziamento, attuali metodologie per ricerche basate su pattern di epigenomic e altri dati di genomici funzionali sono molto limitati. GeNemo è il primo strumento di ricerca online che compie questo obiettivo. Gli utenti loro dati genomici funzionali nel Browser Extensible dati (letto), picchi e Parruccone formati di input e possono cercare i dati in uno dei tre formati. Gli utenti possono specificare quali tipi di set di dati per la ricerca contro, scegliendo tra una varietà di set di dati online, con l’enciclopedia di DNA elementi (ENCODE) che rappresentano diversi epigenomic marchi, siti di legame del fattore trascrizionale e cromatina ipersensibilità o accessibilità in tipi cellulari specifici e fasi di sviluppo o specie (mouse o umani). GeNemo restituisce un elenco di regioni genomiche con corrispondenti modelli per i dati di input, che possono essere visualizzati nel browser come pure scaricati nel formato di file letto. Il GeNemo aggiornato ha migliorato la visualizzazione grafica, ha interfaccia più affidabile e non è più soggetto a errori a causa di modifiche nella Università della California, browser del genoma di Santa Cruz (UCSC). Procedure di risoluzione dei problemi più comuni sono discussi. Come la quantità di dati di genomici funzionale si sta espandendo in modo esponenziale, c’è un bisogno critico per sviluppare e perfezionare nuovi strumenti bioinformatici come GeNemo per l’analisi dei dati e interpretazione.
I recenti progressi tecnologici hanno permesso una rapida espansione di epigenomic o depositari di dati di genomica funzionale, che hanno superato lo sviluppo di strumenti analitici pertinenti per estrarre intuizioni biologiche. Un modo importante per analizzare i dati di epigenomic è per la ricerca di dati generati dall’utente contro depositari di dati e soprattutto quelli dai progetti1 Enciclopedia del DNA Elements (codifica) per corrispondenti modelli che potrebbero portare a nuove conoscenze. Per esempio, identificando somiglianze nei modelli di due marchi diversi epigenomic loci definiti attraverso il genoma può indicare un’azione coordinata di diversi attori molecolari sulla conformazione della cromatina e regolazione trascrizionale2 ,3,4.
Motori di ricerca basati su testo convenzionali sono inefficaci a questo proposito perché, a differenza di sequenza di DNA, epigenomic dati esistono principalmente nel formato di intensità o di regioni genomiche funzionali. GeNemo, in piedi per Gene Nemo (come in Finding Nemo), è stato sviluppato per soddisfare questa esigenza non soddisfatta utilizzando ricerche basate su pattern5. L’algoritmo utilizza un processo di Markov Chain Monte Carlo massimizzazione5. Gli utenti prendere i propri dati o un set di dati scaricati da depositari e cerca una matrice di dati online epigenomic per identificare somiglianze nei modelli.
La versione corrente di GeNemo ha un display aggiornato, interfacce più robustamente con la University of California, Santa Cruz (UCSC) genome browser6ed è meno soggetta a problemi causati da modifiche in quest’ultimo. In particolare, mentre la pagina dei risultati di GeNemo utilizzato per essere basato sull’interfaccia del browser genoma UCSC, la versione corrente di GeNemo supporta la propria pagina di risultati e di conseguenza non più negativamente è influenzata dai cambiamenti strutturali al browser del genoma UCSC. GeNemo può utilizzare qualsiasi segnale genomico, compreso il legame alle proteine, modifica dell’istone, all’accessibilità cromatinica, domini topologici e così via, come una query per trovare segmenti colocalized/simili tra set di dati noti da grandi consorzi. Pertanto, è un importante strumento per studiare la relazione tra epigenomic diversi dati di interesse e dati noti generati nei progetti di genomica su larga scala.
Per raggiungere il pieno potenziale del sequenziamento del genoma umano nel fornire nuove intuizioni biologiche8è necessaria una conoscenza approfondita dell’epigenoma. Attualmente ci sono solo modi per cercare online epigenomic DataSet da loro dati Descrizione e titolo (cioè, metadata)1. Questo limita fortemente i tipi di ricerca si può fare con epigenomic dati. Strumenti di ricerca basati su pattern per epigenomic dati sono essenziali per esplorare il rapporto tra epigenomic diversi marchi, che possono portare a nuove intuizioni biologiche. GeNemo, che le ricerche dal contenuto dei dati e non i metadati, è il primo servizio del suo genere per confrontare modelli nei dati di epigenomic da depositari pubblicati ad esempio il database di codificare con un user generated o scaricato dataset5. Questo segna l’inizio della disponibilità di uno strumento di ricerca di epigenomic è ampiamente accessibile ai ricercatori di tutto il mondo solo come strumento di ricerca basato su testo sequenza è diventato ampiamente disponibile nel 1990. Attualmente, non ci sono alternative per gli strumenti di ricerca online basati su pattern per epigenomic dati diversi da GeNemo.
Un esempio potenziale di utilizzo GeNemo è quello di cercare le modifiche dell’istone co-comparenti e altri segni epigenetici con il fattore trascrizionale E2F6 in cellule staminali embrionali umane (un file di esempio E2F6 associazione segnale è disponibile al portale di dati di codifica o https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.Bed). Utilizzando questo file come query di ricerca su tutti i DataSet di ENCODE in H1-hESC, GeNemo mostrerà che segnale di collegamento E2F6 è fortemente arricchito con H3K4me1, H3K4me2, H3K4me3 e H3K27me3, che concorda con i risultati che E2F6 regola alcuni geni tramite le ricerche esistenti metilazione di H3K279. D’altra parte, sembra essere la colocalizzazione di siti di legame di E2F6 e CtBP2, che è noto per interagire con un fattore nella stessa famiglia, E2F710. Questi risultati per l’intero genoma contro un gran numero di segni epigenetici, fattore trascrizionale associazione segnali e altri segnali inclusi nella codifica possono essere abbastanza facilmente ottenuti con GeNemo, in grado di fornire tutti i potenziali bersagli per ulteriori analisi.
Poiché la prima pubblicazione5 del GeNemo come strumento di ricerca di dati basati su web epigenomic, sezione risultati di GeNemo è stata aggiornata per avere un aspetto corrispondente con front page di GeNemo. La vecchia sezione di risultati strettamente mirroring la sezione di risultati UCSC browser genoma e fu in gran parte dipendente dal server remoto UCSC per la visualizzazione. Con la nuova interfaccia, GeNemo è più facile da usare e non è più dipendente dal server di genoma UCSC (anche se i dati sono recuperati ancora in remoto). Questo rende GeNemo più robusta e meno soggetta a problemi a causa di modifiche del codice sul server UCSC. Inoltre, l’interfaccia di polimero nuovo, più veloce di GeNemo offre all’utente più strumenti per visualizzare e analizzare i modelli nei dati.
Fasi critiche includono fornendo il file di input appropriato e tracce di dati per la ricerca contro la selezione. Gli utenti sono fortemente incoraggiati a sperimentare con le varie funzioni di selezione traccia per acquisire familiarità con il processo di selezione e come i diversi comandi possono essere combinate per ottenere il risultato desiderato. In particolare, si noti che la funzione “Add” è necessaria per aggiungere i brani desiderati selezionati per la query, mentre «Filtro» o «Escludere» può essere utilizzati come comandi del cancello di logica “AND” e “O”, rispettivamente. Per interessare tutte le selezioni prima di implementare la ricerca è necessaria la funzione di “Aggiornamento”. Quando non vengono restituiti, un utente può controllare il file di dati di input, cercare altri brani o aumentare l’intervallo di ricerca. Ogni volta che c’è un errore, ci sarà una finestra popping up definire che cosa è esattamente l’errore. Ci sono alcuni errori di ambigui, però. Ad esempio, quando la finestra dice che ‘nessun file è stato caricato’, o nessun file è stato caricato, o il file caricato non era di un formato accettabile e, di conseguenza, il programma non era in grado di leggerlo correttamente. Formati di file accettati per l’upload di file includono file di formato per letto e picchi per metodi di caricamento sia e Parruccone per l’upload di collegamento on-line solo. Le versioni con zip di questi formati di file sono anche accettabili.
Attuali limiti di questo approccio includono le funzioni impiegate in GeNemo e algoritmi ancora-per-essere-ottimizzato. GeNemo non può ancora fornire eventuali orientamenti sull’interpretazione di qualsiasi set di dati restituito. Questo compito spetta agli utenti, che richiede notevoli conoscenze e competenze nella biologia del genoma ed epigenome. Inoltre, un’altra limitazione corrente è che gli utenti non possono modificare il livello di sensibilità e rumore delle ricerche. Ci aspettiamo di continuare a migliorare ed espandere la GeNemo il suo modello di ricerca funzionalità e raccolta di set di dati in futuro.
The authors have nothing to disclose.
Questo lavoro è stato supportato da NIH sovvenzioni inclusi DP1HD087990 da NICHD, R01HG008135 da NHGRI. Ringraziamo i membri del laboratorio Zhong per prezioso feedback.
Autore di contributi:
X.C. e A.T.Z. aggiornamento GeNemo codificando la nuova interfaccia e funzionalità; A.T.Z. prodotto il video di esempio in-House; A.T.Z., x. c e S.Z. ha scritto il libro.