Sequenziamento profondo delle popolazioni di lieviti selezionati per le interazioni di lievito positivo 2-ibrido potenzialmente produce una ricchezza di informazioni su proteine partner interagenti. Qui, descriviamo il funzionamento di strumenti bioinformatici specifico e personalizzato aggiornato il software per analizzare i dati di sequenza da questi schermi.
Abbiamo adattato il dosaggio di 2-ibrido del lievito per scoprire contemporaneamente decine di interazioni proteina transitoria e statica in una sola schermata utilizzando il sequenziamento del DNA di alto-rendimento breve lettura. I set di dati di sequenza risultante può non solo tenere traccia di quali geni in una popolazione che si arricchiscono durante la selezione per le interazioni di 2-ibrido del lievito positivo, ma anche dare informazioni dettagliate circa i relativi sottodomini di proteine sufficienti per l’interazione. Qui, descriviamo una suite completa di programmi di software stand-alone che consentono di non-esperti eseguire tutti i bioinformatica e statistiche passaggi per elaborare e analizzare file fastq di sequenze di DNA da un dosaggio di 2-ibrido del lievito batch. Le fasi di lavorazione coperte da questi software includono: 1) mappatura e conteggio letture di sequenza corrispondente ad ogni proteina candidato codificato all’interno di una libreria di preda 2-ibrido del lievito; 2) un programma di analisi statistica che valuta i profili di arricchimento; e 3) strumenti per esaminare il telaio traslazionale e posizione all’interno della regione di codificazione di ogni plasmide arricchito che codifica le proteine interagenti di interesse.
Un approccio per scoprire le interazioni della proteina è il dosaggio di lievito 2-ibrido (Y2H), quali exploit ingegnerizzato cellule di lievito che crescono solo quando una proteina di interesse viene associato a un frammento di un partner interagenti1. Rilevamento di interazioni multiple Y2H ora può avvenire con l’aiuto di sequenziamento massivo di high throughput parallelo. Diversi formati sono stati descritti2,3,4,5 , tra cui uno che abbiamo sviluppato dove popolazioni vengono coltivati in batch in condizioni tali da selezionare per lievito contenente plasmidi che producono un positivo di interazione Y2H6. Il flusso di lavoro abbiamo sviluppato, chiamato profondo (arricchimento dinamico per la valutazione della proteina reti), identifica differenziale Interattomi dalle stesse librerie di preda per identificare le proteine che interagiscono con una proteina (o dominio) vs. un’altra proteina o un dominio mutante conformazionalmente distinto. Uno dei passi più importanti in questo flusso di lavoro è di consentire una corretta elaborazione e analisi dei dati di sequenziamento del DNA. Alcune informazioni possono essere raccolte solo contando il numero di letture per ogni gene sia prima che dopo la selezione di Y2H interazioni in modo analogo a un esperimento di RNA-seq. Tuttavia, per maggiori informazioni possono essere estratti da tali set di dati comprese le informazioni sul sottodominio di una data proteina che è in grado di produrre un’interazione Y2H. Inoltre, considerando che l’approccio profondo è prezioso, analizzando molte repliche del campione può essere ingombrante e costoso. Questo problema è risolta utilizzando un modello statistico che è stato sviluppato specificamente per i DataSet profondo dove il numero delle ripetizioni è limitato6. Per rendere l’elaborazione e l’analisi di set di dati di sequenziamento del DNA affidabile, completo, affidabile e accessibile per gli investigatori senza competenze di bioinformatica, abbiamo sviluppato una suite di programmi software che coprono tutte le fasi dell’analisi.
Questa suite di programmi di software stand-alone che girano su computer desktop include MAPster, profondo e Stat_Maker. MAPster è un’interfaccia grafica che permette che ogni file fastq in coda per la mappatura al genoma utilizzando il programma HISAT27, producendo un file standard. Sam per l’utilizzo in applicazioni a valle. PROFONDO ha diversi moduli. Assegna e conta letture corrispondente al gene particolare simile a una quantificazione di tipo RNA-seq utilizzando il modulo ‘Gene Count’. Inoltre estrae le sequenze corrispondenti alla giunzione tra il dominio di transcriptional Gal4 e la sequenza di preda e raccoglie la posizione di tali giunzioni per consentire l’ispezione di tabelle comparative e grafici (utilizzando il modulo ‘Junction_Make’) Il modulo ‘Blast_Query’ permette facile ispezione, quantificazione e confronto tra le sequenze di giunzione Gal4 di giunzione. Stat_Maker valuta le letture al gene arricchimento dati statisticamente come un modo di priorità probabile Y2H hits. Qui, descriviamo come utilizzare questi programmi software e completamente analizzare la sequenza di DNA, dei dati da un profondo Y2H sperimentare. Versioni di profondo sono disponibili per l’esecuzione su sistemi PC, Mac e Linux. Altri programmi, ad esempio il programma di mappatura MAPster e il modulo di statistiche di profondo Stat_Maker si basano su subroutine che vengono eseguiti sotto Unix e sono disponibili solo su sistemi Mac e linux.
La suite di software qui descritta permette completamente elaborare e analizzare dati di sequenziamento del DNA di throughput elevato da un esperimento di profondo. Il primo programma utilizzato è MAPster, che prende le letture di sequenza di DNA nei file fastq standard e mappe loro posizione su un DNA di riferimento per l’elaborazione a valle da tutta una serie di programmi di informatica compreso il software di profondo. L’utilità dell’interfaccia MAPster e la sua capacità di coda processi multipli, di combinare fil…
The authors have nothing to disclose.
Questo lavoro è stato supportato dal National Institutes of Health: R21 NIH EB021870-01A1 e da NSF Research Project Grant: 1517110.
Mapster | https://github.com/emptyewer/MAPster/releases | ||
DEEPN software | https://github.com/emptyewer/DEEPN/releases | ||
Statmaker | https://github.com/emptyewer/DEEPN/releases | ||
Minimum computer system | Apple | Mac Intel Core i5 or better | |
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | OS 10.10 or higher | ||
Dell | Intel i5-7400 or better | ||
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | Windows 7 or higher |