Summary

Informatica analisi dei dati di sequenza da Batch lievito ibrido 2 schermi

Published: June 28, 2018
doi:

Summary

Sequenziamento profondo delle popolazioni di lieviti selezionati per le interazioni di lievito positivo 2-ibrido potenzialmente produce una ricchezza di informazioni su proteine partner interagenti. Qui, descriviamo il funzionamento di strumenti bioinformatici specifico e personalizzato aggiornato il software per analizzare i dati di sequenza da questi schermi.

Abstract

Abbiamo adattato il dosaggio di 2-ibrido del lievito per scoprire contemporaneamente decine di interazioni proteina transitoria e statica in una sola schermata utilizzando il sequenziamento del DNA di alto-rendimento breve lettura. I set di dati di sequenza risultante può non solo tenere traccia di quali geni in una popolazione che si arricchiscono durante la selezione per le interazioni di 2-ibrido del lievito positivo, ma anche dare informazioni dettagliate circa i relativi sottodomini di proteine sufficienti per l’interazione. Qui, descriviamo una suite completa di programmi di software stand-alone che consentono di non-esperti eseguire tutti i bioinformatica e statistiche passaggi per elaborare e analizzare file fastq di sequenze di DNA da un dosaggio di 2-ibrido del lievito batch. Le fasi di lavorazione coperte da questi software includono: 1) mappatura e conteggio letture di sequenza corrispondente ad ogni proteina candidato codificato all’interno di una libreria di preda 2-ibrido del lievito; 2) un programma di analisi statistica che valuta i profili di arricchimento; e 3) strumenti per esaminare il telaio traslazionale e posizione all’interno della regione di codificazione di ogni plasmide arricchito che codifica le proteine interagenti di interesse.

Introduction

Un approccio per scoprire le interazioni della proteina è il dosaggio di lievito 2-ibrido (Y2H), quali exploit ingegnerizzato cellule di lievito che crescono solo quando una proteina di interesse viene associato a un frammento di un partner interagenti1. Rilevamento di interazioni multiple Y2H ora può avvenire con l’aiuto di sequenziamento massivo di high throughput parallelo. Diversi formati sono stati descritti2,3,4,5 , tra cui uno che abbiamo sviluppato dove popolazioni vengono coltivati in batch in condizioni tali da selezionare per lievito contenente plasmidi che producono un positivo di interazione Y2H6. Il flusso di lavoro abbiamo sviluppato, chiamato profondo (arricchimento dinamico per la valutazione della proteina reti), identifica differenziale Interattomi dalle stesse librerie di preda per identificare le proteine che interagiscono con una proteina (o dominio) vs. un’altra proteina o un dominio mutante conformazionalmente distinto. Uno dei passi più importanti in questo flusso di lavoro è di consentire una corretta elaborazione e analisi dei dati di sequenziamento del DNA. Alcune informazioni possono essere raccolte solo contando il numero di letture per ogni gene sia prima che dopo la selezione di Y2H interazioni in modo analogo a un esperimento di RNA-seq. Tuttavia, per maggiori informazioni possono essere estratti da tali set di dati comprese le informazioni sul sottodominio di una data proteina che è in grado di produrre un’interazione Y2H. Inoltre, considerando che l’approccio profondo è prezioso, analizzando molte repliche del campione può essere ingombrante e costoso. Questo problema è risolta utilizzando un modello statistico che è stato sviluppato specificamente per i DataSet profondo dove il numero delle ripetizioni è limitato6. Per rendere l’elaborazione e l’analisi di set di dati di sequenziamento del DNA affidabile, completo, affidabile e accessibile per gli investigatori senza competenze di bioinformatica, abbiamo sviluppato una suite di programmi software che coprono tutte le fasi dell’analisi.

Questa suite di programmi di software stand-alone che girano su computer desktop include MAPster, profondo e Stat_Maker. MAPster è un’interfaccia grafica che permette che ogni file fastq in coda per la mappatura al genoma utilizzando il programma HISAT27, producendo un file standard. Sam per l’utilizzo in applicazioni a valle. PROFONDO ha diversi moduli. Assegna e conta letture corrispondente al gene particolare simile a una quantificazione di tipo RNA-seq utilizzando il modulo ‘Gene Count’. Inoltre estrae le sequenze corrispondenti alla giunzione tra il dominio di transcriptional Gal4 e la sequenza di preda e raccoglie la posizione di tali giunzioni per consentire l’ispezione di tabelle comparative e grafici (utilizzando il modulo ‘Junction_Make’) Il modulo ‘Blast_Query’ permette facile ispezione, quantificazione e confronto tra le sequenze di giunzione Gal4 di giunzione. Stat_Maker valuta le letture al gene arricchimento dati statisticamente come un modo di priorità probabile Y2H hits. Qui, descriviamo come utilizzare questi programmi software e completamente analizzare la sequenza di DNA, dei dati da un profondo Y2H sperimentare. Versioni di profondo sono disponibili per l’esecuzione su sistemi PC, Mac e Linux. Altri programmi, ad esempio il programma di mappatura MAPster e il modulo di statistiche di profondo Stat_Maker si basano su subroutine che vengono eseguiti sotto Unix e sono disponibili solo su sistemi Mac e linux.

Protocol

1. mappatura Fastq file Nota: Profondo software così come molti programmi di bioinformatica è possibile utilizzare dati di sequenza di DNA in cui è stato mappato ogni sequenza leggere per la sua posizione in riferimento del DNA. Una varietà di programmi di mappatura può essere utilizzata per questo, tra cui l’interfaccia di MAPster qui che utilizza il programma di HISTAT2 per produrre file. Sam utilizzati nei passaggi successivi. Mappare i dati di sequenza alla versione corretta…

Representative Results

Mapping dei dati fastq: il primo passoIn praticamente tutte le applicazioni di NGS compreso profondo l’output iniziale è un file di letture brevi sequenze che devono essere mappati dall’allineamento di genomica, trascrittomica, o altro riferimento DNA8. Recentemente, il programma di allineamento di HISAT2 è stato sviluppato che utilizza algoritmi di indicizzazione di state-of-the-art per aumentare drammaticamente la mappatura velocità<sup cl…

Discussion

La suite di software qui descritta permette completamente elaborare e analizzare dati di sequenziamento del DNA di throughput elevato da un esperimento di profondo. Il primo programma utilizzato è MAPster, che prende le letture di sequenza di DNA nei file fastq standard e mappe loro posizione su un DNA di riferimento per l’elaborazione a valle da tutta una serie di programmi di informatica compreso il software di profondo. L’utilità dell’interfaccia MAPster e la sua capacità di coda processi multipli, di combinare fil…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato dal National Institutes of Health: R21 NIH EB021870-01A1 e da NSF Research Project Grant: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Play Video

Cite This Article
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video