概要

Informatischen Analyse von Sequenzdaten von Batch-Hefe-2-Hybrid-Bildschirme

Published: June 28, 2018
doi:

概要

Tiefe Sequenzierung der Hefe Bevölkerung ausgewählt für positive Hefe 2-Hybrid Interaktionen potenziell liefert eine Fülle von Informationen über interagierenden Partner Proteine. Hier beschreiben wir den Betrieb von bestimmten Bioinformatik und aktualisierte Individualsoftware Sequenzdaten von solchen Bildschirmen zu analysieren.

Abstract

Wir haben die Hefe 2-Hybrid Assay um gleichzeitig entdecken Sie Dutzende von Transienten und statische Protein-Interaktionen in einem einzigen Bildschirm nutzen Hochdurchsatz-kurze lesenden DNA-Sequenzierung angepasst. Die daraus resultierende Sequenz Datasets können nicht nur verfolgen, welche Gene in einer Population, die bei Auswahl für positive Hefe 2-Hybrid Interaktionen angereichert sind, sondern auch geben detaillierte Informationen über die entsprechenden Subdomains von Proteinen ausreichend für Interaktion. Hier beschreiben wir eine vollständige Suite von Stand-Alone-Softwareprogramme, mit denen nicht-Experten, der Bioinformatik und statistische Schritte zur Verarbeitung und Analyse von DNA-Sequenz Fastq Dateien aus einem Batch Hefe 2-Hybrid Assay durchzuführen. Die Verarbeitungsschritte von dieser Software abgedeckt sind: (1) Mapping und Zählung Sequenz liest entspricht jeder Kandidat Protein kodiert in einer Hefe-2-Hybrid Beute-Bibliothek; (2) eine statistische Analyse-Programm, das die Anreicherung profile bewertet; und 3) Werkzeuge die translationale Rahmen und Position innerhalb der kodierenden Region des jedes angereicherten Plasmid, das die interagierenden interessierenden Proteine kodiert zu prüfen.

Introduction

Ein Ansatz zur Protein-Interaktionen zu entdecken ist die Hefe 2-Hybrid (Y2H) Assay, welche Heldentaten Hefe-Zellen entwickelt, die wachsen nur, wenn ein Protein des Interesses zu einem Fragment eines interagierenden Partner1bindet. Erkennung von mehreren Y2H Interaktionen kann nun mit Hilfe von massiven parallelen Hochdurchsatz-Sequenzierung erfolgen. Mehrere Formate wurden2,3,4,5 darunter eine, die wir entwickelt, wo die Populationen in Batch unter Bedingungen angebaut werden, die für die Hefe enthalten Plasmide, die produzieren auswählen beschrieben eine positive Y2H Interaktion6. Der Workflow entwickelt, bezeichnet DEEPN (dynamische Bereicherung für Evaluation of Protein Networks), identifiziert differentielle Interactomes aus der gleichen Beute-Bibliotheken, um Proteine zu identifizieren, die mit einem Protein (oder Domäne) Vsinteragieren. ein weiteres Protein oder einer conformationally unterschiedliche mutierten Domäne. Eines der wichtigsten Schritte in diesem Workflow ist ordnungsgemäße Verarbeitung und Analyse der DNA-Sequenzierungsdaten. Einige Erkenntnisse können durch einfach zählen die Anzahl der Lesevorgänge für jedes Gen sowohl vor als auch nach der Auswahl von Y2H-Interaktionen in einer Art und Weise analog zu einem RNA-Seq-Experiment. Jedoch kann viel tiefer gehende Informationen aus dieser Datensätze, einschließlich Informationen über die Subdomain eines bestimmten Proteins, das in der Lage, eine Y2H-Interaktion ist extrahiert werden. Darüber hinaus während der DEEPN Ansatz wertvoll ist, kann viele Wiederholungen der Probe zu analysieren umständlich und teuer werden. Dieses Problem wird mithilfe eines statistischen Modells, das entwickelt wurde speziell für DEEPN Datasets wo ist die Anzahl der Wiederholungen begrenzt6gemildert. Verarbeitung und Analyse der DNA-Sequenzierung Datasets zuverlässige, vollständige, robuste und zugänglich für Ermittler ohne Bioinformatik-Kompetenz machen, entwickelten wir eine Suite von Software-Programmen, die alle Schritte der Analyse zu decken.

Diese Suite von Stand-alone-Software-Programme, die auf Desktopcomputern ausgeführt umfasst MAPster, DEEPN und Stat_Maker. MAPster ist eine grafische Benutzeroberfläche, die ermöglicht, dass jede Fastq-Datei in der Warteschlange für das Mapping, das Genom, die mit dem HISAT2 Programm7, Herstellung einer standard .sam-Datei zur Verwendung in downstream-Anwendungen. DEEPN besteht aus mehreren Modulen. Es ordnet und zählt liest, ähnlich wie eine RNA-Seq Typ Quantifizierung mit Hilfe des Moduls ‘Gene Count’ gen entspricht. Auch die Sequenzen entsprechend der Kreuzung zwischen der Gal4 transkriptionelle Domäne und die Beute Sequenz extrahiert und sammelt die Position dieser Kreuzungen zu deren Prüfung durch vergleichende Tabellen und Grafiken (mit Hilfe des Moduls “Junction_Make”) Das Modul “Blast_Query” ermöglicht einfache Inspektion, Quantifizierung und Vergleich der Kreuzung Gal4 Kreuzung Sequenzen. Stat_Maker wertet die Lesevorgänge pro gen angereicherte Daten statistisch als eine Möglichkeit der Priorisierung wahrscheinlich Y2H-Hits. Hier beschreiben wir, wie diese Software-Programme verwenden und vollständig analysieren die DNA-Sequenz, mit denen Daten aus einem DEEPN Y2H experimentieren. Versionen von DEEPN sind auf PC, Mac und Linux Systeme ausgeführt. Andere Programme, wie das Mapping-Programm MAPster und DEEPN-Statistik-Modul Stat_Maker Vertrauen auf Unterroutinen, die unter Unix laufen und sind nur auf Mac und Linux-Systeme verfügbar.

Protocol

1. Fastq Zuordnungsdateien Hinweis: DEEPN Software sowie viele Bioinformatik-Programme verwenden DNA-Sequenzdaten, wobei jede Sequenz lesen zugeordnet wurde, für seine Position in der Referenz DNA. Eine Vielzahl von Mapping-Programme kann verwendet werden, für diese einschließlich der MAPster Schnittstelle hier, die das HISTAT2-Programm verwendet, um .sam Dateien, die in den nachfolgenden Schritten verwendet zu produzieren. Die richtige Version des Genoms der Sequenzdaten zuordnen…

Representative Results

Fastq Daten zuordnen: der erste SchrittIn praktisch allen NGS Anwendungen einschließlich DEEPN die erste Ausgabe eine kurze Sequenz liest-Datei ist, die durch Ausrichtung auf genomische zugeordnet werden müssen, verweisen transkriptomischen oder anderen DNA-8. Vor kurzem wurde das HISAT2 Ausrichtung Programm entwickelt, das State-of-the-Art Indexierung Algorithmen verwendet, um die Zuordnung Geschwindigkeit7,</sup…

Discussion

Die hier beschriebenen Software-Suite erlaubt es, vollständig verarbeiten und analysieren Hochdurchsatz DNA-Sequenzierungsdaten aus einem DEEPN Experiment. Das erste Programm ist MAPster, die die DNA-Sequenz lautet in standard Fastq-Dateien und ordnet ihre Position auf eine Referenz-DNA für downstream-Processing durch eine ganze Reihe von Informatik-Programme einschließlich der DEEPN Software. Das Dienstprogramm der MAPster Schnittstelle und seiner Fähigkeit, mehrere Jobs, Mähdrescher Eingabedateien, die Warteschlan…

開示

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde vom National Institutes of Health unterstützt: NIH R21 EB021870-01A1 und durch NSF Research Project Grant: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

参考文献

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Play Video

記事を引用
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video