概要

Analyse informatique des données de séquence d’écrans de 2-hybride de levure lot

Published: June 28, 2018
doi:

概要

Séquençage en profondeur des populations de levures sélectionnées pour les interactions 2-hybride de levure positive potentiellement donne une mine de renseignements sur les protéines qui interagissent de partenaire. Nous décrivons ici l’exploitation d’outils bioinformatiques précis et à jour de logiciels sur mesure pour analyser les données de séquençage de ces écrans.

Abstract

Nous avons adapté le dosage 2-hybride de levure pour découvrir en même temps des dizaines statique et transitoire des interactions de protéine au sein d’un seul écran utilisant le séquençage de l’ADN court-lecture haut-débit. Les ensembles de données de séquence qui en résulte peut non seulement suivre quels gènes dans une population qui se sont enrichis au cours de choix pour les interactions 2-hybride de levure positive, mais également donner des informations détaillées sur les sous-domaines pertinentes des protéines permettant de l’interaction. Nous décrivons ici une suite complète de logiciels autonomes qui permettent à des non-spécialistes d’exécuter toutes la bioinformatique et les mesures statistiques pour traiter et d’analyser les fichiers de fastq de séquence ADN d’un dosage de 2-hybride de levure par lots. Les étapes de traitement visés par ces logiciels comprennent : 1) cartographie et comptage lectures de séquence correspondant à chaque candidat de protéine codée dans une bibliothèque de prey 2-hybride de levure ; 2) un programme d’analyse statistique qui évalue les profils d’enrichissement ; et 3) outils pour examiner le cadre translationnelle et la position au sein de la région codante de chaque enrichi plasmide codant pour les protéines qui interagissent d’intérêt.

Introduction

Une des façons de découvrir les interactions de protéine sont le dosage (Y2H) 2-hybride de levure, qui exploite d’ingénierie des cellules de levure qui se développent seulement quand une protéine d’intérêt se lie à un fragment d’une interaction partenaire1. Détection des multiples interactions Y2H est possible maintenant avec l’aide de séquençage massif à haut débit parallèle. Plusieurs formats ont été décrites,2,3,4,5 , y compris celle que nous avons développés où les populations sont cultivées en traitement par lots dans des conditions qui choisir pour la levure contenant des plasmides qui produisent une positive de l’interaction Y2H6. Le flux de travail nous développé, appelé DEEPN (dynamique d’enrichissement pour les réseaux d’évaluation des protéines), identifie les interactomes différentiels des bibliothèques proies même d’identifier les protéines qui interagissent avec une protéine (ou domaine) vs. une autre protéine ou un domaine de mutant conformationnellement distinct. Une des étapes principales dans ce flux de travail est un traitement convenable et l’analyse des données du séquençage de l’ADN. Certaines informations peuvent être glanées par seulement compter le nombre de lectures pour chaque gène avant et après sélection des interactions Y2H de façon analogue à une expérience de RNA-seq. Toutefois, des informations beaucoup plus détaillées peuvent être extraites de ces ensembles de données précisant le sous-domaine d’une protéine donnée qui est capable de produire une interaction Y2H. En outre, alors que l’approche DEEPN est précieuse, analysant les nombreuses répétitions d’échantillon peut être lourdes et coûteuses. Ce problème est atténué en utilisant un modèle statistique qui a été développé spécifiquement pour les ensembles de données DEEPN où le nombre de répétitions est limitée6. Pour rendre traitement et analyse des données de séquençage ADN fiable, robuste, complet et accessible pour les chercheurs sans expertise bio-informatique, nous avons développé une suite de logiciels qui couvrent toutes les étapes de l’analyse.

Cette suite de logiciels autonomes qui s’exécutent sur des ordinateurs de bureau inclut MAPster, DEEPN et Stat_Maker. MAPster est une interface utilisateur graphique qui permet à que chaque fichier fastq en file d’attente pour le mappage vers le génome en utilisant le programme de HISAT27, produisant un fichier .sam standard pour les applications en aval. DEEPN a plusieurs modules. Il assigne et compte lectures correspondant à un gène particulier semblable à une quantification de type RNA-seq en utilisant le module « Gene Count ». Elle extrait les séquences correspondant à la jonction entre le domaine transcriptional Gal4 et la séquence de proies et rassemble la position de ces jonctions pour permettre leur inspection par les tableaux comparatifs et graphiques (via le module « Junction_Make ») Le module « Blast_Query » permet de simple inspection, quantification et comparaison des séquences jonction Gal4 junction. Stat_Maker évalue les lectures par les données sur l’enrichissement des gènes statistiquement comme un moyen d’établir des priorités susceptibles Y2H hits. Nous décrivons ici la façon d’utiliser ces logiciels et d’analyser entièrement la séquence d’ADN données depuis un DEEPN Y2H experiment. Il existe des versions de DEEPN fonctionner sur les systèmes PC, Mac et Linux. Autres programmes, tels que le programme de mappage MAPster et le module de statistiques DEEPN Stat_Maker s’appuient sur les sous-routines qui fonctionnent sous Unix et sont disponibles uniquement sur les systèmes Mac et linux.

Protocol

1. cartographie des fichiers Fastq Remarque : DEEPN logiciels ainsi que de nombreux programmes de bio-informatique utilisent données de séquences d’ADN dans laquelle chaque séquence lire a été mappé pour sa position dans l’ADN de référence. Une variété de programmes de cartographie peut être utilisée pour ce, y compris l’interface de MAPster ici qui utilise le programme HISTAT2 pour produire des fichiers .sam utilisés dans les étapes suivantes. Mapper les donnée…

Representative Results

Mappage des données de fastq : la première étapeDans pratiquement toutes les applications de NGS y compris DEEPN la sortie initiale est un fichier de lectures de courte séquence qui doit être mappée en alignement sur la génomique, transcriptomique, ou autre référence ADN8. Récemment, le programme d’alignement de HISAT2 a été développé qui utilise des algorithmes d’indexation de l’état-of-the-art pour augmenter considérabl…

Discussion

La suite logicielle décrite ici permet de complètement traiter et analyser les données de séquençage ADN à haut débit d’une expérience DEEPN. Le premier programme utilisé est MAPster, qui prend les lectures de séquence d’ADN dans les fichiers standard fastq et cartes de leur position sur une référence ADN pour le traitement en aval par une multitude de programmes informatiques, y compris le logiciel DEEPN. L’utilité de l’interface de MAPster et sa capacité à faire la queue plusieurs travaux, combin…

開示

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par les National Institutes of Health : NIH R21 EB021870-01 a 1 et de subvention de projet de recherche FNS : 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

参考文献

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Play Video

記事を引用
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video