Summary

Une plate-forme de machine virtuelle pour les professionnels non informatiques pour l’utilisation de l’apprentissage profond pour classer les séquences biologiques de données métagénomiques

Published: September 25, 2021
doi:

Summary

Ce didacticiel décrit une méthode simple pour construire un algorithme d’apprentissage profond pour effectuer une classification de séquence à 2 classes de données métagénomiques.

Abstract

Diverses tâches de classification des séquences biologiques, telles que la classification des espèces, la classification de la fonction des gènes et la classification de l’hôte viral, sont des processus attendus dans de nombreuses analyses de données métagénomiques. Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, des algorithmes de classification très performants sont nécessaires dans de nombreuses études. Les biologistes rencontrent souvent des difficultés pour trouver des outils de classification et d’annotation de séquences appropriés pour une tâche spécifique et ne sont souvent pas en mesure de construire eux-mêmes un algorithme correspondant en raison d’un manque de connaissances mathématiques et informatiques nécessaires. Les techniques d’apprentissage profond sont récemment devenues un sujet populaire et présentent de forts avantages dans de nombreuses tâches de classification. À ce jour, de nombreux packages d’apprentissage profond hautement packagés, qui permettent aux biologistes de construire des cadres d’apprentissage profond en fonction de leurs propres besoins sans connaissance approfondie des détails de l’algorithme, ont été développés. Dans ce didacticiel, nous fournissons une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences sans avoir besoin de connaissances mathématiques ou de compétences en programmation suffisantes. Tout le code est optimisé dans une machine virtuelle afin que les utilisateurs puissent exécuter directement le code à l’aide de leurs propres données.

Introduction

La technique de séquençage métagénomique contourne le processus d’isolement de la souche et séquence directement l’ADN total dans un échantillon environnemental. Ainsi, les données métagénomiques contiennent de l’ADN de différents organismes, et la plupart des séquences biologiques proviennent de nouveaux organismes qui ne sont pas présents dans la base de données actuelle. Selon différents objectifs de recherche, les biologistes doivent classer ces séquences sous différents angles, tels que la classification taxonomique1,la classification virus-bactérie 2,3,4, la classification chromosome-plasmide3,5,6,7 etl’annotationde la fonctiongénique(telle que la classification des gènes de résistance auxantibiotiques 8 et la classification des facteurs de virulence9 ). Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes nouveaux, les algorithmes ab initio, qui ne reposent pas sur des bases de données connues pour la classification des séquences (y compris la classification de l’ADN et la classification des protéines), constituent une approche importante dans l’analyse des données métagénomiques. Cependant, la conception de tels algorithmes nécessite des connaissances professionnelles en mathématiques et des compétences en programmation; par conséquent, de nombreux biologistes et débutants en conception d’algorithmes ont du mal à construire un algorithme de classification adapté à leurs propres besoins.

Avec le développement de l’intelligence artificielle, les algorithmes d’apprentissage profond ont été largement utilisés dans le domaine de la bioinformatique pour effectuer des tâches telles que la classification des séquences en analyse métagénomique. Pour aider les débutants à comprendre les algorithmes d’apprentissage profond, nous décrivons l’algorithme d’une manière facile à comprendre ci-dessous.

Une vue d’ensemble d’une technique d’apprentissage profond est illustrée à la figure 1. La technologie de base d’un algorithme d’apprentissage profond est un réseau de neurones artificiels, qui s’inspire de la structure du cerveau humain. D’un point de vue mathématique, un réseau de neurones artificiels peut être considéré comme une fonction complexe. Chaque objet (comme une séquence d’ADN, une photo ou une vidéo) est d’abord numérisé. L’objet numérisé est ensuite importé dans la fonction. La tâche du réseau de neurones artificiels est de donner une réponse correcte en fonction des données d’entrée. Par exemple, si un réseau de neurones artificiels est construit pour effectuer une tâche de classification à 2 classes, le réseau doit produire un score de probabilité compris entre 0 et 1 pour chaque objet. Le réseau neuronal doit donner à l’objet positif un score plus élevé (tel qu’un score supérieur à 0,5) tout en donnant à l’objet négatif un score inférieur. Pour atteindre cet objectif, un réseau de neurones artificiels est construit avec les processus de formation et de test. Au cours de ces processus, les données de la base de données connue sont téléchargées, puis divisées en un ensemble d’entraînement et un ensemble de tests. Chaque objet est numérisé de manière appropriée et reçoit une étiquette (« 1 » pour les objets positifs et « 0 » pour les objets négatifs). Dans le processus d’entraînement, les données numérisées de l’ensemble d’entraînement sont entrées dans le réseau neuronal. Le réseau neuronal artificiel construit une fonction de perte qui représente la dissimilarité entre le score de sortie de l’objet d’entrée et l’étiquette correspondante de l’objet. Par exemple, si l’étiquette de l’objet d’entrée est « 1 » alors que le score de sortie est « 0,1 », la fonction de perte sera élevée ; et si l’étiquette de l’objet d’entrée est « 0 » alors que le score de sortie est « 0,1 », la fonction de perte sera faible. Le réseau neuronal artificiel utilise un algorithme itératif spécifique qui ajuste les paramètres du réseau neuronal pour minimiser la fonction de perte. Le processus de formation se termine lorsque la fonction de perte ne peut évidemment pas être diminuée davantage. Enfin, les données de l’ensemble de tests sont utilisées pour tester le réseau neuronal fixe, et la capacité du réseau neuronal à calculer les étiquettes correctes pour les nouveaux objets est évaluée. Plus de principes d’algorithmes d’apprentissage profond peuvent être trouvés dans la revue dans LeCun et al. 10.

Bien que les principes mathématiques des algorithmes d’apprentissage profond puissent être complexes, de nombreux logiciels d’apprentissage profond hautement packagés ont récemment été développés, et les programmeurs peuvent directement construire un simple réseau de neurones artificiels avec quelques lignes de code.

Pour aider les biologistes et les débutants en conception d’algorithmes à se lancer plus rapidement dans l’utilisation de l’apprentissage profond, ce didacticiel fournit une ligne directrice pour la construction d’un cadre d’apprentissage profond facile à utiliser pour la classification des séquences. Ce cadre utilise la forme de codage « à chaud unique » comme modèle mathématique pour numériser les séquences biologiques et utilise un réseau neuronal de convolution pour effectuer la tâche de classification (voir le matériel supplémentaire). La seule chose que les utilisateurs doivent faire avant d’utiliser cette directive est de préparer quatre fichiers de séquence au format « fasta ». Le premier fichier contient toutes les séquences de la classe positive pour le processus de formation (appelé « p_train.fasta »); le deuxième fichier contient toutes les séquences de la classe négative pour le processus de formation (appelé « n_train.fasta »); le troisième fichier contient toutes les séquences de la classe positive pour le processus de test (appelé « p_test.fasta »); et le dernier fichier contient toutes les séquences de la classe négative pour le processus de test (référencé à « n_test.fasta »). La vue d’ensemble de l’organigramme de ce didacticiel est fournie à la figure 2, et plus de détails seront mentionnés ci-dessous.

Protocol

1. L’installation de la machine virtuelle Téléchargez le fichier de la machine virtuelle à partir de (https://github.com/zhenchengfang/DL-VM). Téléchargez le logiciel VirtualBox à partir de https://www.virtualbox.org. Décompressez le fichier « .7z » à l’aide de logiciels associés, tels que « 7-Zip », « WinRAR » ou « WinZip ». Installez le logiciel VirtualBox en cliquant sur le bouton Suivant à chaque étape. Ouvrez le logicie…

Representative Results

Dans nos travaux précédents, nous avons développé une série d’outils de classification de séquences pour les données métagénomiques en utilisant une approche similaire à ce tutoriel3,11,12. À titre d’exemple, nous avons déposé les fichiers de séquence du sous-ensemble de l’ensemble d’entraînement et de l’ensemble de tests de notre travail précédent3,…

Discussion

Ce didacticiel fournit une vue d’ensemble pour les biologistes et les débutants en conception d’algorithmes sur la façon de construire un cadre d’apprentissage profond facile à utiliser pour la classification des séquences biologiques dans les données métagénomiques. Ce tutoriel vise à fournir une compréhension intuitive de l’apprentissage profond et à relever le défi que les débutants ont souvent du mal à installer le package d’apprentissage profond et à écrire le code de l’algorithme. Pour ce…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Cette enquête a été soutenue financièrement par la Fondation nationale des sciences naturelles de Chine (81925026, 82002201, 81800746, 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video