Summary

Платформа виртуальных машин для специалистов, не являющихся компьютерами, для использования глубокого обучения для классификации биологических последовательностей метагеномных данных

Published: September 25, 2021
doi:

Summary

В этом учебнике описывается простой метод построения алгоритма глубокого обучения для выполнения 2-классовой классификации последовательностей метагеномных данных.

Abstract

Различные задачи классификации биологических последовательностей, такие как классификация видов, классификация функций генов и классификация вирусных хозяев, являются процессами во многих анализах метагеномных данных. Поскольку метагеномные данные содержат большое количество новых видов и генов, во многих исследованиях необходимы высокоэффективные алгоритмы классификации. Биологи часто сталкиваются с проблемами в поиске подходящих инструментов классификации последовательностей и аннотаций для конкретной задачи и часто не могут самостоятельно построить соответствующий алгоритм из-за отсутствия необходимых математических и вычислительных знаний. Методы глубокого обучения в последнее время стали популярной темой и показывают сильные преимущества во многих задачах классификации. На сегодняшний день разработано множество высоко упакованных пакетов глубокого обучения, которые позволяют биологам строить фреймворки глубокого обучения в соответствии с их собственными потребностями без глубокого знания деталей алгоритма. В этом учебнике мы предоставляем руководство по созданию простой в использовании платформы глубокого обучения для классификации последовательностей без необходимости достаточных математических знаний или навыков программирования. Весь код оптимизирован в виртуальной машине, чтобы пользователи могли напрямую запускать код, используя свои собственные данные.

Introduction

Метод метагеномного секвенирования обходит процесс выделения штамма и непосредственно секвенирует общую ДНК в образце окружающей среды. Таким образом, метагеномные данные содержат ДНК разных организмов, и большинство биологических последовательностей взяты из новых организмов, которых нет в текущей базе данных. В соответствии с различными целями исследований, биологи должны классифицировать эти последовательности с разных точек зрения, таких как таксономическая классификация1,классификация вирус-бактерия2,3,4,хромосомно-плазмидная классификация3,5,6, 7и аннотация функции гена (например, классификация генов устойчивости к антибиотикам8 и классификация факторов вирулентности9). ). Поскольку метагеномные данные содержат большое количество новых видов и генов, алгоритмы ab initio, которые не полагаются на известные базы данных для классификации последовательностей (включая классификацию ДНК и классификацию белков), являются важным подходом в анализе метагеномных данных. Однако проектирование таких алгоритмов требует профессиональных математических знаний и навыков программирования; поэтому многие биологи и начинающие разработчики алгоритмов испытывают трудности с построением алгоритма классификации в соответствии с их собственными потребностями.

С развитием искусственного интеллекта алгоритмы глубокого обучения широко используются в области биоинформатики для выполнения таких задач, как классификация последовательностей в метагеномном анализе. Чтобы помочь новичкам понять алгоритмы глубокого обучения, мы опишем алгоритм в простой для понимания форме ниже.

Обзор метода глубокого обучения показан на рисунке 1. Основной технологией алгоритма глубокого обучения является искусственная нейронная сеть, которая вдохновлена структурой человеческого мозга. С математической точки зрения искусственную нейронную сеть можно рассматривать как сложную функцию. Каждый объект (например, последовательность ДНК, фотография или видео) сначала оцифровывается. Затем оцифрованный объект импортируется в функцию. Задача искусственной нейронной сети – дать правильный ответ по входным данным. Например, если искусственная нейронная сеть построена для выполнения задачи классификации 2-класса, сеть должна выводить оценку вероятности, которая составляет от 0 до 1 для каждого объекта. Нейронная сеть должна дать положительному объекту более высокий балл (например, балл выше 0,5), в то время как отрицательный объект должен получить более низкий балл. Для достижения этой цели строится искусственная нейронная сеть с процессами обучения и тестирования. Во время этих процессов данные из известной базы данных загружаются, а затем разделяются на обучающий набор и тестовый набор. Каждый объект оцифровывается надлежащим образом и получает метку («1» для положительных объектов и «0» для отрицательных объектов). В процессе обучения оцифрованные данные в обучающий набор вводятся в нейронную сеть. Искусственная нейронная сеть конструирует функцию потерь, которая представляет собой несходство между выходной оценкой входного объекта и соответствующей меткой объекта. Например, если метка входного объекта — «1», а выходная оценка — «0,1», функция потерь будет высокой; и если метка входного объекта —«0», а выходная оценка — «0,1», функция потерь будет низкой. Искусственная нейронная сеть использует определенный итеративный алгоритм, который корректирует параметры нейронной сети для минимизации функции потерь. Тренировочный процесс заканчивается, когда функция потерь не может быть явно уменьшена. Наконец, данные в тестовом наборе используются для тестирования фиксированной нейронной сети, и оценивается способность нейронной сети вычислять правильные метки для новых объектов. Больше принципов алгоритмов глубокого обучения можно найти в обзоре в LeCun et al. 10.

Хотя математические принципы алгоритмов глубокого обучения могут быть сложными, в последнее время было разработано много высоко упакованных пакетов глубокого обучения, и программисты могут напрямую построить простую искусственную нейронную сеть с несколькими строками кода.

Чтобы помочь биологам и новичкам в разработке алгоритмов быстрее приступить к использованию глубокого обучения, этот учебник предоставляет руководство по созданию простой в использовании структуры глубокого обучения для классификации последовательностей. Эта структура использует форму кодирования «один горячий» в качестве математической модели для оцифровки биологических последовательностей и использует сверточную нейронную сеть для выполнения задачи классификации (см. Дополнительный материал). Единственное, что пользователям нужно сделать перед использованием этого руководства, это подготовить четыре файла последовательностей в формате «fasta». Первый файл содержит все последовательности положительного класса для тренировочного процесса (именуемые «p_train.fasta»); второй файл содержит все последовательности отрицательного класса для тренировочного процесса (именуемый «n_train.fasta»); третий файл содержит все последовательности положительного класса для процесса тестирования (именуемый “p_test.fasta”); и последний файл содержит все последовательности отрицательного класса для процесса тестирования (именуемые “n_test.fasta”). Обзор блок-схемы этого учебника приведен на рисунке 2,а более подробная информация будет приведена ниже.

Protocol

1. Установка виртуальной машины Загрузите файл виртуальной машины из (https://github.com/zhenchengfang/DL-VM). Загрузите программное обеспечение VirtualBox со https://www.virtualbox.org. Распакуйте файл “.7z” с помощью соответствующего программного обеспечения, такого как “7-Zip”, “WinRAR” или “WinZip”. Установи?…

Representative Results

В нашей предыдущей работе мы разработали серию инструментов классификации последовательностей для метагеномных данных, используя подход, аналогичный этому учебнику3,11,12. В качестве примера мы депонировали файлы последовательностей ?…

Discussion

Этот учебник предоставляет обзор для биологов и начинающих разработчиков алгоритмов о том, как построить простую в использовании структуру глубокого обучения для классификации биологических последовательностей в метагеномных данных. Этот учебник направлен на обеспечение интуитивн…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Это расследование было финансово поддержано Национальным фондом естественных наук Китая (81925026, 82002201, 81800746 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video