В этом учебнике описывается простой метод построения алгоритма глубокого обучения для выполнения 2-классовой классификации последовательностей метагеномных данных.
Различные задачи классификации биологических последовательностей, такие как классификация видов, классификация функций генов и классификация вирусных хозяев, являются процессами во многих анализах метагеномных данных. Поскольку метагеномные данные содержат большое количество новых видов и генов, во многих исследованиях необходимы высокоэффективные алгоритмы классификации. Биологи часто сталкиваются с проблемами в поиске подходящих инструментов классификации последовательностей и аннотаций для конкретной задачи и часто не могут самостоятельно построить соответствующий алгоритм из-за отсутствия необходимых математических и вычислительных знаний. Методы глубокого обучения в последнее время стали популярной темой и показывают сильные преимущества во многих задачах классификации. На сегодняшний день разработано множество высоко упакованных пакетов глубокого обучения, которые позволяют биологам строить фреймворки глубокого обучения в соответствии с их собственными потребностями без глубокого знания деталей алгоритма. В этом учебнике мы предоставляем руководство по созданию простой в использовании платформы глубокого обучения для классификации последовательностей без необходимости достаточных математических знаний или навыков программирования. Весь код оптимизирован в виртуальной машине, чтобы пользователи могли напрямую запускать код, используя свои собственные данные.
Метод метагеномного секвенирования обходит процесс выделения штамма и непосредственно секвенирует общую ДНК в образце окружающей среды. Таким образом, метагеномные данные содержат ДНК разных организмов, и большинство биологических последовательностей взяты из новых организмов, которых нет в текущей базе данных. В соответствии с различными целями исследований, биологи должны классифицировать эти последовательности с разных точек зрения, таких как таксономическая классификация1,классификация вирус-бактерия2,3,4,хромосомно-плазмидная классификация3,5,6, 7и аннотация функции гена (например, классификация генов устойчивости к антибиотикам8 и классификация факторов вирулентности9). ). Поскольку метагеномные данные содержат большое количество новых видов и генов, алгоритмы ab initio, которые не полагаются на известные базы данных для классификации последовательностей (включая классификацию ДНК и классификацию белков), являются важным подходом в анализе метагеномных данных. Однако проектирование таких алгоритмов требует профессиональных математических знаний и навыков программирования; поэтому многие биологи и начинающие разработчики алгоритмов испытывают трудности с построением алгоритма классификации в соответствии с их собственными потребностями.
С развитием искусственного интеллекта алгоритмы глубокого обучения широко используются в области биоинформатики для выполнения таких задач, как классификация последовательностей в метагеномном анализе. Чтобы помочь новичкам понять алгоритмы глубокого обучения, мы опишем алгоритм в простой для понимания форме ниже.
Обзор метода глубокого обучения показан на рисунке 1. Основной технологией алгоритма глубокого обучения является искусственная нейронная сеть, которая вдохновлена структурой человеческого мозга. С математической точки зрения искусственную нейронную сеть можно рассматривать как сложную функцию. Каждый объект (например, последовательность ДНК, фотография или видео) сначала оцифровывается. Затем оцифрованный объект импортируется в функцию. Задача искусственной нейронной сети – дать правильный ответ по входным данным. Например, если искусственная нейронная сеть построена для выполнения задачи классификации 2-класса, сеть должна выводить оценку вероятности, которая составляет от 0 до 1 для каждого объекта. Нейронная сеть должна дать положительному объекту более высокий балл (например, балл выше 0,5), в то время как отрицательный объект должен получить более низкий балл. Для достижения этой цели строится искусственная нейронная сеть с процессами обучения и тестирования. Во время этих процессов данные из известной базы данных загружаются, а затем разделяются на обучающий набор и тестовый набор. Каждый объект оцифровывается надлежащим образом и получает метку («1» для положительных объектов и «0» для отрицательных объектов). В процессе обучения оцифрованные данные в обучающий набор вводятся в нейронную сеть. Искусственная нейронная сеть конструирует функцию потерь, которая представляет собой несходство между выходной оценкой входного объекта и соответствующей меткой объекта. Например, если метка входного объекта — «1», а выходная оценка — «0,1», функция потерь будет высокой; и если метка входного объекта —«0», а выходная оценка — «0,1», функция потерь будет низкой. Искусственная нейронная сеть использует определенный итеративный алгоритм, который корректирует параметры нейронной сети для минимизации функции потерь. Тренировочный процесс заканчивается, когда функция потерь не может быть явно уменьшена. Наконец, данные в тестовом наборе используются для тестирования фиксированной нейронной сети, и оценивается способность нейронной сети вычислять правильные метки для новых объектов. Больше принципов алгоритмов глубокого обучения можно найти в обзоре в LeCun et al. 10.
Хотя математические принципы алгоритмов глубокого обучения могут быть сложными, в последнее время было разработано много высоко упакованных пакетов глубокого обучения, и программисты могут напрямую построить простую искусственную нейронную сеть с несколькими строками кода.
Чтобы помочь биологам и новичкам в разработке алгоритмов быстрее приступить к использованию глубокого обучения, этот учебник предоставляет руководство по созданию простой в использовании структуры глубокого обучения для классификации последовательностей. Эта структура использует форму кодирования «один горячий» в качестве математической модели для оцифровки биологических последовательностей и использует сверточную нейронную сеть для выполнения задачи классификации (см. Дополнительный материал). Единственное, что пользователям нужно сделать перед использованием этого руководства, это подготовить четыре файла последовательностей в формате «fasta». Первый файл содержит все последовательности положительного класса для тренировочного процесса (именуемые «p_train.fasta»); второй файл содержит все последовательности отрицательного класса для тренировочного процесса (именуемый «n_train.fasta»); третий файл содержит все последовательности положительного класса для процесса тестирования (именуемый “p_test.fasta”); и последний файл содержит все последовательности отрицательного класса для процесса тестирования (именуемые “n_test.fasta”). Обзор блок-схемы этого учебника приведен на рисунке 2,а более подробная информация будет приведена ниже.
Этот учебник предоставляет обзор для биологов и начинающих разработчиков алгоритмов о том, как построить простую в использовании структуру глубокого обучения для классификации биологических последовательностей в метагеномных данных. Этот учебник направлен на обеспечение интуитивн…
The authors have nothing to disclose.
Это расследование было финансово поддержано Национальным фондом естественных наук Китая (81925026, 82002201, 81800746 82102508).
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |