Summary

Metaagenomik Verilerin Biyolojik Dizilerini Sınıflandırmak için Derin ÖğrenmeYi Kullanmak için Bilgisayar Uzmanı Olmayanlar için Bir Sanal Makine Platformu

Published: September 25, 2021
doi:

Summary

Bu öğretici, metanemik verilerin 2 sınıflı sıra sınıflandırmasını gerçekleştirmek için derin öğrenme algoritması oluşturmak için basit bir yöntemi açıklar.

Abstract

Birçok metaagenomik veri analizinde tür sınıflandırması, gen fonksiyon sınıflandırması ve viral konak sınıflandırması gibi çeşitli biyolojik dizi sınıflandırma görevleri beklenmektedir. Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, birçok çalışmada yüksek performanslı sınıflandırma algoritmalarına ihtiyaç vardır. Biyologlar genellikle belirli bir görev için uygun sıra sınıflandırması ve ek açıklama araçları bulmada zorluklarla karşılaşırlar ve genellikle gerekli matematiksel ve hesaplama bilgisinin eksikliği nedeniyle karşılık gelen bir algoritmayı kendi başlarına inşa edemezler. Derin öğrenme teknikleri son zamanlarda popüler bir konu haline geldi ve birçok sınıflandırma görevine güçlü avantajlar gösteriyor. Bugüne kadar, biyologların algoritma detayları hakkında derinlemesine bilgi sahibi olmadan kendi ihtiyaçlarına göre derin öğrenme çerçeveleri oluşturmalarını mümkün kılan çok sayıda yüksek paketli derin öğrenme paketi geliştirilmiştir. Bu öğreticide, yeterli matematiksel bilgiye veya programlama becerisine ihtiyaç duymadan sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sunuyoruz. Tüm kod, kullanıcıların kendi verilerini kullanarak kodu doğrudan çalıştırabilmeleri için bir sanal makinede en iyi duruma getirilir.

Introduction

Metanemik dizileme tekniği gerinim izolasyon sürecini atlar ve çevresel bir örnekteki toplam DNA’yı doğrudan sıralar. Bu nedenle, metasagenomik veriler farklı organizmalardan DNA içerir ve biyolojik dizilerin çoğu mevcut veritabanında bulunmayan yeni organizmalardandır. Farklı araştırma amaçlarına göre, biyologların bu dizileri taksonomik sınıflandırma 1 , virüs-bakteri sınıflandırması 2,3,4, kromozom-plazmid sınıflandırması 3 ,5,6,7ve gen fonksiyonu ek açıklaması (antibiyotik direnci gen sınıflandırması8 ve virülans faktörü sınıflandırması9 gibi farklı açılardan sınıflandırmaları gerekir. ). Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, dizi sınıflandırması için bilinen veritabanlarına (DNA sınıflandırması ve protein sınıflandırması dahil) dayanmayan ab initio algoritmaları metasagenomik veri analizinde önemli bir yaklaşımdır. Bununla birlikte, bu tür algoritmaların tasarımı profesyonel matematik bilgisi ve programlama becerileri gerektirir; bu nedenle, birçok biyolog ve algoritma tasarımı yeni başlayanlar kendi ihtiyaçlarına uygun bir sınıflandırma algoritması oluşturmak zor vardır.

Yapay zekanın gelişmesiyle birlikte, metaagenomik analizde sıra sınıflandırması gibi görevleri tamamlamak için biyoinformatik alanında derin öğrenme algoritmaları yaygın olarak kullanılmıştır. Yeni başlayanların derin öğrenme algoritmalarını anlamalarına yardımcı olmak için algoritmayı aşağıda anlaşılması kolay bir şekilde açıklıyoruz.

Şekil 1’dederin öğrenme tekniğine genel bir bakış gösterilmiştir. Derin öğrenme algoritmasının temel teknolojisi, insan beyninin yapısından ilham alan yapay bir sinir ağıdır. Matematiksel açıdan, yapay bir sinir ağı karmaşık bir işlev olarak kabul edilebilir. Her nesne (DNA dizisi, fotoğraf veya video gibi) önce dijitalleştirilir. Dijitalleştirilmiş nesne daha sonra işleve içe aktarılır. Yapay sinir ağının görevi, giriş verilerine göre doğru bir yanıt vermektir. Örneğin, 2 sınıflı bir sınıflandırma görevi gerçekleştirmek için yapay bir sinir ağı oluşturulursa, ağ her nesne için 0-1 arasında bir olasılık puanı çıkarmalıdır. Sinir ağı, negatif nesneye daha düşük bir puan verirken pozitif nesneye daha yüksek bir puan (0,5’ten yüksek bir puan gibi) vermelidir. Bu amaca ulaşmak için eğitim ve test süreçleri ile yapay bir sinir ağı oluşturulur. Bu işlemler sırasında, bilinen veritabanındaki veriler indirilir ve daha sonra bir eğitim kümesine ve test kümesine ayrılır. Her nesne uygun bir şekilde dijitalleştirilir ve bir etiket verilir (pozitif nesneler için “1”, negatif nesneler için “0”). Eğitim sürecinde, eğitim kümesindeki dijitalleştirilmiş veriler sinir ağına girilir. Yapay sinir ağı, giriş nesnesinin çıkış puanı ile nesnenin karşılık gelen etiketi arasındaki benzerliği temsil eden bir kayıp işlevi oluşturur. Örneğin, çıkış puanı “0,1” iken giriş nesnesinin etiketi “1” ise, kayıp işlevi yüksek olacaktır; ve çıkış puanı “0,1” iken giriş nesnesinin etiketi “0” ise, kayıp işlevi düşük olacaktır. Yapay sinir ağı, kayıp işlevini en aza indirmek için sinir ağının parametrelerini ayarlayan belirli bir yineleme algoritması kullanmaktadır. Kayıp fonksiyonu açıkça daha da azaltılamadığında eğitim süreci sona erecek. Son olarak, test kümesindeki veriler sabit sinir ağını test etmek için kullanılır ve sinir ağının yeni nesneler için doğru etiketleri hesaplama yeteneği değerlendirilir. Derin öğrenme algoritmalarının daha fazla ilkesi LeCun ve ark.’daki incelemede bulunabilir. 10.

Derin öğrenme algoritmalarının matematiksel ilkeleri karmaşık olsa da, son zamanlarda çok paketlenmiş birçok derin öğrenme paketi geliştirilmiştir ve programcılar birkaç kod satırıyla doğrudan basit bir yapay sinir ağı oluşturabilirler.

Biyologlara ve algoritma tasarımına yeni başlayanların derin öğrenmeyi daha hızlı kullanmaya başlamalarına yardımcı olmak için, bu öğretici sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sağlar. Bu çerçeve, biyolojik dizileri dijitalleştirmek için matematiksel model olarak “tek sıcak” kodlama formunu kullanır ve sınıflandırma görevini gerçekleştirmek için bir evrişim sinir ağı kullanır (ek malzemeyebakın). Kullanıcıların bu kılavuzu kullanmadan önce yapmaları gereken tek şey, dört sıra dosyasını “fasta” biçiminde hazırlamaktır. İlk dosya, eğitim süreci için pozitif sınıfın tüm dizilerini içerir (“p_train.fasta” olarak adlandırılır); ikinci dosya, eğitim süreci için negatif sınıfın tüm dizilerini içerir (“n_train.fasta” olarak adlandırılır); üçüncü dosya, test işlemi için pozitif sınıfın tüm dizilerini içerir (“p_test.fasta” olarak adlandırılır); ve son dosya test işlemi için negatif sınıfın tüm dizilerini içerir (“n_test.fasta” olarak adlandırılır). Bu öğreticinin akış çizelgesine genel bakış Şekil 2‘de verilmiştir ve aşağıda daha fazla ayrıntı belirtilecektir.

Protocol

1. Sanal makinenin kurulumu Sanal makine dosyasını (https://github.com/zhenchengfang/DL-VM) içinden indirin. VirtualBox yazılımını https://www.virtualbox.org’dan indirin. “7-Zip”, “WinRAR” veya “WinZip” gibi ilgili yazılımları kullanarak “.7z” dosyasını açın. Her adımda İleri düğmesini tıklatarak VirtualBox yazılımını yükleyin. VirtualBox yazılımını açın ve sanal makine oluşturmak için Yeni düğmesini tık…

Representative Results

Önceki çalışmamızda, bu öğreticiye benzer bir yaklaşım kullanarak metanezomik veriler için bir dizi sıra sınıflandırma aracı geliştirdik3,11,12. Örnek olarak, önceki çalışmamız3,11’den eğitim seti ve test kümesinin alt kümesinin sıra dosyalarını sanal makineye yatırdık. Fang & Zhou11 virom …

Discussion

Bu öğretici, biyologlar ve algoritma tasarımına yeni başlayanlar için metanenomik verilerde biyolojik dizi sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesinin nasıl oluşturulacağı hakkında genel bir bakış sağlar. Bu öğretici, derin öğrenmenin sezgisel olarak anlaşılmasını sağlamayı ve yeni başlayanların genellikle derin öğrenme paketini yüklemekte ve algoritmanın kodunu yazmakta zorlandığı zorluğu ele almayı amaçlamaktadır. Bazı basit sınıflandırma göre…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Bu soruşturma Çin Ulusal Doğa Bilimleri Vakfı (81925026, 82002201, 81800746, 82102508) tarafından finansal olarak desteklendi.

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video