Bu öğretici, metanemik verilerin 2 sınıflı sıra sınıflandırmasını gerçekleştirmek için derin öğrenme algoritması oluşturmak için basit bir yöntemi açıklar.
Birçok metaagenomik veri analizinde tür sınıflandırması, gen fonksiyon sınıflandırması ve viral konak sınıflandırması gibi çeşitli biyolojik dizi sınıflandırma görevleri beklenmektedir. Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, birçok çalışmada yüksek performanslı sınıflandırma algoritmalarına ihtiyaç vardır. Biyologlar genellikle belirli bir görev için uygun sıra sınıflandırması ve ek açıklama araçları bulmada zorluklarla karşılaşırlar ve genellikle gerekli matematiksel ve hesaplama bilgisinin eksikliği nedeniyle karşılık gelen bir algoritmayı kendi başlarına inşa edemezler. Derin öğrenme teknikleri son zamanlarda popüler bir konu haline geldi ve birçok sınıflandırma görevine güçlü avantajlar gösteriyor. Bugüne kadar, biyologların algoritma detayları hakkında derinlemesine bilgi sahibi olmadan kendi ihtiyaçlarına göre derin öğrenme çerçeveleri oluşturmalarını mümkün kılan çok sayıda yüksek paketli derin öğrenme paketi geliştirilmiştir. Bu öğreticide, yeterli matematiksel bilgiye veya programlama becerisine ihtiyaç duymadan sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sunuyoruz. Tüm kod, kullanıcıların kendi verilerini kullanarak kodu doğrudan çalıştırabilmeleri için bir sanal makinede en iyi duruma getirilir.
Metanemik dizileme tekniği gerinim izolasyon sürecini atlar ve çevresel bir örnekteki toplam DNA’yı doğrudan sıralar. Bu nedenle, metasagenomik veriler farklı organizmalardan DNA içerir ve biyolojik dizilerin çoğu mevcut veritabanında bulunmayan yeni organizmalardandır. Farklı araştırma amaçlarına göre, biyologların bu dizileri taksonomik sınıflandırma 1 , virüs-bakteri sınıflandırması 2,3,4, kromozom-plazmid sınıflandırması 3 ,5,6,7ve gen fonksiyonu ek açıklaması (antibiyotik direnci gen sınıflandırması8 ve virülans faktörü sınıflandırması9 gibi farklı açılardan sınıflandırmaları gerekir. ). Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, dizi sınıflandırması için bilinen veritabanlarına (DNA sınıflandırması ve protein sınıflandırması dahil) dayanmayan ab initio algoritmaları metasagenomik veri analizinde önemli bir yaklaşımdır. Bununla birlikte, bu tür algoritmaların tasarımı profesyonel matematik bilgisi ve programlama becerileri gerektirir; bu nedenle, birçok biyolog ve algoritma tasarımı yeni başlayanlar kendi ihtiyaçlarına uygun bir sınıflandırma algoritması oluşturmak zor vardır.
Yapay zekanın gelişmesiyle birlikte, metaagenomik analizde sıra sınıflandırması gibi görevleri tamamlamak için biyoinformatik alanında derin öğrenme algoritmaları yaygın olarak kullanılmıştır. Yeni başlayanların derin öğrenme algoritmalarını anlamalarına yardımcı olmak için algoritmayı aşağıda anlaşılması kolay bir şekilde açıklıyoruz.
Şekil 1’dederin öğrenme tekniğine genel bir bakış gösterilmiştir. Derin öğrenme algoritmasının temel teknolojisi, insan beyninin yapısından ilham alan yapay bir sinir ağıdır. Matematiksel açıdan, yapay bir sinir ağı karmaşık bir işlev olarak kabul edilebilir. Her nesne (DNA dizisi, fotoğraf veya video gibi) önce dijitalleştirilir. Dijitalleştirilmiş nesne daha sonra işleve içe aktarılır. Yapay sinir ağının görevi, giriş verilerine göre doğru bir yanıt vermektir. Örneğin, 2 sınıflı bir sınıflandırma görevi gerçekleştirmek için yapay bir sinir ağı oluşturulursa, ağ her nesne için 0-1 arasında bir olasılık puanı çıkarmalıdır. Sinir ağı, negatif nesneye daha düşük bir puan verirken pozitif nesneye daha yüksek bir puan (0,5’ten yüksek bir puan gibi) vermelidir. Bu amaca ulaşmak için eğitim ve test süreçleri ile yapay bir sinir ağı oluşturulur. Bu işlemler sırasında, bilinen veritabanındaki veriler indirilir ve daha sonra bir eğitim kümesine ve test kümesine ayrılır. Her nesne uygun bir şekilde dijitalleştirilir ve bir etiket verilir (pozitif nesneler için “1”, negatif nesneler için “0”). Eğitim sürecinde, eğitim kümesindeki dijitalleştirilmiş veriler sinir ağına girilir. Yapay sinir ağı, giriş nesnesinin çıkış puanı ile nesnenin karşılık gelen etiketi arasındaki benzerliği temsil eden bir kayıp işlevi oluşturur. Örneğin, çıkış puanı “0,1” iken giriş nesnesinin etiketi “1” ise, kayıp işlevi yüksek olacaktır; ve çıkış puanı “0,1” iken giriş nesnesinin etiketi “0” ise, kayıp işlevi düşük olacaktır. Yapay sinir ağı, kayıp işlevini en aza indirmek için sinir ağının parametrelerini ayarlayan belirli bir yineleme algoritması kullanmaktadır. Kayıp fonksiyonu açıkça daha da azaltılamadığında eğitim süreci sona erecek. Son olarak, test kümesindeki veriler sabit sinir ağını test etmek için kullanılır ve sinir ağının yeni nesneler için doğru etiketleri hesaplama yeteneği değerlendirilir. Derin öğrenme algoritmalarının daha fazla ilkesi LeCun ve ark.’daki incelemede bulunabilir. 10.
Derin öğrenme algoritmalarının matematiksel ilkeleri karmaşık olsa da, son zamanlarda çok paketlenmiş birçok derin öğrenme paketi geliştirilmiştir ve programcılar birkaç kod satırıyla doğrudan basit bir yapay sinir ağı oluşturabilirler.
Biyologlara ve algoritma tasarımına yeni başlayanların derin öğrenmeyi daha hızlı kullanmaya başlamalarına yardımcı olmak için, bu öğretici sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sağlar. Bu çerçeve, biyolojik dizileri dijitalleştirmek için matematiksel model olarak “tek sıcak” kodlama formunu kullanır ve sınıflandırma görevini gerçekleştirmek için bir evrişim sinir ağı kullanır (ek malzemeyebakın). Kullanıcıların bu kılavuzu kullanmadan önce yapmaları gereken tek şey, dört sıra dosyasını “fasta” biçiminde hazırlamaktır. İlk dosya, eğitim süreci için pozitif sınıfın tüm dizilerini içerir (“p_train.fasta” olarak adlandırılır); ikinci dosya, eğitim süreci için negatif sınıfın tüm dizilerini içerir (“n_train.fasta” olarak adlandırılır); üçüncü dosya, test işlemi için pozitif sınıfın tüm dizilerini içerir (“p_test.fasta” olarak adlandırılır); ve son dosya test işlemi için negatif sınıfın tüm dizilerini içerir (“n_test.fasta” olarak adlandırılır). Bu öğreticinin akış çizelgesine genel bakış Şekil 2‘de verilmiştir ve aşağıda daha fazla ayrıntı belirtilecektir.
Bu öğretici, biyologlar ve algoritma tasarımına yeni başlayanlar için metanenomik verilerde biyolojik dizi sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesinin nasıl oluşturulacağı hakkında genel bir bakış sağlar. Bu öğretici, derin öğrenmenin sezgisel olarak anlaşılmasını sağlamayı ve yeni başlayanların genellikle derin öğrenme paketini yüklemekte ve algoritmanın kodunu yazmakta zorlandığı zorluğu ele almayı amaçlamaktadır. Bazı basit sınıflandırma göre…
The authors have nothing to disclose.
Bu soruşturma Çin Ulusal Doğa Bilimleri Vakfı (81925026, 82002201, 81800746, 82102508) tarafından finansal olarak desteklendi.
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |