Summary

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

Published: September 25, 2021
doi:

Summary

يصف هذا البرنامج التعليمي طريقة بسيطة لبناء خوارزمية التعلم العميق لأداء تصنيف تسلسل من فئتين من البيانات metagenomic.

Abstract

ومن المتوقع القيام بمجموعة متنوعة من مهام تصنيف التسلسل البيولوجي، مثل تصنيف الأنواع وتصنيف وظائف الجينات وتصنيف المضيف الفيروسي، بعمليات في العديد من تحليلات البيانات الميتاجنومية. وبما أن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن هناك حاجة إلى خوارزميات تصنيف عالية الأداء في العديد من الدراسات. غالبا ما يواجه علماء الأحياء تحديات في العثور على أدوات تصنيف التسلسل والتعليق المناسبة لمهمة محددة ، وغالبا ما لا يكونون قادرين على بناء خوارزمية مقابلة بمفردهم بسبب نقص المعرفة الرياضية والحسابية اللازمة. تقنيات التعلم العميق أصبحت مؤخرا موضوعا شعبيا وتظهر مزايا قوية في العديد من مهام التصنيف. حتى الآن ، تم تطوير العديد من حزم التعلم العميق المعبأة للغاية ، والتي تجعل من الممكن لعلماء الأحياء بناء أطر تعلم عميقة وفقا لاحتياجاتهم الخاصة دون معرفة متعمقة بتفاصيل الخوارزمية. في هذا البرنامج التعليمي، ونحن نقدم مبادئ توجيهية لبناء سهلة الاستخدام إطار التعلم العميق لتصنيف تسلسل دون الحاجة إلى المعرفة الرياضية الكافية أو مهارات البرمجة. يتم تحسين كافة التعليمات البرمجية في جهاز ظاهري بحيث يمكن للمستخدمين مباشرة تشغيل التعليمات البرمجية باستخدام البيانات الخاصة بهم.

Introduction

تتجاوز تقنية التسلسل الميتاجنومي عملية عزل السلالة وتسلسل الحمض النووي الإجمالي مباشرة في عينة بيئية. وهكذا، تحتوي البيانات الميتاجنومية على الحمض النووي من كائنات حية مختلفة، ومعظم التسلسلات البيولوجية هي من كائنات حية جديدة غير موجودة في قاعدة البيانات الحالية. وفقا لأغراض بحثية مختلفة، يحتاج علماء الأحياء إلى تصنيف هذه التسلسلات من وجهات نظر مختلفة، مثل التصنيف التصنيفي1، وتصنيف البكتيرياالفيروسات 2،3،4، تصنيف الكروموسومات البلازميد3،5،6،7، والشروح وظيفة الجينات (مثل تصنيف الجينات مقاومة المضادات الحيوية8 وتصنيف عامل الفوعة9 ). ولأن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن خوارزميات ab initio، التي لا تعتمد على قواعد بيانات معروفة لتصنيف التسلسل (بما في ذلك تصنيف الحمض النووي وتصنيف البروتين)، هي نهج مهم في تحليل البيانات الميتاجينومية. ومع ذلك ، فإن تصميم هذه الخوارزميات يتطلب معرفة الرياضيات المهنية ومهارات البرمجة ؛ لذلك ، يواجه العديد من علماء الأحياء ومبتدئي تصميم الخوارزمية صعوبة في بناء خوارزمية تصنيف لتناسب احتياجاتهم الخاصة.

مع تطور الذكاء الاصطناعي ، تم استخدام خوارزميات التعلم العميق على نطاق واسع في مجال المعلوماتية الحيوية لإكمال مهام مثل تصنيف التسلسل في التحليل الميتاجنومي. لمساعدة المبتدئين على فهم خوارزميات التعلم العميق ، نصف الخوارزمية بطريقة سهلة الفهم أدناه.

يتم عرض نظرة عامة على تقنية التعلم العميق في الشكل 1. التكنولوجيا الأساسية لوغاريتم التعلم العميق هي شبكة عصبية اصطناعية ، مستوحاة من بنية الدماغ البشري. من وجهة نظر رياضية، يمكن اعتبار الشبكة العصبية الاصطناعية وظيفة معقدة. يتم رقمنة كل كائن (مثل تسلسل الحمض النووي أو صورة أو فيديو) أولا. ثم يتم استيراد الكائن الرقمي إلى الدالة. مهمة الشبكة العصبية الاصطناعية هي إعطاء استجابة صحيحة وفقا لبيانات الإدخال. على سبيل المثال، إذا تم إنشاء شبكة عصبية اصطناعية لتنفيذ مهمة تصنيف من فئتين، يجب على الشبكة إخراج درجة احتمالية تتراوح بين 0-1 لكل كائن. يجب أن تعطي الشبكة العصبية الكائن الإيجابي درجة أعلى (مثل درجة أعلى من 0.5) مع إعطاء الكائن السلبي درجة أقل. وللحصول على هذا الهدف، يتم بناء شبكة عصبية اصطناعية مع عمليات التدريب والاختبار. أثناء هذه العمليات، يتم تحميل البيانات من قاعدة البيانات المعروفة ثم تقسيمها إلى مجموعة التدريب ومجموعة الاختبار. يتم رقمنة كل كائن بطريقة مناسبة وإعطاء تسمية (“1” للكائنات الموجبة و “0” للكائنات السالبة). في عملية التدريب، يتم إدخال البيانات الرقمية في مجموعة التدريب في الشبكة العصبية. الشبكة العصبية الاصطناعية يبني وظيفة الخسارة التي تمثل الاختلاف بين درجة الإخراج من كائن الإدخال والتسمية المقابلة للكائن. على سبيل المثال، إذا كان تسمية كائن الإدخال هو “1” بينما درجة الإخراج “0.1” ، ستكون دالة الخسارة عالية; وإذا كانت تسمية كائن الإدخال “0” بينما درجة الإخراج “0.1”، ستكون وظيفة الخسارة منخفضة. تستخدم الشبكة العصبية الاصطناعية خوارزمية تكرارية محددة تعدل معلمات الشبكة العصبية لتقليل وظيفة الخسارة. تنتهي عملية التدريب عندما لا يمكن زيادة انخفاض وظيفة الخسارة. وأخيرا، يتم استخدام البيانات في مجموعة الاختبار لاختبار الشبكة العصبية الثابتة، ويتم تقييم قدرة الشبكة العصبية على حساب التسميات الصحيحة للكائنات الجديدة. يمكن العثور على المزيد من مبادئ خوارزميات التعلم العميق في المراجعة في LeCun وآخرون. 10.

على الرغم من أن المبادئ الرياضية لخوارزميات التعلم العميق قد تكون معقدة ، فقد تم مؤخرا تطوير العديد من حزم التعلم العميق المعبأة للغاية ، ويمكن للمبرمجين بناء شبكة عصبية اصطناعية بسيطة مباشرة مع بضعة أسطر من التعليمات البرمجية.

لمساعدة علماء الأحياء والمبتدئين تصميم خوارزمية في البدء في استخدام التعلم العميق بسرعة أكبر، ويوفر هذا البرنامج التعليمي مبادئ توجيهية لبناء إطار التعلم العميق سهلة الاستخدام لتصنيف تسلسل. يستخدم هذا الإطار نموذج الترميز “واحد الساخنة” كنموذج رياضي لرقمنة التسلسلات البيولوجية ويستخدم شبكة عصبية ملتوية لأداء مهمة التصنيف (انظر المواد التكميلية). الشيء الوحيد الذي يحتاج المستخدمون إلى القيام به قبل استخدام هذا المبدأ التوجيهي هو إعداد أربعة ملفات تسلسل في تنسيق “fasta”. يحتوي الملف الأول على كافة تسلسلات الفئة الإيجابية لعملية التدريب (المشار إليها ب “p_train.fasta”)؛ يحتوي الملف الثاني على كافة تسلسلات الفئة السالبة لعملية التدريب (المشار إليها ب “n_train.fasta”)؛ يحتوي الملف الثالث على كافة تسلسلات الفئة موجبة لعملية الاختبار (المشار إليها إلى “p_test.fasta”); ويحتوي الملف الأخير على كافة تسلسلات الفئة السالبة لعملية الاختبار (المشار إليها ب “n_test.fasta”). يتم توفير نظرة عامة على المخطط الانسيابي لهذا البرنامج التعليمي في الشكل 2، وسيتم ذكر المزيد من التفاصيل أدناه.

Protocol

1. تركيب الجهاز الظاهري تحميل ملف الجهاز الظاهري من (https://github.com/zhenchengfang/DL-VM). تحميل برنامج فيرتثلبوإكس من https://www.virtualbox.org. فك ضغط ملف “.7z” باستخدام البرامج ذات الصلة، مثل “7-Zip” أو “WinRAR” أو “WinZip”. تثبيت برنامج فيرتثلبوإكس بالنقر فوق الزر التالي في كل خطوة. افتح بر?…

Representative Results

في عملنا السابق، قمنا بتطوير سلسلة من أدوات تصنيف تسلسل للبيانات metagenomic باستخدام نهج مماثل لهذا البرنامج التعليمي3،11،12. كمثال، قمنا بإيداع ملفات تسلسل مجموعة التدريب الفرعية ومجموعة الاختبار من عملنا السابق3،<sup class="xre…

Discussion

يوفر هذا البرنامج التعليمي لمحة عامة لعلماء الأحياء والمبتدئين تصميم خوارزمية حول كيفية بناء إطار التعلم العميق سهلة الاستخدام لتصنيف التسلسل البيولوجي في البيانات metagenomic. يهدف هذا البرنامج التعليمي إلى توفير فهم بديهي للتعلم العميق ومعالجة التحدي الذي يواجه المبتدئين في كثير من الأحي?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

وقد دعم هذا التحقيق ماليا المؤسسة الوطنية للعلوم الطبيعية في الصين (81925026، 82002201، 81800746، 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video