يصف هذا البرنامج التعليمي طريقة بسيطة لبناء خوارزمية التعلم العميق لأداء تصنيف تسلسل من فئتين من البيانات metagenomic.
ومن المتوقع القيام بمجموعة متنوعة من مهام تصنيف التسلسل البيولوجي، مثل تصنيف الأنواع وتصنيف وظائف الجينات وتصنيف المضيف الفيروسي، بعمليات في العديد من تحليلات البيانات الميتاجنومية. وبما أن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن هناك حاجة إلى خوارزميات تصنيف عالية الأداء في العديد من الدراسات. غالبا ما يواجه علماء الأحياء تحديات في العثور على أدوات تصنيف التسلسل والتعليق المناسبة لمهمة محددة ، وغالبا ما لا يكونون قادرين على بناء خوارزمية مقابلة بمفردهم بسبب نقص المعرفة الرياضية والحسابية اللازمة. تقنيات التعلم العميق أصبحت مؤخرا موضوعا شعبيا وتظهر مزايا قوية في العديد من مهام التصنيف. حتى الآن ، تم تطوير العديد من حزم التعلم العميق المعبأة للغاية ، والتي تجعل من الممكن لعلماء الأحياء بناء أطر تعلم عميقة وفقا لاحتياجاتهم الخاصة دون معرفة متعمقة بتفاصيل الخوارزمية. في هذا البرنامج التعليمي، ونحن نقدم مبادئ توجيهية لبناء سهلة الاستخدام إطار التعلم العميق لتصنيف تسلسل دون الحاجة إلى المعرفة الرياضية الكافية أو مهارات البرمجة. يتم تحسين كافة التعليمات البرمجية في جهاز ظاهري بحيث يمكن للمستخدمين مباشرة تشغيل التعليمات البرمجية باستخدام البيانات الخاصة بهم.
تتجاوز تقنية التسلسل الميتاجنومي عملية عزل السلالة وتسلسل الحمض النووي الإجمالي مباشرة في عينة بيئية. وهكذا، تحتوي البيانات الميتاجنومية على الحمض النووي من كائنات حية مختلفة، ومعظم التسلسلات البيولوجية هي من كائنات حية جديدة غير موجودة في قاعدة البيانات الحالية. وفقا لأغراض بحثية مختلفة، يحتاج علماء الأحياء إلى تصنيف هذه التسلسلات من وجهات نظر مختلفة، مثل التصنيف التصنيفي1، وتصنيف البكتيرياالفيروسات 2،3،4، تصنيف الكروموسومات البلازميد3،5،6،7، والشروح وظيفة الجينات (مثل تصنيف الجينات مقاومة المضادات الحيوية8 وتصنيف عامل الفوعة9 ). ولأن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن خوارزميات ab initio، التي لا تعتمد على قواعد بيانات معروفة لتصنيف التسلسل (بما في ذلك تصنيف الحمض النووي وتصنيف البروتين)، هي نهج مهم في تحليل البيانات الميتاجينومية. ومع ذلك ، فإن تصميم هذه الخوارزميات يتطلب معرفة الرياضيات المهنية ومهارات البرمجة ؛ لذلك ، يواجه العديد من علماء الأحياء ومبتدئي تصميم الخوارزمية صعوبة في بناء خوارزمية تصنيف لتناسب احتياجاتهم الخاصة.
مع تطور الذكاء الاصطناعي ، تم استخدام خوارزميات التعلم العميق على نطاق واسع في مجال المعلوماتية الحيوية لإكمال مهام مثل تصنيف التسلسل في التحليل الميتاجنومي. لمساعدة المبتدئين على فهم خوارزميات التعلم العميق ، نصف الخوارزمية بطريقة سهلة الفهم أدناه.
يتم عرض نظرة عامة على تقنية التعلم العميق في الشكل 1. التكنولوجيا الأساسية لوغاريتم التعلم العميق هي شبكة عصبية اصطناعية ، مستوحاة من بنية الدماغ البشري. من وجهة نظر رياضية، يمكن اعتبار الشبكة العصبية الاصطناعية وظيفة معقدة. يتم رقمنة كل كائن (مثل تسلسل الحمض النووي أو صورة أو فيديو) أولا. ثم يتم استيراد الكائن الرقمي إلى الدالة. مهمة الشبكة العصبية الاصطناعية هي إعطاء استجابة صحيحة وفقا لبيانات الإدخال. على سبيل المثال، إذا تم إنشاء شبكة عصبية اصطناعية لتنفيذ مهمة تصنيف من فئتين، يجب على الشبكة إخراج درجة احتمالية تتراوح بين 0-1 لكل كائن. يجب أن تعطي الشبكة العصبية الكائن الإيجابي درجة أعلى (مثل درجة أعلى من 0.5) مع إعطاء الكائن السلبي درجة أقل. وللحصول على هذا الهدف، يتم بناء شبكة عصبية اصطناعية مع عمليات التدريب والاختبار. أثناء هذه العمليات، يتم تحميل البيانات من قاعدة البيانات المعروفة ثم تقسيمها إلى مجموعة التدريب ومجموعة الاختبار. يتم رقمنة كل كائن بطريقة مناسبة وإعطاء تسمية (“1” للكائنات الموجبة و “0” للكائنات السالبة). في عملية التدريب، يتم إدخال البيانات الرقمية في مجموعة التدريب في الشبكة العصبية. الشبكة العصبية الاصطناعية يبني وظيفة الخسارة التي تمثل الاختلاف بين درجة الإخراج من كائن الإدخال والتسمية المقابلة للكائن. على سبيل المثال، إذا كان تسمية كائن الإدخال هو “1” بينما درجة الإخراج “0.1” ، ستكون دالة الخسارة عالية; وإذا كانت تسمية كائن الإدخال “0” بينما درجة الإخراج “0.1”، ستكون وظيفة الخسارة منخفضة. تستخدم الشبكة العصبية الاصطناعية خوارزمية تكرارية محددة تعدل معلمات الشبكة العصبية لتقليل وظيفة الخسارة. تنتهي عملية التدريب عندما لا يمكن زيادة انخفاض وظيفة الخسارة. وأخيرا، يتم استخدام البيانات في مجموعة الاختبار لاختبار الشبكة العصبية الثابتة، ويتم تقييم قدرة الشبكة العصبية على حساب التسميات الصحيحة للكائنات الجديدة. يمكن العثور على المزيد من مبادئ خوارزميات التعلم العميق في المراجعة في LeCun وآخرون. 10.
على الرغم من أن المبادئ الرياضية لخوارزميات التعلم العميق قد تكون معقدة ، فقد تم مؤخرا تطوير العديد من حزم التعلم العميق المعبأة للغاية ، ويمكن للمبرمجين بناء شبكة عصبية اصطناعية بسيطة مباشرة مع بضعة أسطر من التعليمات البرمجية.
لمساعدة علماء الأحياء والمبتدئين تصميم خوارزمية في البدء في استخدام التعلم العميق بسرعة أكبر، ويوفر هذا البرنامج التعليمي مبادئ توجيهية لبناء إطار التعلم العميق سهلة الاستخدام لتصنيف تسلسل. يستخدم هذا الإطار نموذج الترميز “واحد الساخنة” كنموذج رياضي لرقمنة التسلسلات البيولوجية ويستخدم شبكة عصبية ملتوية لأداء مهمة التصنيف (انظر المواد التكميلية). الشيء الوحيد الذي يحتاج المستخدمون إلى القيام به قبل استخدام هذا المبدأ التوجيهي هو إعداد أربعة ملفات تسلسل في تنسيق “fasta”. يحتوي الملف الأول على كافة تسلسلات الفئة الإيجابية لعملية التدريب (المشار إليها ب “p_train.fasta”)؛ يحتوي الملف الثاني على كافة تسلسلات الفئة السالبة لعملية التدريب (المشار إليها ب “n_train.fasta”)؛ يحتوي الملف الثالث على كافة تسلسلات الفئة موجبة لعملية الاختبار (المشار إليها إلى “p_test.fasta”); ويحتوي الملف الأخير على كافة تسلسلات الفئة السالبة لعملية الاختبار (المشار إليها ب “n_test.fasta”). يتم توفير نظرة عامة على المخطط الانسيابي لهذا البرنامج التعليمي في الشكل 2، وسيتم ذكر المزيد من التفاصيل أدناه.
يوفر هذا البرنامج التعليمي لمحة عامة لعلماء الأحياء والمبتدئين تصميم خوارزمية حول كيفية بناء إطار التعلم العميق سهلة الاستخدام لتصنيف التسلسل البيولوجي في البيانات metagenomic. يهدف هذا البرنامج التعليمي إلى توفير فهم بديهي للتعلم العميق ومعالجة التحدي الذي يواجه المبتدئين في كثير من الأحي?…
The authors have nothing to disclose.
وقد دعم هذا التحقيق ماليا المؤسسة الوطنية للعلوم الطبيعية في الصين (81925026، 82002201، 81800746، 82102508).
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |