Summary

الاستفادة من سيفيرز الموارد ل<em> دي نوفو</em> ترانسكريبتوميكس المقارنة من الكائنات المحرومة (غير نموذجية)

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

يسمح هذا العمل للباحثين المبتدئين بالاستفادة من الموارد الحسابية المتقدمة مثل الحوسبة السحابية لتنفيذ النسخ النسبي المقارن بين الزوجين. كما أنها بمثابة التمهيدي لعلماء الأحياء لتطوير المهارات الحسابية عالم البيانات، على سبيل المثال تنفيذ أوامر باش والتصور وإدارة مجموعات البيانات الكبيرة. يمكن العثور على كل رمز سطر الأوامر وتفسيرات إضافية لكل أمر أو خطوة على ويكي ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). ترتبط بيئة ديسكفري والغلاف الجوي معا من خلال مخزن البيانات سيفيرز. وعلى هذا النحو، وبمجرد أن يتم تحميل البيانات الأولية تسلسل الخام ليس هناك حاجة أكثر لنقل ملفات البيانات الكبيرة عبر اتصال بالإنترنت، والتقليل من مقدار الوقت اللازم لإجراء التحليلات. تم تصميم هذا البروتوكول لتحليل اثنين فقط من العلاجات التجريبية أو الشروط. يتم إجراء تحليل التعبير الجيني التفاضليالمقارنات الزوجية، ولن تكون مناسبة لاختبار عوامل متعددة. تم تصميم سير العمل هذا ليكون دليل بدلا من الآلي. يجب أن يتم تنفيذ كل خطوة والتحقيق من قبل المستخدم، مما يؤدي إلى فهم أفضل للبيانات والنواتج التحليلية، وبالتالي نتائج أفضل للمستخدم. مرة واحدة كاملة، وهذا البروتوكول ينتج دي نوفو تجميعها ترانسكريبتوم (ق) للكائنات المحرومة (غير نموذجية) دون الحاجة إلى خريطة لالجينومات المرجعية تجميعها سابقا (والتي عادة ما تكون غير متوفرة في الكائن الحي المحرومة). وتستخدم هذه ترانسكريبتوميس دي نوفو أيضا في تحليل التفاضلية التعبير الجيني الزوجي للتحقيق في الجينات تختلف بين اثنين من الظروف التجريبية. الجينات التي تم التعبير عنها تفاضليا ثم مشروح وظيفيا لفهم الكائنات الاستجابة الوراثية لديها لظروف تجريبية. في المجموع، وتستخدم البيانات المستمدة من هذا البروتوكول لاختبار الفرضيات حول الاستجابات البيولوجية للكائنات المحرومة.

Introduction

سابينز الإنسان والعديد من الأنواع الحيوانية نموذج رئيسي مثل ذبابة الفاكهة ميلانوغاستر ، موس موسولوس ، و دانيو ريريو تمثل غالبية العمل الجينوم وظيفية الحالية والماضية. ومع ذلك، فإن التكلفة المتناقصة بسرعة لتكنولوجيا التسلسل عالية الإنتاجية توفر فرصا لعلم الجينوم الوظيفي في غير نموذجية ( ويعرف أيضا باسم "المهملة" أو "المحرومة") الأنواع الحيوانية 1 . ويعد هذا انتقالا هاما في علم الجينوم، حيث إن الكائنات غير النموذجية كثيرا ما تمثل الأنواع ذات الصلة اقتصاديا ( مثل المحار والروبيان وسرطان البحر)، وتوفر فرصا للتحقيق في الأنماط الظاهرية الجديدة والأنظمة البيولوجية خارج نطاق الأنواع الموجودة في الأنواع النموذجية.

وعلى الرغم من أن الكائنات الحية المحرومة توفر فرصة جذابة للتحقيق في النظم البيولوجية الفريدة، فإن العديد من التحديات تواجه الباحثين خاصة أثناء التحليل الحيوي للمعلومات. قليلا من الفإن تحديات أخرى هي فطرية لمعالجة مجموعات كبيرة من البيانات، في حين أن البعض الآخر ينجم عن نقص الموارد الوراثية المتاحة للباحثين العاملين في الكائنات المحرومة مثل الجينوم المرجعي والكائنات الحية المحددة، وما إلى ذلك . وغالبا ما تكون تحديات عزل الحمض النووي وتسلسله روتينية في مقارنة مع تلك الخاصة بتحليل البيانات، ومن ثم فإن التحليلات المتعلقة بالمعلومات الأحيائية على هذا النحو تثبت بوجه عام أنها أكثر التكاليف تقصيرا في تقدير تسلسل المشاريع 2 . على سبيل المثال، قد يتكون التحليل الأساسي للمعلومات التسلسلية من الجيل التالي من الخطوات التالية: تصفية الجودة وتقليم التسلسل الخام للقراءة، وتجميع القراءات القصيرة إلى قطع أكبر متجاورة، والتعليقات التوضيحية و / أو المقارنات مع الأنظمة الأخرى للحصول على الفهم البيولوجي. وعلى الرغم من أنه يبدو بسيطا، فإن سير العمل في هذا المثال يتطلب معرفة متخصصة وموارد حسابية خارج نطاق جهاز كمبيوتر للمقاعد، مما يجعله بعيدا عن متناول العديد من العلماء الذين يدرسون غير المقيدين،الكائنات الحية.

ويمكن أن تكون التحديات الفطرية قائمة على البنية التحتية أو المعرفة. التحدي البنيوي التقليدي هو الوصول إلى الموارد الحسابية المناسبة. على سبيل المثال، يعتمد التجميع والتعليق التوضيحي على خوارزميات مكثفة حسابيا تتطلب أجهزة كمبيوتر قوية أو مجموعات كمبيوتر، مع وجود كمية كبيرة من ذاكرة الوصول العشوائي (256 جيجابايت – 1 تيرابايت) والعديد من المعالجات / النوى لتشغيلها. ولسوء الحظ، فإن العديد من الباحثين إما لا يستطيعون الوصول إلى هذه الموارد الحاسوبية أو ليس لديهم المعرفة اللازمة للتفاعل مع هذه الأنظمة. ويمكن للباحثين الآخرين الوصول إلى مجموعات الحوسبة عالية الأداء من خلال الجامعات أو المؤسسات، ولكن الوصول إلى هذه الموارد قد تكون محدودة وأحيانا يؤدي إلى رسوم لكل ساعة حساب، أي عدد معالجات وحدة المعالجة المركزية مضروبا في عدد من الوقت الحقيقي "على مدار الساعة ساعات "أن تلك المعالجات قيد التشغيل. الاستفادة من نظام البنية التحتية السيبرانية الممولة من قبل مؤسسة العلوم الوطنية الأمريكية sأوش كما سيفيرز 3 التي توفر حرية الوصول إلى حساب الموارد للباحثين، في الولايات المتحدة وحول العالم، يمكن أن تساعد في تخفيف التحديات البنية التحتية، كما سيتبين هنا.

مثال على التحدي المعرفي القائم على المعرفة هو فهم البرمجيات اللازمة للتحليلات الكاملة. من أجل إجراء مشروع قائم على التسلسل بشكل فعال، يحتاج الباحثون إلى أن يكونوا على دراية بعدد لا يحصى من أدوات البرمجيات التي تم تطويرها لتحليلات المعلوماتية الحيوية. تعلم كل حزمة من الصعب في حد ذاته، ولكن يتفاقم من حقيقة أن حزم يتم باستمرار ترقية، وإطلاق سراح، وضعت معا في سير العمل الجديدة، وأحيانا تصبح مقيدة للاستخدام بموجب تراخيص جديدة. وبالإضافة إلى ذلك، ربط مدخلات ومخرجات هذه الأدوات في بعض الأحيان يتطلب تحويل أنواع البيانات لجعلها متوافقة، إضافة أداة أخرى لسير العمل. وأخيرا، فإنه من الصعب أيضا أن تعرف أي حزمة البرامج هو 'ثه أفضل "لتحليل، وكثيرا ما تحديد أفضل البرامج لظروف تجريبية معينة هي مسألة من الفروق الدقيقة. في بعض الحالات، تتوفر مراجعات مفيدة للبرامج، ولكن نظرا لاستمرار الإفراج عن التحديثات الجديدة وخيارات البرامج، تصبح هذه التحديثات قديمة.

بالنسبة للباحثين الباحثين عن الكائنات الحية المحرومة، تأتي هذه التحديات الفطرية بالإضافة إلى التحديات المرتبطة بتحليل البيانات في كائن حي جديد. هذه التحديات الخاصة بالكائنات الحية المحرومة هي الأفضل توضحا خلال الشرح الجيني. على سبيل المثال، الكائنات الحية المحرومة في كثير من الأحيان ليس لديها كائن نموذج وثيق الصلة التي يمكن استخدامها بشكل معقول لتحديد الجينات تقويم العظام وظيفة (على سبيل المثال اللافقاريات البحرية و ذبابة الفاكهة ). كما تتطلب العديد من األدوات اإلشرافية الحيوية "تدريبا" لتحديد العناصر الهيكلية التي يمكن استخدامها لتحديد وظيفة الجينات. ومع ذلك، عادة ما تكون بيانات التدريب متاحة فقط لوزارة الدفاعوالكائنات الحية الدقيقة، وتدريب نماذج ماركوف خفية (همز) هو خارج نطاق علماء الأحياء، وحتى العديد من المعلوماتية الحيوية. وأخيرا، حتى لو كان يمكن تنفيذ الشروح باستخدام بيانات من الكائنات الحية النموذجية، فإن بعض علم الجينات المرتبطة بالكائنات الحية النموذجية لا يكون منطقيا عندما يتم النظر في البيولوجيا والتاريخ الطبيعي للكائن المحروم ( مثل نقل المعلومات من ذبابة الفاكهة إلى الروبيان).

وفي ضوء هذه التحديات، يلزم تطوير موارد المعلوماتية الأحيائية مع قيام الباحثين بإجراء تحليلات جديدة بشأن الكائنات الحية المحرومة من الخدمات. وستساعد السنوات العديدة القادمة من مشاريع التسلسل الجينومي الوظيفي على سد الفجوة بين الكائنات الحية التي تفتقر إلى الخدمات والكفاءة ( https://genome10k.soe.ucsc.edu/ )، ولكن هناك العديد من الأدوات التي ستحتاج إلى تطويرها للتصدي للتحديات التي سبق النظر فيها. وتكرس سيفيرز لخلق النظم الإيكولوجية من طمن خلال ربط البنية التحتية السيبرانية الحالية وتطبيقات الطرف الثالث لتقديم إدارة البيانات، وأدوات تحليل المعلوماتية الحيوية، وتصورات البيانات لعلماء الحياة. وتساعد قابلية التشغيل البيني على تسهيل عمليات الانتقال بين التطبيقات والمنصات الحيوية للمعلومات عن طريق توفير موارد حاسوبية قابلة للتطوير، والحد من تحويلات ملفات الملفات وكمية البيانات المنقولة بين المنصات. يوفر سيفيرز العديد من المنصات، بما في ذلك ديسكفري إنفيرونمنت (دي 4 ، أتموسفير 5 ، و داتا ستور 3. و دي هو على شبكة الإنترنت ويحتوي على العديد من أدوات التحليل المعلوماتية الحيوية المشتركة تحويلها إلى تنسيقات نقطة والنقر سهلة الاستخدام (وتسمى "تطبيقات ")، وهي واجهة المستخدم الرسومية (غوي) لمخازن البيانات حيث يتم تخزين وإدارة مجموعات كبيرة من البيانات ( أي التسلسل الخام للقراءة، الجينومات المجمعة)، والغلاف الجوي هو خدمة الحوسبة السحابية التي توفر للباحثين مرونة متزايدةوذلك باستخدام الموارد الحسابية الجهاز الظاهري، والتي لديها مجموعة واسعة من أدوات المعلوماتية الحيوية مثبتة مسبقا. ويرتبط كل من هذه المنصات إلى مخزن البيانات، ويمكن استخدامها معا لإنشاء سير العمل مثل تلك الموضحة هنا. ويركز هذا التقرير على مجموعة ترانسكريبتوم دي نوفو وسير عمل تحليل التعبير الجيني التفاضلي، ويتناول كذلك بعض أفضل الممارسات المرتبطة بتطوير وإجراء التحاليل المعلوماتية الحيوية. وشرح للبعثة الأوسع نطاقا من سيفيرز ( http://www.cyverse.org/about ) وأوصاف منصة مفصلة ( http://www.cyverse.org/learning-center ) متاحة للجمهور. جميع التحليلات الموصوفة هنا تستخدم بيئة الاكتشاف 4 (دي) والغلاف الجوي 5 ، وتقدم بطريقة تجعلها متاحة للباحثين من جميع المستويات الحسابية. دي سير العمل و أتموسفيمكن الرجوع إلى الصور مباشرة باستخدام عناوين المواقع لضمان المدى الطويل، وإعادة الاستخدام، واستنساخ.

Protocol

ملاحظة: تم ترقيم البروتوكول العام وفقا للمجلدات التي سيتم إنشاؤها واسمه في الخطوة 1.2 ( الشكل 1 و 2 ). هذا البروتوكول يمثل معيار المقارنة دي نوفو ترانسكريبتوم التحليل، وكل خطوة مفصلة هنا قد لا يكون ضروريا لجميع الباحثين. يتم توثيق سير العمل هذا بشكل دقيق على ويكي تعليمي مصاحب، والذي يحتوي أيضا على كافة الملفات الإضافية والروابط إلى مستندات ذات أهمية لمطوري الطرف الثالث لكل حزمة تحليل ( الجدول 1 ). سيتم تضمين روابط لهذه المادة في جميع أنحاء هذا البروتوكول لسهولة الوصول إلى هذه المعلومات. أفضل الممارسات هي الملاحظات المقدمة للمستخدمين كاقتراحات لأفضل طريقة لإنجاز المهام أو للمستخدمين للنظر، وسيتم إبلاغ من خلال الملاحظات في البروتوكول. مجلد من إدخال البيانات سبيل المثال والانتاج التحليلي متاحة للجمهور للمستخدمين، ويتم تنظيم كما اقترح في البروتوكول ( دي نوفو </إم> ترانسكريبتوم التجمع والتحليل. 1. إعداد المشروع، تحميل الخام تسلسل يقرأ، وتقييم القراءات باستخدام فاستك الحصول على أجواء وبيئة الاكتشاف. طلب حساب سيفيرز مجانا عن طريق الانتقال إلى صفحة التسجيل (على سبيل المثال person@institution.edu). املأ المعلومات المطلوبة وقدمها. انتقل إلى صفحة الويب الرئيسية (http://www.cyverse.org/)، وحدد "تسجيل الدخول" في شريط الأدوات العلوي. حدد "دخول سيفيرس" وتسجيل الدخول باستخدام بيانات اعتماد سيفيرز الخاصة بك. انتقل إلى علامة التبويب التطبيقات والخدمات، وطلب الدخول إلى أتموسفير. يتم منح الوصول إلى بيئة الاكتشاف تلقائيا. قم بإعداد المشروع ونقل البيانات إلى مخزن البيانات. سجل الدخول إلى بيئة الاكتشاف (https://de.iplantcollaborative.org/de). حدد علامة التبويب "بيانات" لإظهار قائمة تحتوي على كافة المجلدات في مخزن البيانات. </لى> إنشاء مجلد المشروع الرئيسي الذي سيتم استضافة جميع البيانات المرتبطة بالمشروع. ابحث عن شريط الأدوات أعلى نافذة البيانات وحدد ملف | ملف جديد. لا تستخدم المسافات أو الأحرف الخاصة في أسماء المجلدات أو أي أسماء ملفات الإدخال / الإخراج على سبيل المثال "! @ # () [] {}:؛ $٪ ^ & *." بدلا من ذلك، استخدم الشرطات السفلية أو الشرطات، أي "_" أو "-" عند الاقتضاء. إنشاء مجلدات ضمن مجلد المشروع الرئيسي لتنظيم التحليلات ( الشكل 1 ) قم بتسمية المجلدات كما يلي بدون علامات الفاصلة أو علامات الاقتباس: "1_Raw_Sequence"، "2_High_Quality_Sequence،" "3_Assembly،" "4_Differential_Expression"، "5_Annotated_Assembly." سيتم وضع المجلدات الفرعية في كل من هذه المجلدات المشروع الرئيسي ( الشكل 2 ). الشكل1: نظرة عامة عامة على منظمة مجلد المشروع و سير العمل في الجمعية العامة والتحليل في نوفو ترانسكريبتوم. سيتم تحميل المستخدمين تحميل تسلسل الخام في مجلد المشروع الرئيسي على مخزن البيانات، ثم وضع النتائج من كل خطوة إلى مجلدات منفصلة. الرجاء انقر هنا لعرض نسخة أكبر من هذا الرقم. الشكل 2: نظرة عامة مفصلة من دي نوفو ترانسكريبتوم الجمعية وتحليل سير العمل الذي يحدث داخل سيفيرز البنية التحتية. وسيتم الانتهاء من الجمعية بأكملها وتحليل سير العمل في خمس خطوات التي كل الحصول على مجلد الخاصة بهم (جريئة، والرموز مجلد مرقمة). يحتوي كل مجلد من مجلدات خطوة سير العمل الخمسة المرقمة على مجلدات فرعية تحتوي على بيانات الإخراج من تحليلات بيوانفورماتيك (المجلدالرموز). المدخلات للتحليل تأتي من مجلد فرعي واحد ثم الانتقال إلى مجلد آخر من خلال إخراج برنامج تحليل (مربعات مستطيل). تتم مقارنة البيانات النهائية من الخطوات الثلاث الأولى وإعدادها للنشر. في نهاية المطاف، هذا النظام يعطي مجلد المشروع الرئيسي الذي تحليل متدرج للمتعاونين و / أو المراجعين المخطوطة يمكن أن نفهم بسرعة سير العمل وتكرار ذلك باستخدام كل ملف إذا لزم الأمر. الرجاء انقر هنا لعرض نسخة أكبر من هذا الرقم. تحميل ملفات تسلسل فاستق الخام في المجلد "1_Raw_Sequence" في مجلد فرعي بعنوان "A_Raw_Reads" باستخدام إحدى الطرق الثلاث التالية. استخدم ميزة التحميل البسيطة في مخزن البيانات للانتقال إلى شريط أدوات نافذة البيانات بالنقر على زر البيانات في سطح المكتب دي الرئيسي، وحدد تحميل | تحميل بسيط من سطح المكتب. حدد زر التصفحللانتقال إلى ملفات التسلسل فاستق الخام على الكمبيوتر المحلي. هذا الأسلوب هو فقط مناسبة للملفات تحت 2 غيغابايت. حدد الزر "تحميل" أسفل الشاشة لإرسال التحميل. سيتم تسجيل إشعار في أعلى يمين دي في رمز الجرس الذي تم تحميله. سيتم تسجيل إشعار آخر عند اكتمال التحميل. بدلا من ذلك، استخدم سيبيردوك لنقل الملفات الكبيرة (https://wiki.cyverse.org/wiki/x/pYcVAQ). تثبيت سيبيردوك ثم تشغيل كبرنامج على سطح المكتب الكمبيوتر المحلي. وأخيرا، تحميل إكوماندس وتثبيتها على الكمبيوتر المحلي وفقا للتعليمات (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). تقييم تحميلها، تسلسل الخام يقرأ باستخدام التطبيق فاستك في دي. حدد زر "تطبيقات" على سطح المكتب دي الرئيسي لفتح نافذة تحتوي على كل من تطبيقات التحليل المتاحة في دي. البحث وفتح الفوزداو لأداة فاستك في شريط أدوات البحث في الجزء العلوي من النافذة. افتح إصدار متعدد الملفات إذا كان هناك أكثر من ملف فاستق واحد. حدد ملف | مجلد جديد لإنشاء مجلد باسم "B_FastQC_Raw_Reads" وحدد هذا المجلد كمجلد الإخراج. تحميل الملفات فاستق قراءة في نافذة أداة تسمى "تحديد إدخال البيانات" وحدد "إطلاق التحليل." افتح ملف .html أو .pdf لعرض النتائج بعد اكتمال التحليل. فاستك يدير العديد من التحليلات التي اختبار جوانب مختلفة من الملفات قراءة ( الشكل 3 ). 2. تقليم وجودة تصفية الخام يقرأ إلى العائد تسلسل جودة عالية ملاحظة: استخدام إما التطبيق تريوماتيك أو التطبيق المنجل. البحث عن التطبيق تريمموماتيك للبرمجة في دي وفتحه كما كان من قبل. تحميل مجلد الخام فاستق قراءة الملفات في قسم "إعدادات". حدد ما إذا كان سيكونسينغ الملفات هي واحدة أو المقترنة نهاية. استخدم ملف التحكم القياسي المقدم من خلال تحديد زر التصفح واللصق / إيبلانت / هوم / شاريد / Trinity_transdecoder_trinotate_databases في المربع "عرض:". حدد الملف المسمى Trimmomaticv0.33_control_file وإطلاق التحليل. الملف يمكن تحميلها، وإعدادات تحريرها، ومن ثم تحميلها في مجلد المشروع الثاني لإنشاء العرف التشذيب النصي. اختياري: إذا حدد تحليل فاستك متواليات محول، استخدم الإعداد إلوميناكليب لتقليم محولات إلومينا. حدد ملف المهايئ المناسب في المجلد / إيبلانت / هوم / شاريد / Trinity_transdecoder_trinotate_databases كما هو موضح أعلاه. جودة تقليم تسلسل يقرأ باستخدام المنجل. بحث وفتح التطبيق المنجل في دي. حدد يقرأ فاستق قلص كما يقرأ المدخلات، وإعادة تسمية ملفات الإخراج. تضمين إعدادات الجودة في الخيارات. الإعدادات النموذجية هي تنسيق الجودة: إلومينا، سانجر، سوليكسا؛ جودة tهريشولد: 20؛ الحد الأدنى للطول: 50. نقل كل الإخراج إلى مجلد قلصت وتصفيتها (2_High_Quality_Sequence). تقييم القراءة النهائية باستخدام فاستك ومقارنة تقارير فاستك السابقة. حدد ملف .html لعرض صفحة ويب من جميع النتائج. حدد مجلد ملفات الصور (.png) التي يتم توفيرها في الإخراج إذا تعذر عرض ذلك. 3. الجمعية نوفو ترانسكريبتوم باستخدام الثالوث في الغلاف الجوي افتح أحدث إصدار من مثيل أتموسفير عن طريق الانتقال إلى صفحة ويكي (https://wiki.cyverse.org/wiki/x/dgGtAQ). حدد الرابط للحصول على أحدث نسخة من صورة الثالوث وترينوتات. بدلا من ذلك، بحث "ترينوتات" في صورة الغلاف الجوي أداة البحث (https://atmo.iplantcollaborative.org/application/images) لإحضار جميع إصدارات الثالوث وترينوتات الصور. حدد زر "تسجيل الدخول لإطلاق" ثم قم بتسمية أتموسفير طnstance. حدد حجم مثيل إما "Medium3" (بو: 4، ميم: 32GB) أو "large3" (بو: 8، ميم: 64 غب). تشغيل المثيل، والانتظار حتى لبناء. في بعض الحالات النادرة يخضع سيفيرز للصيانة لتحديث المنصات. تتوفر الحالات الحالية أثناء هذه التحديثات، ولكن قد لا يكون من الممكن إنشاء مثيلات جديدة. انتقل إلى صفحة حالة سيفيرز للاطلاع على الحالة الحالية لأي منصة (http://status.cyverse.org/). افتح المثيل بمجرد أن يصبح جاهزا بالنقر على الاسم ثم تحديد "سطح المكتب البعيد" أسفل القائمة على اليسار. السماح جافا و فنك عارض إذا سئل. حدد زر "الاتصال" في إطار عارض فنك، ثم حدد "متابعة". سجل الدخول لفتح نافذة منفصلة ستكون مثيل الحوسبة السحابية الجديد. نقل قلصت و / أو تمت تصفيتها فاستق قراءة الملفات في مثيل باستخدام واحدة من الطرق الثلاث المذكورة في الخطوات 1.3.1 – 1.3.4. لناه متصفح الإنترنت للوصول إلى دي وتحميل الملفات تماما كما كان من قبل على الكمبيوتر المحلي. أو استخدام إكوماندس المثبتة على هذه الصور لنقل مجموعات كبيرة من البيانات بسرعة. تشغيل الثالوث لتجميع جودة عالية يقرأ. إعداد مجلد التحليل على مثيل أتموسفير. استخدم النص البرمجي المتوفر في دي (/ إيبلانت / هوم / شاريد / Trinity_transdecoder_trinotate_databases) أو انسخ والصق الأوامر من صفحة ويكي (https://wiki.cyverse.org/wiki/x/dgGtAQ). يمكن العثور على شرح جميع الأوامر في صفحة ويكي. مرة واحدة يتم إنشاء مجلد التحليل وقواعد البيانات ترينوتات، تشغيل المجمع الثالوث باستخدام الأوامر من أعلاه. هناك عدة ملفات الإخراج، ولكن الأهم هو ملف التجميع النهائي بعنوان "Trinity.fasta." إعادة تسمية هذا الملف فاستا لتكون فريدة من نوعها للكائن الحي والعلاج من يقرأ يقرأ قبل نقله إلى مخزن البيانات (المجلد 3_A التجمع) للحد من الارتباك المحتمل. ملاحظة: إخراج تحصي الجداول لتحليل التعبير الجيني التفاضلي في مجلد (4_Differential_Expression). تقييم التجمع باستخدام رناكوست ( الشكل 4 ). نقل ملفات الإخراج الثالوث إلى المجلد "3_Assembly" في دي وتسمية المجلد "A_Trinity_de_novo_assembly." إعطاء كل ترانسكريبتوم التي تم تجميعها مجلد فرعي داخل مجلد "A_Trinity_de_novo_assembly" مع أسماء فريدة من نوعها بما في ذلك الاسم العلمي للكائنات الحية والعلاجات المرتبطة بكل ترانسكريبتوم. إنشاء مجلد فرعي آخر يسمى "B_rnaQUAST_Output" في المجلد "3_Assembly". افتح التطبيق بعنوان "رناكواست 1.2.0 (دينوفو باسد)" واسم التحليل وحدد "B_rnaQUAST_Output" كمجلد الإخراج. إضافة ملف دي نوفو التجمع فاستا (ق) إلى قسم "إدخال البيانات". في قسم "إخراج البيانات"، اكتب اسما فريدا ل دي نوفو </em> التجمع. سيؤدي هذا إلى إنشاء مجلد من ملفات الإخراج رناكوست داخل المجلد "B_rnaQUAST_Output." حدد خيارات إضافية في قسم "جينيماركس-T جين بريديكتيون" و "بوسكو" و "باراميترز". حدد بروكاريوت في قسم "جينيماركس-T التنبؤ الجيني" إذا كان الكائن الحي ليس حقيقيات النواة. تشغيل بوسكو لتحديد زر الاستعراض ونسخ مسار إيبلانت / المنزل / المشتركة / إيبلانتكولابوراتيف / example_data / BUSCO.sample.data في المربع "عرض:" واضغط على إنتر. حدد مجلد بوسكو الأكثر تحديدا التي تتوفر للكائن الحي. ملاحظة: سوف بوسكو تقييم التجمع للجينات الأساسية النسب النسب، وإخراج ما هي النسبة المئوية للجينات الأساسية وجدت. هناك مجلدات عامة، مثل حقيقيات النوى، والأنواع أكثر تحديدا، على سبيل المثال أرثروبودا. البحث عن "فك ترميز" وتشغيل ترانزديكودر على دي نوفس الإخراج التجمع الثالوث ملف فاستا في بيئة الاكتشاف. نقل ملف .pep الإخراج إلى مجلد التجميع دي نوفو (3_A التجمع) لاستخدامها في الخطوة 5 التعليق التوضيحي. 4. بيرويز التعبير التفاضلي باستخدام DESeq2 في دي فتح التطبيق DESeq2 في دي كما هو موضح سابقا. اسم التحليل وحدد المجلد الإخراج كما 4_Differential_Expression. في قسم "الإدخالات"، حدد ملف جدول التهم من تشغيل تجميع ترينيتي والعمود الذي يمكن العثور على أسماء كونتيغ في جدول التعدادات هذا. أدخل رؤوس الأعمدة من ملف جدول بيانات التعداد لتحديد الأعمدة التي تمت مقارنتها. تضمين الفواصل بين كل من الشروط. لا تقم بتضمين رأس العمود الأول الذي يحتوي على أسماء كونتيغ. للمكررين، كرر نفس الاسم (على سبيل المثال ، treatment1rep1، treatment1rep2، treatment1rep3 سيصبح العلاج 1، العلاج 1، العلاج 1). في ثالسطر الثاني، قدم أسماء الشرطين المطلوب مقارنتهما (على سبيل المثال ، العلاج 1، العلاج 2). تطابق أسماء رؤوس الأعمدة المقدمة في السطر الأول. ملاحظة: يجب أن تكون رؤوس الأعمدة هذه أبجدية رقمية ولا يمكن أن تحتوي على أية أحرف خاصة. 5. الشرح باستخدام ترينوتات تشغيل كل جزء من ترينوتات في المثال الحوسبة السحابية الغلاف الجوي. ملاحظة: يتم توفير أوامر باش في ملف تكست ليتم نسخها ولصقها ثم تعديلها قبل التشغيل على دي (/ إيبلانت / هوم / شاريد / Trinity_transdecoder_trinotate_databases) أو على صفحة ويكي (https://wiki.cyverse.org/ ويكي / س / dgGtAQ). في حالة إضافة تعليقات توضيحية إلى مجموعات متعددة، قم بتعليم كل تجمع في المرة الواحدة ثم نقل ملفات التعليقات التوضيحية المكتملة مرة أخرى إلى المجلد "5_Annotation" لكل مجلد فريد يتوافق مع اسم التجميع. قم بتشغيل الأمر باش للبحث عن نصوص ترينيتي. تغيير عدد المواضيع لتتناسب مع عدد وحدات المعالجة المركزيةعلى سبيل المثال، أي المتوسطة لديها 4 وحدات المعالجة المركزية والكبيرة لديها 8 وحدات المعالجة المركزية. ارجع إلى الخطوة 3.1.2 لمزيد من التفاصيل. تغيير الأمر Trinity.fasta لمطابقة اسم ملف فاستا التجميع. ملاحظة: سوف بلاست + عمليات البحث تتطلب معظم الوقت. قد تكون أيام قبل اكتمالها. يمكن التحقق من نشاط الكمبيوتر سحابة في الغلاف الجوي دون الحاجة إلى إحضار فنك عارض. تشغيل الأمر باش للبحث عن البروتينات ترانزديكودر التنبؤ. كما كان من قبل، قم بتغيير عدد الخيوط واسم الملف لمطابقة الشروط في 5.2.1. قم بتشغيل الأمر باش ل همر وتغيير عدد مؤشرات الترابط كما هو موضح أعلاه. قم بتشغيل الأمر باش ل سيغنالب و تمهم إذا لزم الأمر. سوف سيغنالب التنبؤ الببتيدات إشارة و تمهم تتنبأ الزخارف البروتين الغشائي. تحميل النتائج في قاعدة بيانات سكليت وبمجرد الانتهاء من جميع التحليلات المذكورة أعلاه، قم بتشغيل الأمر باش لتحميل ملفات الإخراج إلى قاعدة بيانات التعليقات التوضيحية سكليت النهائي. أزل أي أوامرللتحليلات التي لم يتم تشغيلها. تصدير قاعدة بيانات سكليت إلى ملف .xls للعرض في المشاهدين الجدول شعبية.

Representative Results

مرة واحدة تم إنشاء ملفات تنظيم المشروع ( الشكل 1 و 2 )، المهمة الأولى في هذا سير العمل هو تقييم ملفات التسلسل الخام، ومن ثم لتنظيفها عن طريق تقليم وترشيح الجودة. سوف فاستق توليد إحصاءات ملخص للقراءة البشرية عن درجات الجودة وطول تسلسل من تنسيق ملف فاستق. ثم يتم مقارنة الأرقام فاستق قبل وبعد التشذيب لتقييم ما إذا كان النهائي يقرأ هي ذات جودة عالية، وبالتالي مناسبة للتجميع. "لكل جودة تسلسل قاعدة" يظهر متوسط ​​جودة يقرأ عبر كل زوج قاعدة التسلسل. فمن الأفضل أن يكون درجة جودة فريد فوق 20-28 المشار إليها من قبل الألوان على أرقام فاستق. "لكل درجة جودة تسلسل" يحدد ما إذا كان تصفية الجودة من يقرأ قد يكون ضروريا. إذا كان عدد كبير جدا من القراءة يكون متوسط ​​درجة أقل من 20-25 ثم قد يكون من الضروري تصفية استنادا إلى متوسط ​​جودة القراءة. "لكل محتوى تسلسل قاعدة" يجب أن تظهر التوزيع حتى عبر جميع القواعد النوكليوتيدات الأربعة. إذا كان هناك تحيز في محتوى النوكليوتيدات هو مبين، ثم قد تقليم نهايات ضرورية. "يجب أن يكون لكل محتوى قاعدة غ أيضا حتى في جميع المواقف.إذا كان هناك تمايل قد تحتاج إلى أن تقصأ كما هو الحال في 1.4.4.3" يجب أن يكون لكل محتوى تسلسل غ "التوزيع الطبيعي.المحول أو تفاعل البوليميراز سلسلة (ير ) يمكن أن تلوث المنتجات في مكتبة التسلسل و انحراف التوزيع الطبيعي، و في هذه الحالة، قد يكون محول التشذيب ضروريا. "توزيع طول التتابع" يعطي متوسط ​​أطوال جميع القراءات، و عادة ما يتم تصفيتها أقل من 35-45 زوجا قاعدة. وتظهر "مستويات الازدواجية التسلسلية" عدد المرات التي يتم فيها مشاهدة تسلسل قراءة معين داخل المكتبة، كما يتم تقديم تسلسل قراءة مكررة وتعداد مضاعف في قسم "متواليات تمثيلا مفرطا"، كما تحاول فاستق تحديد ما إذا كانت النسخ المكررةهي تسلسل محول أو متواليات معروفة أخرى مرتبطة بمنصات التسلسل. ويعني التسمية "لا ضرب" أنه ينبغي إجراء مزيد من التحقيق في التسلسل باستخدام نسبي بلاست 6 لتحديد ما إذا كان تسلسل ذي صلة بيولوجيا، أو ما إذا كان ينبغي إزالته. دي لديها أيضا عدة إصدارات من الانفجار المتاحة. التطبيق دي بلاستن متاح في: https://de.iplantcollaborative.org/de/؟type=apps&amp؛app-id=6f94cc92-6d28-45c6-aef1-036be697671d . بعد أن تم فحص تسلسل الخام لإنتاج قراءات عالية الجودة، والقراءات تحتاج إلى تجميعها لإنشاء متواليات متجاورة (كونتيغس). باختصار، يتم إنشاء التجميعات من خلال محاذاة كل تسلسل قصير يقرأ للعثور على متواليات مماثلة. وتعتبر مناطق تسلسل مماثل أكبر من طول معين لتكون سالي تسلسل لأن احتمال تسلسل مماثل يحدث عشوائيا من طول معين هو ما يقرب من الصفر. سوف ترينيتي إخراج ملفات السجل وملفات فاستا لكل خطوة في عملية التجميع. ومع ذلك، فإن الإخراج الأكثر أهمية هو ملف التجميع النهائي الذي يحتوي على كونتيغس، وهو المسمى "Trinity.fasta" وجدت في المجلد الرئيسي. هذا الملف يحتوي على كل من كونتيغس تجميعها، وفي حد ذاته ليست عمليا "للقراءة البشرية". لذلك، يمكن استخدام أداة رناكواست لفهم التجمع في أكثر عمقا. سوف أداة رناكاست إخراج الأرقام التي من شأنها أن تسمح للمستخدمين لمقارنة التجميعات لتحديد التي هي الأكثر اكتمالا ( الشكل 4 ). يمكن العثور على معلومات إضافية حول كل رقم من رناكواست على الويكي ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). إذا تم تشغيل بوسكو 7 ، ذات أهمية خاصة هو ملف specity.txt الذي يظهر عدد كاملة و pالجينات بوسو أرتيال وعدد من جينيماركس-T التنبؤات الجينية في التجمع. الجينات بوسكو هي مجموعات منسقة من الجينات المشتركة لمجموعة من الكائنات الحية. ويمكن استخدامها لتقييم مدى التقاط التجمع مجموعات من الجينات التي من المتوقع أن تكون موجودة في أي نوع معين من الكائنات الحية، والتي تقوم على النسلات النشوء. والتطبيق بوسكو مستقل هو متاح أيضا في دي ( https://de.iplantcollaborative.org/de/؟type=apps&amp؛app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). التحليل التفاضلي التعبير الجيني يحدد النصوص التي لديها أنماط مختلفة من التعبير عبر العلاجات من التهم البسيطة في الجداول نص تجميعها. يستخدم DESeq2 نموذجا خطيا معمما (غلم) لتحديد التباين من المتوسط ​​العادي. ويفضل إجراء التجارب مع النسخ المتماثل بحيث يكون الاختلاف الفني فرأوم يمكن أن تكون طبيعية من خلال خوارزمية DESeq2. تحليل Deseq2 ديغ يعطي أرقام وملف التقرير .html الذي يحتوي على كافة الأرقام الإخراج ووصف. بدلا من ذلك، إيدجير يمكن استخدامها بدلا من Deseq2، وسيتم إنشاء نفس التقرير .html مع تصورات إيدجر بدلا من ذلك. قد يرغب الباحثون في تشغيل كل من DESeq2 و إدجير للعثور على الجينات المعبر عنها تفاضليا التي تم تحديدها من قبل كل من الخوارزميات لأي تجربة معينة. سوف ترينوتات إنشاء ملف .xls الناتج التي يمكن فتحها في أي برنامج برنامج جداول البيانات. يمكن تحليل ملفات .txt ديغ والملف .xls التوضيح وتصور في العديد من التطبيقات المصب التي توجد خارج منصة سيفيرز. الشكل 3: تقارير فاستقك من تسلسل الخام قراءة، قلص يقرأ، والقصص النهائي وقصير تصفيتها. مقارنة منهجية للتسلسل قراءةs بعد كل خطوة ما قبل المعالجة. جودة عالية يقرأ ضرورية لتجميع دي نوفو ترانسكريبتوميس. فاستق يمكن أن تساعد الباحثين على فهم الجودة الأولية للبيانات التسلسل الخاصة بهم، وتتبع مدى كفاءة تم قراءتها تم تجهيزها مسبقا. النتائج من فاستق تعتمد على الكائنات الحية والعينات يجري تسلسلها، ولكن التوحيد في جميع العينات التي سيتم مقارنتها المصب هو الهدف الأساسي من مرحلة ما قبل المعالجة يقرأ. فيديو تعليمي والوثائق متاحة من الكتاب والمطورين من فاستك. الرجاء انقر هنا لعرض نسخة أكبر من هذا الرقم. الشكل 4: تقارير عن ثلاث جمعيات منفصلة. يمكن استخدام رناكاست لمقارنة تجميعات متعددة قراءة باستخدام نفس المجمع، أو متعددة أ سيمبلرز باستخدام نفس الأولية يقرأ. رناكاست يستفيد بوسكو لتوليد إحصاءات موجزة عن التجميعات على أساس الجينات الأساسية المعروفة الموجودة في الصفوف التصنيفية. عدد عدم التطابق في النص وعدد النصوص تتطابق مع الجينات الكنسي، الكسر المتطابقة، وتوفير نظرة ثاقبة دقة المجمعين. وتقدم أحدث أربع مجموعات فرعية هنا إحصاءات موجزة طول كونتيغ و إسوفورم وتغطية الأشكال الإسوية المتوقعة. يمثل ناكس النسبة المئوية (x) من كونتيغس بطول أطول من الطول (بب) على المحور y. الجزء المجمع هو أطول نسخة مجمعة واحدة مقسومة على طولها. الكسر المغطى هو النسبة المئوية للنصوص المجمعة الكاملة / الأشكال الإسوية كما هو متوقع من قبل الجينات النواة بدائية النواة أو حقيقية النواة من بوسكو. يتوفر وصف لجميع الرسوم البيانية التي تم إنشاؤها بواسطة رناكاست ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "تارجيت =" _ بلانك "> الرجاء انقر هنا لعرض نسخة أكبر من هذا الرقم. اسم التطبيق منصة سيفيرز وثائق الجهات الخارجية وثائق سيفيرز وقت التشغيل المقدر لمجموعة بيانات العينة رابط إلى التطبيق FastQC DE HTTP: //www.bioinformatics. babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch؟v=bz93ReOv87Y https://wiki.cyverse.org/wiki/pages/viewpage.action؟pageId=9316768 15 دقيقة الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 112b9aa8-c4a7-11e5-8209- 5f3310948295 تريمموماتيك v0.33 DE https://github.com/timflutre/trimmomatic https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33 30 دقيقة الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 9c2a30dc-028d- 11e6-a915-ab4311791e69 منجل DE https://github.com/najoshi/sickle https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 دقيقة الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 68b278f8-d4d6-414d-9a64-b685a7714f7c ثالوث الغلاف الجوي https://github.com/trinityrnaseq/trinityrnaseq/wiki الشبكي: //pods.iplantcollaborative. غزاله / ويكي / عرض / atmman / الثالوث + – + Trinotate + جو + صورة أسبوع 1 الشبكي: //atmo.iplantcollaborative. غزاله / التطبيق / الصور / 1261 DE https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 أيام HTTPS: // ويكi.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 رناكاست v1.2.0 دي، الجو http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html الشبكي: //pods.iplantcollaborative. غزاله / ويكي / عرض / توت / rnaQUAST + 1.2.0 +٪ 28denovo +٪ على أساس 29 + باستخدام + DE 30 دقيقة الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 980dd11a-1666- 11e6-9122-930 ba8f23352 Transdecoder DE https://transdecoder.github.io https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 ساعات الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE https://bioconductor.org/packages/release/bioc/html/DESeq2.html الشبكي: //pods.iplantcollaborative. غزاله / ويكي / صفحة /viewpage.action؟ PAGEID = 28115142 2-3 ساعات الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 المقلم DE https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://wiki.cyverse.org/wiki/pages/viewpage.action؟pageId=28115144 2-3 ساعات الشبكي: //de.iplantcollaborative. غزاله / دي /؟ = نوع التطبيقات والتطبيق معرف = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 Trinotate الغلاف الجوي https://trinotate.github.io/ الشبكي: //pods.iplantcollaborative. غزاله / ويكي / عرض / atmman / الثالوث + – + Trinotate + جو + صورة أسبوع 1 الشبكي: //atmo.iplantcollaborative. غزاله / التطبيق / الصور / 1261 الجدول 1: برامج التحليل، المنصات المتاحة على، أند موارد إضافية متاحة لسير العمل في الترتيب من قبل المظهر الأول. جميع إصدارات الحزمة الحالية اعتبارا من أبريل 2016.

Discussion

هناك خمس خطوات حاسمة في البروتوكول الذي سيتم إنشاء كل مجلد منفصل داخل المجلد الرئيسي للمشروع ( الشكلان 1 و 2 ). جميع بيانات التسلسل الخام الأولية هي مقدسة: يجب تحميلها والاحتفاظ بها في المجلد الأول المسمى "1_Raw_Sequence" ولا يتم تغييرها بأي شكل من الأشكال. يمكن تحميل البيانات في واحدة من ثلاث طرق. يمكن استخدام واجهة دي لتحميل الملفات مباشرة. هذه هي أسهل طريقة لتحميل البيانات، ولكن أيضا سوف يستغرق أطول لنقل. سيبيردوك لديه واجهة رسومية ويسمح للمستخدمين لسحب وإسقاط الملفات لنقلها إلى دي. إكوماندس هو أداة سطر الأوامر التي يمكن استخدامها لنقل البيانات من وإلى مخزن البيانات، وجعل الدلائل وإدارة مجموعات البيانات، ومن المرجح أن أسرع وسيلة لنقل ملفات البيانات. يمكن مشاركة جميع البيانات في مخزن البيانات مع مستخدمين آخرين سيفيرز (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discoveري + إنفيرونمنت)، والتي يتم نشرها بشكل عام من خلال عنوان ورل الذي تم إنشاؤه (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)، أو يمكن استضافتها بشكل عام ومجهول ( أي اسم مستخدم مطلوب) بيانات المجتمع المتاحة (http://data.iplantcollaborative.org؛ http://mirrors.cyverse.org). داخل هذا المجلد، يتم تحليل تسلسل الخام يقرأ مع فاستق (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) لتقييم كيفية تقليم وتصفية يقرأ لتوليد يقرأ جودة عالية. بعد التشذيب وجودة تصفية فمن المفيد لمقارنة مخرجات فاستك لتحديد ما إذا كان قد تغيرت جودة القراءة لتحديد أنه قد حصلت على أفضل دون فقدان المعلومات ( الشكل 3 ). لاحظ أن المحور س من فاستق ليست خطية، ولكن يتم تثبيته بدلا من العديد من الرسوم البيانية الإخراج، والتي قد تؤدي إلى سوء تفسير النتائج. ثم يتم استخدام القراءات المقلمة والمصفاة لتجميع ترانسكريبتوميس دي نوفو باستخدام مثيل الحوسبة السحابية أتموسفير. هذهيستخدم الكمبيوتر سحابة شاشة الكمبيوتر المحلية، لوحة المفاتيح، والفأرة، ولكن لديها برنامجها الخاص (الثالوث وترينوتات) والأجهزة المثبتة. لن يؤثر تشغيل البرامج على مثيل الكمبيوتر على الكمبيوتر المحلي بأي شكل من الأشكال. وتجدر الإشارة إلى أن تجميع دي نوفو والتعليق التوضيحي المصاحب سيكونان على الأرجح أطول خطوتين جارتين في سير العمل هذا. ولذلك، يتم الانتهاء من ذلك على الغلاف الجوي لتجنب المشتركة المشتركة في المختبر مشاكل الكمبيوتر التي من شأنها أن تقطع التحليل مثل انقطاع التيار الكهربائي، إعادة تشغيل بعد وقت متأخر من الليل التحديثات التلقائية، أو حوادث الناجمة عن المستخدمين الآخرين. يستخدم ترينوتات الشرح بلاست + 8 ، همر 9 ، تمهم 10 ، و بفام 11 . الناتج النهائي من الشرح هو قاعدة بيانات سكليت وملف .xls. ويمكن استخدام النواتج خارج سيفيرز في منصات التحليل المصب مثل كيغ 12 ، 13 .

سير العمل هذاهو على استعداد لاستخدامها في دي والغلاف الجوي. هذا يلغي الحاجة لقضاء بعض الوقت في تركيب وتكوين واستكشاف الأخطاء وإصلاحها كل حزمة تحليل وجميع التبعيات كل أداة يتطلب. هذا يبسط تحليلات الباحثين، ويقلل من الجهد الضائع، ويخفض حاجز الدخول لكثير من العلماء. ويجمع هذا المسار على وجه التحديد إما نهاية واحدة أو مقترنة نهاية من منصة التسلسل إلومينا، ولكن توجد العديد من الأدوات في دي والغلاف الجوي للتعامل مع أنواع أخرى من تقنيات التسلسل. أدوات في هذا العمل يمكن استبدالها بسهولة مع أداة بديلة المقابلة للتعامل مع أي نوع من تكنولوجيا التسلسل واردة. وهذا ينطبق أيضا على الإصدارات الجديدة من أدوات التحليل أو أدوات جديدة تماما.

تم تصميم سير العمل هذا خصيصا لتجميع ومقارنة والتعليق فقط عدد قليل من ترانسكريبتوميس في كل مرة. لذلك، قد يجد المستخدمون أنه يستغرق وقتا طويلا لتجميع ترانسكريبتوميس متعددة لعلم الوراثة السكان المقارن. تحليلستكون خطوط الأنابيب متاحة لمستخدمي علم الوراثة السكاني في المستقبل القريب، ويمكن العثور على الرابط إلى خط الأنابيب في صفحة ويكي (https://wiki.cyverse.org/wiki/x/dgGtAQ). يمكن أن تحلل خطوة تحليل التعبير الجيني التفاضلي المكررات، ولكنها مقارنة بين الزوجين ولن تقيم بدقة عوامل متعددة (على سبيل المثال ، الظروف التي تتغير بمرور الوقت، أكثر من معالجتين). توجد سير العمل الآلي للكائنات الحية مع الجينومات المرجعية (على سبيل المثال ، ترابلين 14 ). في حين أن سير العمل الآلي هي أسهل للاستخدام للمبتدئين، دي نوفو الجمعيات تتطلب التقييم والنظر لكل خطوة المبينة هنا. بالإضافة إلى ذلك، يطلب من المستخدمين استخدام خطوط الأنابيب الآلية كما يتم بناؤها، وبالتالي فهي بطبيعتها غير مرنة لتلبية الاحتياجات المتغيرة للمستخدمين.

كما يتم تنفيذ معظم هذا البروتوكول خارج الإنترنت، قد تواجه المستخدمين مشاكل مع إعدادات المتصفح الخاصة بهم. أولا،قد حاصرات المنبثقة الحفاظ على النوافذ من فتح على الإطلاق، أو قد تبقي النوافذ من فتح حتى يتم إعطاء إذن سيفيرز في المتصفح. يستخدم الغلاف الجوي فنك للوصول إلى سطح المكتب البعيد، ولكن يمكن استخدام برامج أخرى. تم تنفيذ هذا البروتوكول بأكمله في فايرفوكس الإصدار 45.0.2، وينبغي أن تعمل مع جميع متصفحات الإنترنت شعبية، ولكن قد تظهر بعض التناقضات. سيتم تحديث سير العمل كما ترينيتي الإصدارات الإصدارات الجديدة (https://github.com/trinityrnaseq/trinityrnaseq/wiki). يمكن العثور على أحدث الإصدارات ومعلومات محدثة حول سير العمل على صفحة البرنامج التعليمي ويكي ( الجدول 1 ، https://wiki.cyverse.org/wiki/x/dgGtAQ). يمكن للمستخدمين الاتصال بالدعم مباشرة أو نشر الأسئلة في أسك سيفيرز (ask.cyverse.org/) لاستكشاف أي مشاكل مع سير العمل.

في دي العديد من التطبيقات موجودة لإنجاز كل خطوة من هذا البروتوكول. على سبيل المثال، قد يرغب المستخدمون في تشغيل المنجل (https://github.com/najoshi/sickle) بدلا من تريمموماتيك15 لقراءة التشذيب أو تشغيل إيدجر 16 بدلا من ديزق 17 ، 18 . على الرغم من أنه خارج نطاق هذه المخطوطة، يمكن نسخ تطبيقات دي وتحريرها وإصدارها من قبل المستخدمين (https://wiki.cyverse.org/wiki/display/DEmanual/Creating،+Copying،+and+Editing+DE+ تطبيقات) أو تطبيقات جديدة يمكن أن تضاف من قبل المستخدمين (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). ويمكن أيضا تعديل صور أتموسفير وإعادة تصميمها لإنشاء سير عمل جديدة أو معدلة تتطابق مع احتياجات المستخدمين بشكل أكثر تحديدا (https://wiki.cyverse.org/wiki/x/TwHX). هذا العمل بمثابة مقدمة لاستخدام سطر الأوامر لنقل البيانات وتنفيذ التحليلات. يمكن للمستخدمين النظر في استخدام موارد سطر الأوامر أكثر تقدما مثل واجهات برمجة التطبيقات سيفيرز (أبيس) (http://www.cyverse.org/science-apis)، أو تصميم تطبيقات دي الخاصة بهم، والتي تتطلب المعرفةحول كيفية تشغيل أداة التحليل على سطر الأوامر (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video