This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
يسمح هذا العمل للباحثين المبتدئين بالاستفادة من الموارد الحسابية المتقدمة مثل الحوسبة السحابية لتنفيذ النسخ النسبي المقارن بين الزوجين. كما أنها بمثابة التمهيدي لعلماء الأحياء لتطوير المهارات الحسابية عالم البيانات، على سبيل المثال تنفيذ أوامر باش والتصور وإدارة مجموعات البيانات الكبيرة. يمكن العثور على كل رمز سطر الأوامر وتفسيرات إضافية لكل أمر أو خطوة على ويكي ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). ترتبط بيئة ديسكفري والغلاف الجوي معا من خلال مخزن البيانات سيفيرز. وعلى هذا النحو، وبمجرد أن يتم تحميل البيانات الأولية تسلسل الخام ليس هناك حاجة أكثر لنقل ملفات البيانات الكبيرة عبر اتصال بالإنترنت، والتقليل من مقدار الوقت اللازم لإجراء التحليلات. تم تصميم هذا البروتوكول لتحليل اثنين فقط من العلاجات التجريبية أو الشروط. يتم إجراء تحليل التعبير الجيني التفاضليالمقارنات الزوجية، ولن تكون مناسبة لاختبار عوامل متعددة. تم تصميم سير العمل هذا ليكون دليل بدلا من الآلي. يجب أن يتم تنفيذ كل خطوة والتحقيق من قبل المستخدم، مما يؤدي إلى فهم أفضل للبيانات والنواتج التحليلية، وبالتالي نتائج أفضل للمستخدم. مرة واحدة كاملة، وهذا البروتوكول ينتج دي نوفو تجميعها ترانسكريبتوم (ق) للكائنات المحرومة (غير نموذجية) دون الحاجة إلى خريطة لالجينومات المرجعية تجميعها سابقا (والتي عادة ما تكون غير متوفرة في الكائن الحي المحرومة). وتستخدم هذه ترانسكريبتوميس دي نوفو أيضا في تحليل التفاضلية التعبير الجيني الزوجي للتحقيق في الجينات تختلف بين اثنين من الظروف التجريبية. الجينات التي تم التعبير عنها تفاضليا ثم مشروح وظيفيا لفهم الكائنات الاستجابة الوراثية لديها لظروف تجريبية. في المجموع، وتستخدم البيانات المستمدة من هذا البروتوكول لاختبار الفرضيات حول الاستجابات البيولوجية للكائنات المحرومة.
سابينز الإنسان والعديد من الأنواع الحيوانية نموذج رئيسي مثل ذبابة الفاكهة ميلانوغاستر ، موس موسولوس ، و دانيو ريريو تمثل غالبية العمل الجينوم وظيفية الحالية والماضية. ومع ذلك، فإن التكلفة المتناقصة بسرعة لتكنولوجيا التسلسل عالية الإنتاجية توفر فرصا لعلم الجينوم الوظيفي في غير نموذجية ( ويعرف أيضا باسم "المهملة" أو "المحرومة") الأنواع الحيوانية 1 . ويعد هذا انتقالا هاما في علم الجينوم، حيث إن الكائنات غير النموذجية كثيرا ما تمثل الأنواع ذات الصلة اقتصاديا ( مثل المحار والروبيان وسرطان البحر)، وتوفر فرصا للتحقيق في الأنماط الظاهرية الجديدة والأنظمة البيولوجية خارج نطاق الأنواع الموجودة في الأنواع النموذجية.
وعلى الرغم من أن الكائنات الحية المحرومة توفر فرصة جذابة للتحقيق في النظم البيولوجية الفريدة، فإن العديد من التحديات تواجه الباحثين خاصة أثناء التحليل الحيوي للمعلومات. قليلا من الفإن تحديات أخرى هي فطرية لمعالجة مجموعات كبيرة من البيانات، في حين أن البعض الآخر ينجم عن نقص الموارد الوراثية المتاحة للباحثين العاملين في الكائنات المحرومة مثل الجينوم المرجعي والكائنات الحية المحددة، وما إلى ذلك . وغالبا ما تكون تحديات عزل الحمض النووي وتسلسله روتينية في مقارنة مع تلك الخاصة بتحليل البيانات، ومن ثم فإن التحليلات المتعلقة بالمعلومات الأحيائية على هذا النحو تثبت بوجه عام أنها أكثر التكاليف تقصيرا في تقدير تسلسل المشاريع 2 . على سبيل المثال، قد يتكون التحليل الأساسي للمعلومات التسلسلية من الجيل التالي من الخطوات التالية: تصفية الجودة وتقليم التسلسل الخام للقراءة، وتجميع القراءات القصيرة إلى قطع أكبر متجاورة، والتعليقات التوضيحية و / أو المقارنات مع الأنظمة الأخرى للحصول على الفهم البيولوجي. وعلى الرغم من أنه يبدو بسيطا، فإن سير العمل في هذا المثال يتطلب معرفة متخصصة وموارد حسابية خارج نطاق جهاز كمبيوتر للمقاعد، مما يجعله بعيدا عن متناول العديد من العلماء الذين يدرسون غير المقيدين،الكائنات الحية.
ويمكن أن تكون التحديات الفطرية قائمة على البنية التحتية أو المعرفة. التحدي البنيوي التقليدي هو الوصول إلى الموارد الحسابية المناسبة. على سبيل المثال، يعتمد التجميع والتعليق التوضيحي على خوارزميات مكثفة حسابيا تتطلب أجهزة كمبيوتر قوية أو مجموعات كمبيوتر، مع وجود كمية كبيرة من ذاكرة الوصول العشوائي (256 جيجابايت – 1 تيرابايت) والعديد من المعالجات / النوى لتشغيلها. ولسوء الحظ، فإن العديد من الباحثين إما لا يستطيعون الوصول إلى هذه الموارد الحاسوبية أو ليس لديهم المعرفة اللازمة للتفاعل مع هذه الأنظمة. ويمكن للباحثين الآخرين الوصول إلى مجموعات الحوسبة عالية الأداء من خلال الجامعات أو المؤسسات، ولكن الوصول إلى هذه الموارد قد تكون محدودة وأحيانا يؤدي إلى رسوم لكل ساعة حساب، أي عدد معالجات وحدة المعالجة المركزية مضروبا في عدد من الوقت الحقيقي "على مدار الساعة ساعات "أن تلك المعالجات قيد التشغيل. الاستفادة من نظام البنية التحتية السيبرانية الممولة من قبل مؤسسة العلوم الوطنية الأمريكية sأوش كما سيفيرز 3 التي توفر حرية الوصول إلى حساب الموارد للباحثين، في الولايات المتحدة وحول العالم، يمكن أن تساعد في تخفيف التحديات البنية التحتية، كما سيتبين هنا.
مثال على التحدي المعرفي القائم على المعرفة هو فهم البرمجيات اللازمة للتحليلات الكاملة. من أجل إجراء مشروع قائم على التسلسل بشكل فعال، يحتاج الباحثون إلى أن يكونوا على دراية بعدد لا يحصى من أدوات البرمجيات التي تم تطويرها لتحليلات المعلوماتية الحيوية. تعلم كل حزمة من الصعب في حد ذاته، ولكن يتفاقم من حقيقة أن حزم يتم باستمرار ترقية، وإطلاق سراح، وضعت معا في سير العمل الجديدة، وأحيانا تصبح مقيدة للاستخدام بموجب تراخيص جديدة. وبالإضافة إلى ذلك، ربط مدخلات ومخرجات هذه الأدوات في بعض الأحيان يتطلب تحويل أنواع البيانات لجعلها متوافقة، إضافة أداة أخرى لسير العمل. وأخيرا، فإنه من الصعب أيضا أن تعرف أي حزمة البرامج هو 'ثه أفضل "لتحليل، وكثيرا ما تحديد أفضل البرامج لظروف تجريبية معينة هي مسألة من الفروق الدقيقة. في بعض الحالات، تتوفر مراجعات مفيدة للبرامج، ولكن نظرا لاستمرار الإفراج عن التحديثات الجديدة وخيارات البرامج، تصبح هذه التحديثات قديمة.
بالنسبة للباحثين الباحثين عن الكائنات الحية المحرومة، تأتي هذه التحديات الفطرية بالإضافة إلى التحديات المرتبطة بتحليل البيانات في كائن حي جديد. هذه التحديات الخاصة بالكائنات الحية المحرومة هي الأفضل توضحا خلال الشرح الجيني. على سبيل المثال، الكائنات الحية المحرومة في كثير من الأحيان ليس لديها كائن نموذج وثيق الصلة التي يمكن استخدامها بشكل معقول لتحديد الجينات تقويم العظام وظيفة (على سبيل المثال اللافقاريات البحرية و ذبابة الفاكهة ). كما تتطلب العديد من األدوات اإلشرافية الحيوية "تدريبا" لتحديد العناصر الهيكلية التي يمكن استخدامها لتحديد وظيفة الجينات. ومع ذلك، عادة ما تكون بيانات التدريب متاحة فقط لوزارة الدفاعوالكائنات الحية الدقيقة، وتدريب نماذج ماركوف خفية (همز) هو خارج نطاق علماء الأحياء، وحتى العديد من المعلوماتية الحيوية. وأخيرا، حتى لو كان يمكن تنفيذ الشروح باستخدام بيانات من الكائنات الحية النموذجية، فإن بعض علم الجينات المرتبطة بالكائنات الحية النموذجية لا يكون منطقيا عندما يتم النظر في البيولوجيا والتاريخ الطبيعي للكائن المحروم ( مثل نقل المعلومات من ذبابة الفاكهة إلى الروبيان).
وفي ضوء هذه التحديات، يلزم تطوير موارد المعلوماتية الأحيائية مع قيام الباحثين بإجراء تحليلات جديدة بشأن الكائنات الحية المحرومة من الخدمات. وستساعد السنوات العديدة القادمة من مشاريع التسلسل الجينومي الوظيفي على سد الفجوة بين الكائنات الحية التي تفتقر إلى الخدمات والكفاءة ( https://genome10k.soe.ucsc.edu/ )، ولكن هناك العديد من الأدوات التي ستحتاج إلى تطويرها للتصدي للتحديات التي سبق النظر فيها. وتكرس سيفيرز لخلق النظم الإيكولوجية من طمن خلال ربط البنية التحتية السيبرانية الحالية وتطبيقات الطرف الثالث لتقديم إدارة البيانات، وأدوات تحليل المعلوماتية الحيوية، وتصورات البيانات لعلماء الحياة. وتساعد قابلية التشغيل البيني على تسهيل عمليات الانتقال بين التطبيقات والمنصات الحيوية للمعلومات عن طريق توفير موارد حاسوبية قابلة للتطوير، والحد من تحويلات ملفات الملفات وكمية البيانات المنقولة بين المنصات. يوفر سيفيرز العديد من المنصات، بما في ذلك ديسكفري إنفيرونمنت (دي 4 ، أتموسفير 5 ، و داتا ستور 3. و دي هو على شبكة الإنترنت ويحتوي على العديد من أدوات التحليل المعلوماتية الحيوية المشتركة تحويلها إلى تنسيقات نقطة والنقر سهلة الاستخدام (وتسمى "تطبيقات ")، وهي واجهة المستخدم الرسومية (غوي) لمخازن البيانات حيث يتم تخزين وإدارة مجموعات كبيرة من البيانات ( أي التسلسل الخام للقراءة، الجينومات المجمعة)، والغلاف الجوي هو خدمة الحوسبة السحابية التي توفر للباحثين مرونة متزايدةوذلك باستخدام الموارد الحسابية الجهاز الظاهري، والتي لديها مجموعة واسعة من أدوات المعلوماتية الحيوية مثبتة مسبقا. ويرتبط كل من هذه المنصات إلى مخزن البيانات، ويمكن استخدامها معا لإنشاء سير العمل مثل تلك الموضحة هنا. ويركز هذا التقرير على مجموعة ترانسكريبتوم دي نوفو وسير عمل تحليل التعبير الجيني التفاضلي، ويتناول كذلك بعض أفضل الممارسات المرتبطة بتطوير وإجراء التحاليل المعلوماتية الحيوية. وشرح للبعثة الأوسع نطاقا من سيفيرز ( http://www.cyverse.org/about ) وأوصاف منصة مفصلة ( http://www.cyverse.org/learning-center ) متاحة للجمهور. جميع التحليلات الموصوفة هنا تستخدم بيئة الاكتشاف 4 (دي) والغلاف الجوي 5 ، وتقدم بطريقة تجعلها متاحة للباحثين من جميع المستويات الحسابية. دي سير العمل و أتموسفيمكن الرجوع إلى الصور مباشرة باستخدام عناوين المواقع لضمان المدى الطويل، وإعادة الاستخدام، واستنساخ.
هناك خمس خطوات حاسمة في البروتوكول الذي سيتم إنشاء كل مجلد منفصل داخل المجلد الرئيسي للمشروع ( الشكلان 1 و 2 ). جميع بيانات التسلسل الخام الأولية هي مقدسة: يجب تحميلها والاحتفاظ بها في المجلد الأول المسمى "1_Raw_Sequence" ولا يتم تغييرها بأي شكل من الأشكال. يمكن تحميل البيانات في واحدة من ثلاث طرق. يمكن استخدام واجهة دي لتحميل الملفات مباشرة. هذه هي أسهل طريقة لتحميل البيانات، ولكن أيضا سوف يستغرق أطول لنقل. سيبيردوك لديه واجهة رسومية ويسمح للمستخدمين لسحب وإسقاط الملفات لنقلها إلى دي. إكوماندس هو أداة سطر الأوامر التي يمكن استخدامها لنقل البيانات من وإلى مخزن البيانات، وجعل الدلائل وإدارة مجموعات البيانات، ومن المرجح أن أسرع وسيلة لنقل ملفات البيانات. يمكن مشاركة جميع البيانات في مخزن البيانات مع مستخدمين آخرين سيفيرز (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discoveري + إنفيرونمنت)، والتي يتم نشرها بشكل عام من خلال عنوان ورل الذي تم إنشاؤه (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)، أو يمكن استضافتها بشكل عام ومجهول ( أي اسم مستخدم مطلوب) بيانات المجتمع المتاحة (http://data.iplantcollaborative.org؛ http://mirrors.cyverse.org). داخل هذا المجلد، يتم تحليل تسلسل الخام يقرأ مع فاستق (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) لتقييم كيفية تقليم وتصفية يقرأ لتوليد يقرأ جودة عالية. بعد التشذيب وجودة تصفية فمن المفيد لمقارنة مخرجات فاستك لتحديد ما إذا كان قد تغيرت جودة القراءة لتحديد أنه قد حصلت على أفضل دون فقدان المعلومات ( الشكل 3 ). لاحظ أن المحور س من فاستق ليست خطية، ولكن يتم تثبيته بدلا من العديد من الرسوم البيانية الإخراج، والتي قد تؤدي إلى سوء تفسير النتائج. ثم يتم استخدام القراءات المقلمة والمصفاة لتجميع ترانسكريبتوميس دي نوفو باستخدام مثيل الحوسبة السحابية أتموسفير. هذهيستخدم الكمبيوتر سحابة شاشة الكمبيوتر المحلية، لوحة المفاتيح، والفأرة، ولكن لديها برنامجها الخاص (الثالوث وترينوتات) والأجهزة المثبتة. لن يؤثر تشغيل البرامج على مثيل الكمبيوتر على الكمبيوتر المحلي بأي شكل من الأشكال. وتجدر الإشارة إلى أن تجميع دي نوفو والتعليق التوضيحي المصاحب سيكونان على الأرجح أطول خطوتين جارتين في سير العمل هذا. ولذلك، يتم الانتهاء من ذلك على الغلاف الجوي لتجنب المشتركة المشتركة في المختبر مشاكل الكمبيوتر التي من شأنها أن تقطع التحليل مثل انقطاع التيار الكهربائي، إعادة تشغيل بعد وقت متأخر من الليل التحديثات التلقائية، أو حوادث الناجمة عن المستخدمين الآخرين. يستخدم ترينوتات الشرح بلاست + 8 ، همر 9 ، تمهم 10 ، و بفام 11 . الناتج النهائي من الشرح هو قاعدة بيانات سكليت وملف .xls. ويمكن استخدام النواتج خارج سيفيرز في منصات التحليل المصب مثل كيغ 12 ، 13 .
سير العمل هذاهو على استعداد لاستخدامها في دي والغلاف الجوي. هذا يلغي الحاجة لقضاء بعض الوقت في تركيب وتكوين واستكشاف الأخطاء وإصلاحها كل حزمة تحليل وجميع التبعيات كل أداة يتطلب. هذا يبسط تحليلات الباحثين، ويقلل من الجهد الضائع، ويخفض حاجز الدخول لكثير من العلماء. ويجمع هذا المسار على وجه التحديد إما نهاية واحدة أو مقترنة نهاية من منصة التسلسل إلومينا، ولكن توجد العديد من الأدوات في دي والغلاف الجوي للتعامل مع أنواع أخرى من تقنيات التسلسل. أدوات في هذا العمل يمكن استبدالها بسهولة مع أداة بديلة المقابلة للتعامل مع أي نوع من تكنولوجيا التسلسل واردة. وهذا ينطبق أيضا على الإصدارات الجديدة من أدوات التحليل أو أدوات جديدة تماما.
تم تصميم سير العمل هذا خصيصا لتجميع ومقارنة والتعليق فقط عدد قليل من ترانسكريبتوميس في كل مرة. لذلك، قد يجد المستخدمون أنه يستغرق وقتا طويلا لتجميع ترانسكريبتوميس متعددة لعلم الوراثة السكان المقارن. تحليلستكون خطوط الأنابيب متاحة لمستخدمي علم الوراثة السكاني في المستقبل القريب، ويمكن العثور على الرابط إلى خط الأنابيب في صفحة ويكي (https://wiki.cyverse.org/wiki/x/dgGtAQ). يمكن أن تحلل خطوة تحليل التعبير الجيني التفاضلي المكررات، ولكنها مقارنة بين الزوجين ولن تقيم بدقة عوامل متعددة (على سبيل المثال ، الظروف التي تتغير بمرور الوقت، أكثر من معالجتين). توجد سير العمل الآلي للكائنات الحية مع الجينومات المرجعية (على سبيل المثال ، ترابلين 14 ). في حين أن سير العمل الآلي هي أسهل للاستخدام للمبتدئين، دي نوفو الجمعيات تتطلب التقييم والنظر لكل خطوة المبينة هنا. بالإضافة إلى ذلك، يطلب من المستخدمين استخدام خطوط الأنابيب الآلية كما يتم بناؤها، وبالتالي فهي بطبيعتها غير مرنة لتلبية الاحتياجات المتغيرة للمستخدمين.
كما يتم تنفيذ معظم هذا البروتوكول خارج الإنترنت، قد تواجه المستخدمين مشاكل مع إعدادات المتصفح الخاصة بهم. أولا،قد حاصرات المنبثقة الحفاظ على النوافذ من فتح على الإطلاق، أو قد تبقي النوافذ من فتح حتى يتم إعطاء إذن سيفيرز في المتصفح. يستخدم الغلاف الجوي فنك للوصول إلى سطح المكتب البعيد، ولكن يمكن استخدام برامج أخرى. تم تنفيذ هذا البروتوكول بأكمله في فايرفوكس الإصدار 45.0.2، وينبغي أن تعمل مع جميع متصفحات الإنترنت شعبية، ولكن قد تظهر بعض التناقضات. سيتم تحديث سير العمل كما ترينيتي الإصدارات الإصدارات الجديدة (https://github.com/trinityrnaseq/trinityrnaseq/wiki). يمكن العثور على أحدث الإصدارات ومعلومات محدثة حول سير العمل على صفحة البرنامج التعليمي ويكي ( الجدول 1 ، https://wiki.cyverse.org/wiki/x/dgGtAQ). يمكن للمستخدمين الاتصال بالدعم مباشرة أو نشر الأسئلة في أسك سيفيرز (ask.cyverse.org/) لاستكشاف أي مشاكل مع سير العمل.
في دي العديد من التطبيقات موجودة لإنجاز كل خطوة من هذا البروتوكول. على سبيل المثال، قد يرغب المستخدمون في تشغيل المنجل (https://github.com/najoshi/sickle) بدلا من تريمموماتيك15 لقراءة التشذيب أو تشغيل إيدجر 16 بدلا من ديزق 17 ، 18 . على الرغم من أنه خارج نطاق هذه المخطوطة، يمكن نسخ تطبيقات دي وتحريرها وإصدارها من قبل المستخدمين (https://wiki.cyverse.org/wiki/display/DEmanual/Creating،+Copying،+and+Editing+DE+ تطبيقات) أو تطبيقات جديدة يمكن أن تضاف من قبل المستخدمين (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). ويمكن أيضا تعديل صور أتموسفير وإعادة تصميمها لإنشاء سير عمل جديدة أو معدلة تتطابق مع احتياجات المستخدمين بشكل أكثر تحديدا (https://wiki.cyverse.org/wiki/x/TwHX). هذا العمل بمثابة مقدمة لاستخدام سطر الأوامر لنقل البيانات وتنفيذ التحليلات. يمكن للمستخدمين النظر في استخدام موارد سطر الأوامر أكثر تقدما مثل واجهات برمجة التطبيقات سيفيرز (أبيس) (http://www.cyverse.org/science-apis)، أو تصميم تطبيقات دي الخاصة بهم، والتي تتطلب المعرفةحول كيفية تشغيل أداة التحليل على سطر الأوامر (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |