DiCoExpress هي أداة قائمة على البرنامج النصي يتم تنفيذها في R لإجراء تحليل RNA-Seq من مراقبة الجودة إلى التعبير المشترك. يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية. يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress.
يتطلب الاستخدام السليم للنمذجة الإحصائية في تحليل بيانات NGS مستوى متقدما من الخبرة. كان هناك مؤخرا إجماع متزايد على استخدام النماذج الخطية المعممة للتحليل التفاضلي لبيانات RNA-Seq والاستفادة من نماذج الخليط لإجراء تحليل التعبير المشترك. لتقديم إعداد مدار لاستخدام أساليب النمذجة هذه ، قمنا بتطوير DiCoExpress الذي يوفر خط أنابيب R موحد لإجراء تحليل RNA-Seq. بدون أي معرفة خاصة في الإحصاء أو برمجة R ، يمكن للمبتدئين إجراء تحليل RNA-Seq كامل من ضوابط الجودة إلى التعبير المشترك من خلال التحليل التفاضلي القائم على التناقضات داخل نموذج خطي معمم. يقترح تحليل التخصيب على كل من قوائم الجينات المعبر عنها بشكل تفاضلي ، ومجموعات الجينات المشتركة في التعبير. تم تصميم هذا الفيديو التعليمي كبروتوكول خطوة بخطوة لمساعدة المستخدمين على الاستفادة الكاملة من DiCoExpress وإمكاناته في تمكين التفسير البيولوجي لتجربة RNA-Seq.
الجيل التالي من تقنية تسلسل الحمض النووي الريبي (RNA-Seq) هي الآن المعيار الذهبي لتحليل النسخ1. منذ الأيام الأولى للتكنولوجيا ، أسفرت الجهود المشتركة لأخصائيي المعلوماتية الحيوية والإحصاء الحيوي عن تطوير العديد من الأساليب التي تعالج جميع الخطوات الأساسية للتحليلات النسخية ، من رسم الخرائط إلى تحديد كمية النسخ2. يتم تطوير معظم الأدوات المتاحة اليوم لعالم الأحياء داخل بيئة برمجيات R للحوسبة الإحصائية والرسوم البيانية3 ، وتتوفر العديد من الحزم لتحليل البيانات البيولوجية في مستودع Bioconductor4. توفر هذه الحزم تحكما كاملا في التحليل وتخصيصه ، ولكنها تأتي على حساب الاستخدام المكثف لواجهة سطر الأوامر. نظرا لأن العديد من علماء الأحياء أكثر ارتياحا لنهج “النقطة والنقرة”5 ، فإن إضفاء الطابع الديمقراطي على تحليلات RNA-Seq يتطلب تطوير واجهات أو بروتوكولات أكثر سهولة في الاستخدام6. على سبيل المثال ، من الممكن إنشاء واجهات ويب لحزم R باستخدام Shiny7 ، ويتم جعل تحليل بيانات سطر الأوامر أكثر سهولة باستخدام واجهة R-studio8 . يمكن أن يساعد تطوير برامج تعليمية مخصصة خطوة بخطوة أيضا المستخدم الجديد. على وجه الخصوص ، يكمل الفيديو التعليمي نصا كلاسيكيا ، مما يؤدي إلى فهم أعمق لجميع خطوات الإجراء.
قمنا مؤخرا بتطوير DiCoExpress9 ، وهي أداة لتحليل تجارب RNA-Seq متعددة العوامل في R باستخدام طرق تعتبر الأفضل بناء على دراسات مقارنة محايدة10,11,12. بدءا من جدول العد ، يقترح DiCoExpress خطوة لمراقبة جودة البيانات متبوعة بتحليل التعبير الجيني التفاضلي (حزمة edgeR13) باستخدام نموذج خطي معمم (GLM) وتوليد مجموعات التعبير المشترك باستخدام نماذج خليط Gaussian (حزمة coseq12). يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية (أي النمط الوراثي والعلاج) وعامل تقني واحد (أي التكرار). تكمن أصالة DiCoExpress في بنية الدليل الخاصة به التي تخزن وتنظم البيانات والبرامج النصية والنتائج وفي أتمتة كتابة التناقضات مما يسمح للمستخدم بالتحقيق في العديد من الأسئلة داخل نفس النموذج الإحصائي. وبذل جهد أيضا لتوفير نواتج بيانية توضح النتائج الإحصائية.
تتوفر مساحة عمل DiCoExpress في https://forgemia.inra.fr/GNet/dicoexpress. يحتوي على أربعة أدلة واثنين من ملفات pdf وملفين نصيين. يحتوي دليل البيانات / البيانات على مجموعات بيانات الإدخال ؛ لهذا البروتوكول ، سنستخدم مجموعة البيانات “التعليمية”. يحتوي دليل المصادر / الدليل على سبع وظائف R ضرورية لإجراء التحليل ، ويجب ألا يتم تعديلها من قبل المستخدم. يتم تشغيل التحليل باستخدام البرامج النصية المخزنة في دليل Template_scripts / . يسمى البروتوكول المستخدم في هذا البروتوكول DiCoExpress_Tutorial_JoVE.R ويمكن تكييفه بسهولة مع أي مشروع نسخي. تتم كتابة جميع النتائج في دليل النتائج / وتخزينها في دليل فرعي مسمى وفقا للمشروع. يحتوي ملف README.md على معلومات تثبيت مفيدة، ويمكن العثور على أي تفاصيل محددة تتعلق بالطريقة واستخدامها في ملف DiCoExpress_Reference_Manual.pdf.
يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress بهدف التغلب على التردد الذي يشعر به علماء الأحياء باستخدام الأدوات القائمة على سطر الأوامر. نقدم هنا تحليل مجموعة بيانات RNA-Seq اصطناعية تصف التعبير الجيني في ثلاث نسخ بيولوجية من أربعة أنماط وراثية ، مع أو بدون علاج. سنتناول الآن الخطوات المختلفة لسير عمل DiCoExpress الموضح في الشكل 1. يتوفر البرنامج النصي الموضح في قسم البروتوكول وملفات الإدخال على الموقع: https://forgemia.inra.fr/GNet/dicoexpress
إعداد ملفات البيانات
يجب تسمية ملفات csv الأربعة المخزنة في دليل البيانات / الدليل وفقا لاسم المشروع. في مثالنا ، تبدأ جميع الأسماء ب “البرنامج التعليمي” ، وسنقوم بتعيين Project_Name = “البرنامج التعليمي” في الخطوة 4 من البروتوكول. يجب الإشارة إلى الفاصل المستخدم في ملفات csv في متغير سبتمبر في الخطوة 4. في مجموعة البيانات “التعليمية” الخاصة بنا ، يكون الفاصل عبارة عن جدولة. بالنسبة للمستخدمين المتقدمين، يمكن تقليل مجموعة البيانات الكاملة إلى مجموعة فرعية من خلال توفير قائمة بالإرشادات Project_Name جديد من خلال متغير عامل التصفية. يتجنب هذا الخيار النسخ الزائدة عن الحاجة من ملفات الإدخال ويتحقق من مبادئ FAIR14.
من بين ملفات csv الأربعة ، تكون ملفات COUNTS و TARGET فقط إلزامية. وهي تحتوي على الأعداد الخام لكل جين (هنا Tutorial_COUNTS.csv) ووصف التصميم التجريبي (هنا Tutorial_TARGET.csv). يصف ملف TARGET.csv كل عينة (عينة واحدة لكل صف) مع طريقة لكل عامل بيولوجي أو تقني (في الأعمدة). نوصي بشدة بأن تبدأ الأسماء المختارة للطرائق بحرف وليس رقم. لا يمكن تغيير اسم العمود الأخير (“النسخ المتماثل”). وأخيرا، يجب أن تتطابق الأسماء النموذجية (العمود الأول) مع الأسماء الموجودة في عناوين ملف COUNTS.csv (Genotype1_control_rep1 في مثالنا). ملف التخصيب.csv يحتوي فيه كل سطر على Gene_ID واحد وشرط تعليق توضيحي واحد مطلوب فقط إذا كان المستخدم يخطط لتشغيل تحليل الإثراء. إذا كان أحد الجينات يحتوي على العديد من التعليقات التوضيحية ، فيجب كتابتها على أسطر مختلفة. ملف التعليق التوضيحي.csv اختياري ويستخدم لإضافة وصف قصير لكل جين في ملفات الإخراج. أفضل طريقة للحصول على ملف تعليق توضيحي هي استرداد المعلومات من قواعد بيانات مخصصة (على سبيل المثال ، Thalemine: https://bar.utoronto.ca/thalemine/begin.do ل Arabidopsis).
تركيب ديكوإكسبريس
يتطلب DiCoExpress حزم R محددة. استخدم مصدر سطر الأوامر(“.. /Sources/Install_Packages.R”) في وحدة تحكم R للتحقق من حالة تثبيت الحزمة المطلوبة. بالنسبة للمستخدمين على Linux ، هناك حل آخر هو تثبيت الحاوية المخصصة ل DiCoExpress والمتوفرة في https://forgemia.inra.fr/GNet/dicoexpress/container_registry. بحكم التعريف ، تحتوي هذه الحاوية على DiCoExpress مع جميع الأجزاء المطلوبة ، مثل المكتبات والتبعيات الأخرى.
نظرا لأن RNA-Seq أصبح طريقة منتشرة في كل مكان في الدراسات البيولوجية ، فهناك حاجة مستمرة لتطوير أدوات تحليلية متعددة الاستخدامات وسهلة الاستخدام. غالبا ما تكون الخطوة الحاسمة في معظم سير العمل التحليلي هي تحديد الجينات التي يتم التعبير عنها بشكل تفاضلي بين الظروف البيولوجية و / أو العلاجات<su…
The authors have nothing to disclose.
تم دعم هذا العمل بشكل رئيسي من قبل ANR PSYCHE (ANR-16-CE20-0009). يشكر المؤلفون F. Desprez على بناء حاوية DiCoExpress. يتم دعم عمل KB من خلال برنامج الاستثمار من أجل المستقبل ANR-10-BTBR-01-01 Amaizing . تستفيد مختبرات GQE و IPS2 من دعم Saclay Plant Sciences-SPS (ANR-17-EUR-0007).