ظهرت المجرة وDAVID كأدوات الشعبية التي تسمح للمحققين دون تدريب المعلوماتية الحيوية لتحليل وتفسير البيانات RNA يليها. نحن تصف بروتوكول للC. ايليجانس الباحثين لإجراء التجارب، والوصول RNA يليها ومعالجة بيانات باستخدام جالاكسي والحصول على المعلومات البيولوجية ذات مغزى من القوائم الجين باستخدام DAVID.
أحدثت ثورة في الجيل القادم التسلسل (خ ع) تقنيات طبيعة التحقيق البيولوجي. ومن بين هؤلاء، برزت RNA تسلسل (RNA-تسلسل) كأداة قوية لتحليل الجينات التعبير ورسم الخرائط Transcriptome على. ومع ذلك، والتعامل مع قواعد البيانات-RNA يليها يتطلب خبرة حسابية معقدة وتحديات الملازمة للباحثين علم الأحياء. تم تخفيف هذه العقبة من خلال المشروع الوصول المفتوح غالاكسي التي تسمح للمستخدمين دون المهارات المعلوماتية الحيوية لتحليل البيانات RNA يليها، وقاعدة بيانات عن الشرح، والتصور، والمتكاملة ديسكفري (DAVID)، وجين علم الوجود (GO) جناح تحليل المصطلح الذي يساعد استخلاص المعنى البيولوجي من مجموعات البيانات الكبيرة. ومع ذلك، لأول مرة للمستخدمين الهواة والمعلوماتية الحيوية "، والتعلم الذاتي والتعريف مع هذه المنصات يمكن أن يكون وشاقة تستغرق وقتا طويلا. نحن تصف سير العمل واضحة من شأنها أن تساعد C. ايليجانس الباحثين لعزل دودة RNA، إجراء تجربة-RNA يليهاوتحليل البيانات باستخدام غالاكسي وDAVID المنصات. يوفر هذا البروتوكول تعليمات تدريجية لاستخدام مختلف وحدات غالاكسي للوصول إلى البيانات الخام NGS والشيكات مراقبة الجودة، والمحاذاة، وتحليل التعبير الجيني التفاضلية، وتوجيه المستخدم مع المعلمات في كل خطوة لإنشاء قائمة الجينات التي يمكن فرزهم للتخصيب دروس الجينات أو العمليات البيولوجية باستخدام DAVID. وبشكل عام، فإننا نتوقع أن هذه المادة سوف توفر معلومات إلى C. ايليجانس الباحثون بإجراء تجارب RNA يليها لأول مرة وكذلك المستخدمين بشكل متكرر تشغيل عدد قليل من العينات.
التسلسل الأول من الجينوم البشري، قام باستخدام طريقة dideoxynucleotide التسلسل فريد سانجر، واستغرق 10 سنوات، وتكلف ما يقدر بنحو 3 مليارات $ 1 و 2. ومع ذلك، الجيل التالي من التسلسل جعلت (خ ع) التكنولوجيا في ما يزيد قليلا على عقد من الزمان منذ إنشائها من الممكن لتسلسل الجينوم البشري بأكمله في غضون أسبوعين والولايات المتحدة 1000 $. أدوات NGS الجديدة التي تسمح بسرعة جمع تسلسل البيانات المتزايدة مع كفاءة لا يصدق، جنبا إلى جنب مع تخفيضات حادة في التكاليف، هي ثورة البيولوجيا الحديثة بطرق لا يمكن تصورها كما هي مشاريع تسلسل الجينوم أصبحت بسرعة شائعا. وبالإضافة إلى ذلك، قد حفزت هذه التطورات التقدم في العديد من المجالات الأخرى مثل تحليل الجينات التعبير من خلال RNA-التسلسل (RNA-يليها)، ودراسة التعديلات جينية على نطاق الجينوم، وتفاعلات الحمض النووي والبروتينات، والكشف عن التنوع الميكروبي في المضيف البشري. NGS القائم على RNA سيجعلت ف على وجه الخصوص من الممكن تحديد وترنسكربيتوم خريطة شاملة مع الدقة والحساسية، وحلت محل تكنولوجيا متطورة مثل طريقة الاختيار لتحديد ملامح التعبير. في حين تكنولوجيا متطورة استخدمت على نطاق واسع، ويقتصر من قبل اعتمادها على المصفوفات القائمة من قبل مع المعلومات الجينية المعروفة، وعيوب أخرى مثل التهجين عبر ومجموعة محدودة من التغييرات التعبير التي يمكن قياسها بشكل موثوق. RNA وما يليها، من ناحية أخرى، يمكن أن تستخدم لكشف كل النصوص المعروفة وغير المعروفة في حين أن إنتاج منخفضة الضوضاء الخلفية نظرا لطبيعة لا لبس فيها رسم خرائط الحمض النووي. RNA-تسلسل جنبا إلى جنب مع أدوات الوراثية كثيرة عرضت من قبل الكائنات نموذج مثل الخميرة والذباب والديدان والأسماك والفئران، وقد خدم، كأساس للعديد من الاكتشافات الطبية الحيوية الهامة الأخيرة. ومع ذلك، تبقى تحديات كبيرة التي تجعل NGS قابلة للوصول إلى المجتمع العلمي الأوسع، بما في ذلك القيود المفروضة على التخزين والتجهيز، والأهم من ذلك كله، م تحليل المعلوماتية الحيوية eaningful كميات كبيرة من البيانات التسلسل.
خلقت التقدم السريع في تكنولوجيا التسلسل وتراكم البيانات الأسي حاجة كبيرة لمنصات الحسابية التي من شأنها أن تسمح للباحثين للوصول وتحليل وفهم هذه المعلومات. وكانت النظم الأولى تعتمد بشكل كبير على المعرفة برمجة الكمبيوتر، في حين المتصفحات الجينوم مثل NCBI التي سمحت غير المبرمجين للوصول إلى وتصور البيانات لا تسمح تحليلات متطورة. منصة، والوصول المفتوح على شبكة الإنترنت، غالاكسي ( https://galaxyproject.org/ )، وقد شغل هذا الفراغ وثبت أن خط أنابيب قيمة تمكن الباحثون لمعالجة البيانات NGS وتنفيذ مجموعة بسيطة-لمجمع تحليل المعلوماتية الحيوية. وقد أنشأت غالاكسي في البداية، وحافظت، من خلال مختبرات انطون Nekrutenko (جامعة ولاية بنسلفانيا)، وجيمس تايلور (جامعة جونز هوبكنز)و "> 3. غالاكسي يقدم مجموعة واسعة من المهام الحسابية مما يجعلها" محطة واحدة "لتلبية الاحتياجات المعلوماتية الحيوية لا تعد ولا تحصى، بما في ذلك جميع الخطوات المتبعة في دراسة الحمض النووي الريبي يليها. Itallows للمستخدمين تنفيذ معالجة البيانات إما على خوادمها أو محليا على أجهزتهم الخاصة. البيانات وسير العمل يمكن استنساخها وتبادلها. البرامج التعليمية عبر الإنترنت، والمساعدة القسم، ويكي الصفحات ( https://wiki.galaxyproject.org/Support ) مخصصة لمشروع غالاكسي توفر الدعم المستمر. ومع ذلك، لأول مرة للمستخدمين، وخاصة أولئك الذين ليس لهم تدريب المعلوماتية الحيوية، يمكن أن تظهر في خط أنابيب شاقة وعملية التعلم الذاتي والتعريف يمكن أن يكون مضيعة للوقت. وبالإضافة إلى ذلك، درس النظام البيولوجي، وتفاصيل التجربة وطرق استخدامها، والأثر القرارات التحليلية في عدة خطوات، وهذه يمكن أن يكون من الصعب التنقل دون توجيه.
وعموما RN يتكون A-تسلسل غالاكسي سير العمل في تحميل البيانات والتأكد من جودتها تليها تحليل باستخدام سهرة جناح 4، 5، 6، 7، 8، 9، وهو الجماعية لمختلف الأدوات اللازمة لمراحل مختلفة من تحليل البيانات RNA يليها 10، 11، 12، 13، 14. تتكون التجربة-RNA يليها نموذجية من الجزء التجريبي (إعداد العينات، والعزلة مرنا وكدنا] إعداد مكتبة)، وNGS وتحليل المعلوماتية الحيوية البيانات. لمحة عامة عن هذه الأقسام، والخطوات المتبعة في خط أنابيب غالاكسي، وتظهر في الشكل 1.
3fig1.jpg "/>
الشكل (1): نظرة عامة على سير عمل RNA-تسلسل. التوضيح من الخطوات التجريبية والحسابية تشارك في تجربة-RNA يليها مقارنة ملامح الجينات التعبير من سلالتين دودة (A و B، وخطوط برتقالية وخضراء والسهام، على التوالي). وتظهر وحدات مختلفة من غالاكسي المستخدمة في مربعات مع الخطوة المقابلة في بروتوكول لدينا هو مبين في الحمراء. تتم كتابة مخرجات العمليات المختلفة في الرمادي مع تنسيقات الملفات هو مبين في الزرقاء. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم.
الأداة الأولى في جناح سهرة هو برنامج المواءمة يسمى 'Tophat. ينهار مدخلات NGS يقرأ إلى أجزاء أصغر ومن ثم خرائط لهم الجينوم المرجعية. وتضمن هذه عملية من خطوتين الذي يقرأ تغطي المناطق intronic تتضاعف الذي يمكن أن يكون الأمر خلاف ذلك دي محاذاةsrupted أو تحتسب وتعيين تفويتها. وهذا يزيد من التغطية ويسهل التعرف على تقاطعات لصق جديدة. وتفيد التقارير الانتاج Tophat كما ملفين، ملف BED (مع معلومات حول تقاطعات لصق التي تشمل موقع الجيني) وملف BAM (مع تفاصيل رسم الخرائط من كل قراءة). بعد ذلك، يتم محاذاة الملف BAM ضد الجينوم مرجعية لتقدير وفرة من النصوص الفردية داخل كل عينة باستخدام أداة لاحقة في جناح سهرة بعنوان "أزرار". أزرار وظائف عن طريق مسح المحاذاة إلى تقرير شظايا النص بالطول أو "transfrags" التي تشمل جميع المتغيرات لصق المحتملة في إدخال البيانات عن كل جينة. وبناء على هذا، فإنه يقوم بإنشاء "Transcriptome على" (تجميع كل النصوص ولدت في الجينات لكل الجينات) لكل عينة يجري التسلسل. ثم انهارت هذه التجميعات أزرار أكمام أو دمجها معا جنبا إلى جنب مع إعادةference الجينوم لإنتاج ملف الشرح واحد لتحليل التفاضلية المصب باستخدام أداة المقبلة، "Cuffmerge. وأخيرا، فإن "Cuffdiff" التعبير الجيني أداة التدابير التفاضلية بين العينات عن طريق مقارنة النتائج TopHat كل من العينات إلى ملف الإخراج Cuffmerge النهائي (الشكل 1). أزرار أكمام تستخدم FPKM / RPKM (شظايا / يقرأ لكل كيلو قاعدة من نسخة لكل مليون معين يقرأ) القيم أن يقدم فرة نسخة. وتعكس هذه القيم تطبيع البيانات NGS الخام لعمق (متوسط عدد القراءات من عينة أن محاذاة إلى الجينوم مرجعية) وطول الجين (الجينات لها أطوال مختلفة، لذلك لها التهم ليتم تطبيع للطول الجيني لمقارنة مستويات بين الجينات). FPKM وRPKM لا تختلف في جوهرها مع RPKM تستخدم لنهاية واحدة RNA-تسلسل حيث يتوافق مع كل قراءة لجزء واحد، في حين يستخدم FPKM لإقران نهاية RNA-تسلسل، كما يفسر حقيقة أن اثنين من يقرأ يمكن أن تتوافق مع نفس الجزء. وفي النهاية، فإن نتائج هذه التحليلات هي قائمة من الجينات وأعرب تفاضلي بين الظروف و / أو السلالات التي تم اختبارها.
بمجرد الانتهاء من مسيرته الناجحة غالاكسي ويتم إنشاء "قائمة الجينات، فإن الخطوة المنطقية المقبلة تتطلب المزيد المعلوماتية الحيوية تحليل للاستدلال على المعرفة ذات مغزى من قواعد البيانات. ظهرت العديد من حزم البرامج لتلبية هذه الحاجة، بما في ذلك المتاحة للجمهور حزم الحسابية على شبكة الإنترنت مثل DAVID (قاعدة بيانات عن الشرح، والتصور واكتشاف المتكاملة) 15. DAVID يسهل تعيين المعنى البيولوجي للقوائم الجينات كبيرة من الدراسات الإنتاجية العالية من خلال مقارنة قائمة الجينات التي تم تحميلها على المعرفة البيولوجية المتكاملة والكشف عن شروح البيولوجية المرتبطة قائمة الجينات. ويلي ذلك تحليل والإثراء، أي من الاختبارات لبيئة تطوير متكاملةntify إذا كان زائدا أي عملية أو الجينات الطبقة البيولوجية في قائمة الجينات (ق) بطريقة ذات دلالة إحصائية. فقد أصبح خيارا شعبيا بسبب مزيج من اسعة ومتكاملة قاعدة المعرفة والخوارزميات التحليلية القوية التي تمكن الباحثين للكشف عن مواضيع البيولوجية التخصيب داخل الجينوم المشتقة 'القوائم الجين "10 و 16. وتشمل مزايا إضافية قدرتها على معالجة قوائم الجينات التي تم إنشاؤها على أي منصة التسلسل واجهة عالية سهل الاستعمال.
الديدان الخيطية انواع معينة ايليجانس هي نموذج نظام وراثي، معروف جيدا لمزاياها العديدة مثل صغر حجمها، وجسم شفاف، خطة هيئة بسيطة، وسهولة الثقافة وقابليته الكبيرة للتشريح الجيني والجزيئي. الديدان لها الجينوم صغيرة وبسيطة ومشروحة جيدا أن تشمل ما يصل الى 40٪ من الجينات الحفظ مع homologs البشرية المعروفة 17. في الواقع، C. ايليجانسكان متعددة الخلايا الأولى التي كان التسلسل تماما 18 الجينوم، واحدة من الأنواع الأولى حيث تم استخدام الحمض النووي الريبي تسلسل إلى خريطة Transcriptome على الكائن الحي 19 و 20. دراسات دودة في وقت مبكر وشملت التجارب مع أساليب مختلفة لالتقاط عالية الإنتاجية RNA، وإعداد مكتبة والتسلسل وكذلك خطوط الأنابيب المعلوماتية الحيوية التي ساهمت في النهوض التكنولوجيا 21 و 22. في السنوات الأخيرة، أصبح التجريب أساس RNA-تسلسل في الديدان شائعا. ولكن، لعلماء الأحياء دودة التقليدية للتحديات التي تفرضها التحليل الحسابي لبيانات RNA بعدها لا تزال تشكل عائقا رئيسيا لأكبر وأفضل استخدام لهذه التقنية.
في هذه المقالة، نحن تصف بروتوكول لاستخدام منصة غالاكسي لتحليل البيانات RNA يليها الإنتاجية العالية المتولدة من C. ايليجانس. بالنسبة للعديد من أول مرة وهيئة السلع التموينية صغيرةالمستخدمين جنيه، والطريقة الأكثر وضوحا فعالة من حيث التكلفة لإجراء تجربة-RNA يليها هو عزل الحمض النووي الريبي في المختبر والاستفادة منشأة NGS التجاري (أو في المنزل) لإعداد مكتبات كدنا] تسلسل وNGS نفسها. وبالتالي، لدينا لأول مرة بالتفصيل الخطوات المتبعة في عزلة، الكمي ونوعية تقييم C. ايليجانس عينات الحمض النووي الريبي لRNA-تسلسل. بعد ذلك، نحن نقدم إرشادات خطوة بخطوة لاستخدام واجهة غالاكسي لتحليل البيانات NGS، بدءا من الاختبارات لاجراء فحوص مراقبة الجودة بعد التسلسل تليها المحاذاة، والتجمع، والفارق الكمي في التعبير الجيني. وبالإضافة إلى ذلك، أدرجنا الاتجاهات للتدقيق في قوائم الجينات الناتجة عن غالاكسي للدراسات البيولوجية تخصيب باستخدام DAVID. كخطوة نهائية في سير العمل، ونحن نقدم تعليمات لتحميل البيانات RNA يليها الدخول إلى ملقمات العامة مثل تسلسل مقروءة الأرشيف (SRA) على NCBI ( HTTP: // ثww.ncbi.nlm.nih.gov/sra) لجعلها في متناول مجانا للمجتمع العلمي. وبشكل عام، فإننا نتوقع أن هذه المادة سوف توفر معلومات شاملة وكافية لعلماء الأحياء دودة إجراء تجارب RNA يليها لأول مرة وكذلك المستخدمين بشكل متكرر تشغيل عدد قليل من العينات.
أهمية التسلسل منصة غالاكسي في علم الأحياء الحديث
أصبح مشروع غالاكسي دورا أساسيا في مساعدة علماء الأحياء دون تدريب المعلوماتية الحيوية لمعالجة وتحليل البيانات تسلسل عالية الإنتاجية بطريقة سريعة وفعالة. كانت تعتبر مهمة شاقة، جعلت…
The authors have nothing to disclose.
فإن الكتاب أود أن أعرب عن امتناني لمختبرات والمجموعات والأفراد الذين طوروا غالاكسي وDAVID، وبالتالي جعل NGS الوصول إليها على نطاق واسع للمجتمع العلمي. واعترف المساعدة والمشورة التي يقدمها زملاؤه في جامعة بيتسبرغ خلال التدريب المعلوماتية الحيوية لدينا. وأيد هذا العمل من قبل المؤسسة الطبية الباحث إليسون الجديد في الشيخوخة جائزة (AG-NS-0879-12) ومنحة من المعاهد الوطنية للصحة (R01AG051659) إلى AG.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |