من خلال تشغيل أداة دراسة جمعية المسار (PAST) ، إما من خلال التطبيق اللامع أو من خلال وحدة التحكم R ، يمكن للباحثين اكتساب فهم أعمق للمعنى البيولوجي لنتائج دراسة الارتباط على نطاق الجينوم (GWAS) من خلال التحقيق في المسارات الأيضية المعنية.
في الآونة الأخيرة ، تم تطوير وتنفيذ جديد لطريقة موصوفة سابقا لتفسير بيانات دراسة الارتباط على نطاق الجينوم (GWAS) باستخدام تحليل المسار الأيضي والإفراج عنه. وقد وضعت أداة دراسة رابطة المسارات لمعالجة الشواغل المتعلقة بسهولة الاستخدام والتحليلات البطيئة. وقد تم الافراج عن هذه الأداة الجديدة سهلة الاستخدام على الموصل الحيوي وGithub. في الاختبار، أجرت PAST تحليلات في أقل من ساعة واحدة كانت تتطلب في السابق أربع وعشرين ساعة أو أكثر. في هذه المقالة، نقدم البروتوكول لاستخدام التطبيق Shiny أو وحدة التحكم R لتشغيل الماضي.
دراسات الارتباط على نطاق الجينوم (GWAS) هي طريقة شائعة لدراسة الصفات المعقدة والمناطق الجينومية المرتبطة بها1و2و3. في هذا النوع من الدراسة، يتم اختبار مئات الآلاف من علامات تعدد الأشكال النيوكليوتيدات واحدة (SNP) لارتباطها مع سمة، ويتم تقييم أهمية الجمعيات. يتم الاحتفاظ بارتباطات العلامات التي تفي بخطة معدل الاكتشاف الزائف (أو نوع آخر من عتبة الأهمية) للدراسة ، ولكن قد يتم تصفية الاقترانات الحقيقية. بالنسبة للسمات المعقدة المتعددة الجينات ، قد يكون تأثير كل جين صغيرا (وبالتالي يتم تصفيته) ، ويتم التعبير عن بعض الأليل فقط في ظروف محددة قد لا تكون موجودة فيالدراسة 3. وهكذا، في حين أنه قد يتم الاحتفاظ بالعديد من الشركات غير المناقلة على أنها مرتبطة بالسمة، فإن كل منها قد يكون له تأثير صغير جدا. وسوف يكون هناك الكثير من المكالمات SNP في عداد المفقودين، وتفسير المعنى البيولوجي والهندسة الوراثية للسمة قد تكون غير مكتملة ومربكة. تحليل المسار الأيضي يمكن أن يساعد على معالجة بعض هذه القضايا من خلال التركيز على الآثار المشتركة للجينات مجمعة وفقا لوظيفتها البيولوجية4،5،6.
تم الانتهاء من العديد من الدراسات باستخدام تطبيق سابق للطريقة الموصوفة في هذه المقالة. Aflatoxin تراكم7، الذرة earworm المقاومة8، والنفط biosynthesis9 ودرست جميع مع التنفيذ السابق. وفي حين كانت هذه التحليلات ناجحة، إلا أن عملية التحليل كانت معقدة وتستغرق وقتا طويلا ومرهقة، لأن أدوات التحليل كتبت في مزيج من R و Perl و Bash، ولم يكن خط الأنابيب آليا. وبسبب المعرفة المتخصصة المطلوبة لتعديل هذه الطريقة لكل تحليل، تم الآن تطوير طريقة جديدة يمكن مشاركتها مع باحثين آخرين.
وقد صممت أداة دراسة رابطة المسارات (PAST)10 لمعالجة أوجه القصور في الطريقة السابقة من خلال اشتراط معرفة أقل بلغات البرمجة وإجراء التحليلات في فترة أقصر. في حين تم اختبار هذه الطريقة مع الذرة، لا تقدم PAST أي افتراضات خاصة بالأنواع. يمكن تشغيل PAST من خلال وحدة التحكم R ، كطبيق لامع ، ومن المتوقع أن يتوفر إصدار عبر الإنترنت قريبا على MaizeGDB.
ويتمثل الهدف الرئيسي من “PAST” في تقديم تحليلات المسار الأيضي لبيانات GWAS إلى جمهور أوسع، وخاصة بالنسبة للكائنات غير البشرية وغير الحيوانية. غالبا ما تكون الطرق البديلة ل PAST هي برامج سطر الأوامر التي تركز على البشر أو الحيوانات. وكان سهولة الاستخدام هدفا أساسيا في تطوير الماضي، سواء في اختيار لتطوير تطبيق لامعة وفي اختيار استخدام R و Bioconduductor للافراج عن التطبيق. المستخدمين لا تحتاج إلى معرفة كيفية ترجمة البرامج من أجل استخدام الماضي.
وكما هو الحال مع معظم أنواع برامج التحليل، فإن نتائج برنامج PAST لا تكون جيدة إلا بقدر ما تكون بيانات الإدخال؛ إذا كان لدى بيانات الإدخال أخطاء أو تنسيقها بشكل غير صحيح، سوف تفشل PAST في تشغيل أو إنتاج نتائج غير مفيدة. التأكد من أن يتم تنسيق البيانات GWAS والبيانات LD والتعليقات التوضيحية وملفات المسارات بشكل صحيح أمر بالغ الأهمية لتلقي الإخراج الصحيح من الماضي. الماضي يحلل علامات ثنائية allelic فقط ، ويمكن تشغيل سمة واحدة فقط لكل مجموعة من البيانات الإدخال. وبالإضافة إلى ذلك، فإن بيانات GWAS الناتجة عن سوء الكتابة الجينية أو الفينوتيبينج غير الصحيح أو غير الدقيق من غير المرجح أن تسفر عن نتائج واضحة أو قابلة للتكرار أيضا. يمكن أن تساعد PAST في التفسير البيولوجي لنتائج GWAS ولكن من غير المرجح أن توضح مجموعات البيانات الفوضوية إذا لم يتم حساب الاختلاف البيئي أو الخطأ التجريبي أو الهيكل السكاني بشكل صحيح.
يمكن للمستخدمين اختيار تغيير بعض معلمات التحليل، سواء في التطبيق لامعة وتمرير تلك المعلمات إلى وظائف الماضي في وحدة التحكم R. يمكن تغيير هذه المعلمات النتائج التي تم الإبلاغ عنها بواسطة PAST و يجب على المستخدمين توخي الحذر عند تعديل هذه من الإعدادات الافتراضية. لأن LD يتم قياسها بواسطة المستخدمين، عادة باستخدام نفس مجموعة بيانات العلامة التي تم استخدامها أيضا في GWAS، قياسات LD محددة للسكان. وبالنسبة لجميع الدراسات، وخاصة بالنسبة لأنواع أخرى غير الذرة ، (وخاصة التلقيح الذاتي ، أو الأنواع متعددة الأضلاع ، أو غير المتجانسة للغاية) ، قد يكون هناك ما يبرر حدوث تغييرات في حالات التخلف عن السداد.
The authors have nothing to disclose.
اي.
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 3.6 or greater is required to install from Bioconductor |