כאן, אנו מציגים גישה ביולוגית ואנליזות כדי לזהות את הביטוי LINE-1 ברמה מסוימת.
רכיבים ארוכים וממוזגים-1 (קווים/L1s) הם רכיבים חוזרים שיכולים להעתיק ולהוסיף באקראי את הגנום וכתוצאה מכך אי-יציבות גנומית ומוטזיס. הבנת דפוסי הביטוי של L1 הבית ברמה האינדיבידואלית תלווה להבנת הביולוגיה של אלמנט מוטאלי זה. אלמנט אוטונומי זה מייצר חלק משמעותי של הגנום האנושי עם מעל 500,000 עותקים, אם כי 99% הם מעוגלים ופגומים. עם זאת, שלהם שפע מספר דומיננטי של עותקים פגומים להפוך אותו מאתגר לזהות אותנטי הביע L1s מתוך L1 הקשורות רצפים הביע במסגרת גנים אחרים. הוא גם מאתגר לזהות איזה מקום L1 ספציפי מתבטא בשל האופי החוזר של היסודות. התגברות על אתגרים אלה, אנו מציגים גישה ביולוגית RNA-Seq כדי לזהות ביטוי L1 ברמה ספציפית לוקוס. לסיכום, אנו לאסוף את ה-RNA cytoplasmic, בחר עבור התעתיקים הפוליפוניים, ולנצל את הצורך בניתוח RNA-Seq ספציפי המפה באופן ייחודי קורא L1 החוף בגנום התייחסות אנושית. אנו מעוצבים באופן חזותי כל L1 לוקוס עם קריאות ממופות ייחודי כדי לאשר תמלול מיזם משלו ולהתאים את התמליל ממופה קריאות לחשבון עבור mappability של כל אחד L1 לוקוס. גישה זו חלה על קו הגידול של הערמונית, DU145, כדי להדגים את היכולת של פרוטוקול זה כדי לזהות ביטוי ממספר קטן של אלמנטים L1 באורך מלא.
Retrotransposons הם רכיבי DNA חוזרים שיכולים “לקפוץ” בגנום במנגנון העתק והדבק באמצעות RNA intermediates. קבוצת משנה אחת של הרטרוטרנספסונים ידועה כאלמנטים ארוכים ומודפסים -1 (קווים/L1s) ומייצרת שישית של הגנום האנושי עם מעל 500, 0000 עותקים1. למרות השפע שלהם, רוב העותקים האלה פגומים מעוגלים עם רק 80-120 מוערך אלמנטים L1 חשב להיות פעיל2. באורך מלא L1 הוא כ 6 kb באורך עם 5 ‘ ו 3 ‘ אזורים לא מתורגם, מיזם פנימי ומקדם ההיגיון המשויך, שתי מסגרות הקריאה הפתוחה שאינם חופפים (orfs), ואות ו polya זנב3,4,5 . בבני אדם, L1s מורכבת ממשפחות משנה המושוות על-ידי הגיל האבולוציוני עם המשפחות הבוגרות שצברו מוטציות רצף ייחודיות יותר לאורך זמן בהשוואה למשפחת המשנה הצעירה ביותר, L1HS6,7. L1s הם האוטונומי היחיד, הגוף האנושי ושלהם ORFs לקודד היפוך ההמרה הפוכה, endonuclease, ו RNPs עם RNA-binding ופעילויות המלווה הנדרש כדי להחליף ולהכניס את הגנום בתהליך המכונה כיעד-מוכן . תעתיק הפוך8,9,10,11,12
Retroטרנספוזיציה של L1s נמסר לגרום למחלות של מחלת האדם באמצעות מגוון מנגנונים, כולל insertional מוטגנזה, מחיקות באתר היעד וסידור מחדש של13,14,15, 16. לאחרונה זה כבר שיערו כי L1s עשוי לשחק תפקיד באונגנזה ו/או התקדמות הגידול כמו ביטוי מוגבר ואירועי הכניסה של אלמנט זה מוטאנמית נצפו במגוון של סרטן אפיתל17,18 . מעריכים כי יש אחד חדש L1 הכניסה בכל 200 לידות19. לכן, זה הכרחי להבין טוב יותר את הביולוגיה של הבעת ביטוי פעיל L1s. הטבע החוזר והשפע של עותקים פגומים שנמצאו בתוך תעתיקים של גנים אחרים הפכו רמה זו של ניתוח מאתגרת.
למרבה המזל, עם הופעתו של טכנולוגיות ברצף תפוקה גבוהה, צעדים נעשו כדי לנתח ולזהות ביטוי אותנטי L1s ברמה ספציפית לוקוס. ישנן פילוסופיות שונות על איך לזהות באופן הטוב ביותר הביע L1s באמצעות רצף הדור הבא של RNA. היו רק שתי גישות סבירות הציע מיפוי L1 תעתיקים ברמה ספציפית לוקוס. אחד מתמקד רק בתעתיק הפוטנציאלי הקורא דרך האות L1 פולאדלציה ולתוך רצפים מאגפים20. הגישה שלנו מנצלת הבדלים רצף קטן בין אלמנטים L1 וממפה רק אלה RNA-Seq קורא כי ממפה באופן ייחודי למיקום אחד21. שתי השיטות הללו מתיישנות במונחים של כימות התעתיק. ניתן לשפר את הקוונטות באמצעות הוספת תיקון עבור ‘ היכולת הייחודית ‘ של כל L1 לוקוס21, או שימוש באלגוריתמים מורכבים יותר המספיקים מראש את הקריאות הממופות מרובות שלא היתה אפשרות למפות באופן ייחודי למיקום מסוים22. כאן, אנו פרטים באופן צעד אחר צעד את החילוץ RNA ו-הדור הבא רצף וביואינפורמטיקה פרוטוקול כדי לזהות אלמנטים L1 מבוטא ברמה ספציפית לוקוס. הגישה שלנו לוקחת את היתרון המקסימלי של הידע שלנו על הביולוגיה של אלמנטים L1 פונקציונליים. זה כולל לדעת כי אלמנטים L1 פונקציונלי חייב להיווצר מיזם L1, יזם בתחילת האלמנט L1, חייב להיות מתורגם בציטופלסמה וכי התעתיקים שלהם צריך להיות co-ליניארי עם הגנום. בקצרה, אנו אוספים טריים, RNA cytoplasmic, בחר עבור תעתיקים polyadenylated, ולנצל סטרנד ספציפי RNA-Seq מנתח המפה באופן ייחודי קורא L1 לוקואו בגנום התייחסות אנושית. לאחר מכן, קריאות מיושרות אלה דורשות שימוש נרחב בקריאה ידנית כדי לקבוע אם התעתיק מקורו במקדם L1 לפני הגדרת מקום כL1 מתבטא באופן אותנטי. אנו להחיל את הגישה הזאת על DU145 של סרטן הערמונית מדגם קו כדי להדגים כיצד הוא מזהה מספר יחסי בפועל באופן פעיל L1 חברים מן המסה של עותקים לא פעילים.
L1 פעילות הוכח לגרום נזק גנטי ואי-יציבות לתרום מחלה27,28,29. מתוך כ 5,000 העתקים באורך מלא L1, רק כמה עשרות בעלות מלאה של הL1s בעלות החשבון הצעיר ביותר עבור הרוב של פעילות הרטרוטרנספוזיציה2. עם זאת, יש ראיות כי אפילו כמה מבוגרים יותר, L1s incompentent מבחינה מבצעית עדיין מסוגלים לייצר DNA נזק חלבונים30. כדי להעריך במלואו את התפקיד של L1s ב אי-יציבות ומחלות גנומית, הביטוי L1 ברמה הספציפית לוקוס חייב להיות מובן. עם זאת, הרקע הגבוה של רצפים הקשורים L1 שולבו RNAs אחרים שאינם קשורים L1 retro, מהווה אתגר משמעותי לפרש ביטוי L1 אותנטי. אתגר נוסף בזיהוי ולכן הבנת דפוסי הביטוי של הL1 האדם מתרחשת בגלל הטבע החוזר שלהם שאינו מאפשר רצפי קריאה קצרים רבים למפות למקום יחיד ייחודי. כדי להתגבר על האתגרים הללו, פיתחנו את הגישה הנ ל בזיהוי ביטוי של הL1 הפרט באמצעות נתוני RNA-Seq.
הגישה שלנו מסננת את הרמה הגבוהה (מעל 99%) של רעש שנוצר מרצפי L1 שאינם קשורים L1 רטרומיציה על ידי נקיטת מספר צעדים. הצעד הראשון כרוך הכנת RNA cytoplasmic. על ידי בחירת RNA cytoplasmic, L1 הקשורות קריאות שנמצאו בתוך מבוטא mRNA ב הגרעין הם התרוקנו באופן משמעותי. בהכנות לעריכת הספריה, צעד נוסף שנלקח להפחתת הרעש הL1s ביותר שאינו קשור לכלל המבחר של התעתיקים הרב. פעולה זו מסירה רעשי תעתיק הקשורים ל-L1 שנמצאו במינים שאינם מסוג mRNA. צעד נוסף כולל רצף מיוחד של סטרנד על מנת לזהות ולחסל את התעתיקים L1-sense הקשורות. השימוש בביאור עבור L1s באורך מלא עם אזורי מיזם פונקציונלי בעת זיהוי מספר התעתיקים של RNA-Seq המיפוי לL1s גם מבטל את רעשי הרקע שמקורם מL1s מעוגלים. בסופו של דבר, הצעד הקריטי האחרון ביטול רעש ההמרה של L1 רצפים שאינם קשורים L1 retroation היא התוספת ידנית של L1s באורך מלא מזוהה יש ממופה RNA-Seq התעתיקים. התוספת הידנית כרוכה ויזואליזציה של כל מזוהה ביולוגי להיות מבוטא L1 לוקוס בהקשר של הסביבה גנומית שמסביב שלה כדי לאשר את הביטוי מקורו מיזם L1. גישה זו הוחלה על DU145, קו של גידול של הערמונית. אפילו עם כל השלבים הקשורים להכנה כדי להפחית את רעש הרקע, כ 50% של הL1 מזוהה ביולוגית ב DU145 נדחו כרעש רקע L1 שמקורם ממקורות מעבר אחרים (איור 4), המדגיש את הקשיחות הדרושה להפקת תוצאות אמינות. גישה זו באמצעות כפייה ידנית היא עבודה אינטנסיבית, אבל הכרחי בפיתוח של צינור זה להעריך ולהבין את הסביבה גנומית סביב באורך מלא L1. השלבים הבאים כוללים הפחתת כמות התוספת הידנית הנדרשת על-ידי הפיכת חלק מכללי הקורציה, למרות שבגלל הטבע הידוע עדיין לחלוטין של ביטוי גנומית, מקורות ביטוי בלתי ממוארים של הביטוי בגנום הייחוס, אזורים נמוכים mappability, ואפילו מסבך גורמים מעורב בבניית הגנום התייחסות זה לא ניתן להפוך באופן מלא L1 אוצרות בשלב זה.
האתגר השני בזיהוי ביטוי של הL1 הפרט עם רצף מתייחס למיפוי התעתיקים החוזרים L1. באסטרטגיית יישור זו, נדרש כי תעתיק חייב להתיישר באופן ייחודי ושיתוף ליניארי לגנום הייחוס כדי שניתן יהיה למפות אותו. על ידי בחירה עבור רצפי לזווג סוף המפה concordantly, את כמות התעתיקים ליישר באופן ייחודי L1 לוקום נמצא בתוך הגנום התייחסות גדל. אסטרטגיית מיפוי ייחודית זו מספקת ביטחון בקריאה של קריאות מיפוי במיוחד לL1 לוקוס יחיד, למרות שהיא עשויה להיות בעלת מראה מסוים של כמות הביטוי של כל אחד שמזוהה להיות מבוטא, חוזר על עצמו L1. כדי לתקן את ההערכה הזאת, ציון “mappability” עבור כל L1 לוקוס מבוסס על mappability שלה פותחה והוחל על מספר התמליל ממופה באופן ייחודי (איור 6). זה לציין כי באופן אידיאלי, mappability צריך להיות הבקיע כיסוי מלא קורא באורך מלא L1 על פי דגימת WGS תואם. כאן, אנו משתמשים ב-WGS של תאי הלה כדי לקבוע עשרות mappability של כל L1 המקום על מנת לנפח או השטפה קורא מיפוי כדי L1 המקום בתוך DU145 תאים סרטניים הערמונית. חישוב mappability זה הוא ציון תיקון גולמי, אבל הנבחר ‘ הכיסוי השלם mappability ‘ של 400 קורא נקבע עם האופי הדינאמי של קווי הגידול במוח. ניתן לצפות באיור המשלים 1, כי יש כמה L1 המקום עם הלה wgs עם מספר גבוה מאוד של קריאות ממופה. אלה כנראה מגיעים רצפים כרומוזום משוכפל בתוך הלה כי הם לא בתוך הגנום התייחסות, ולכן אלה המלא נבחרו להיות נציג של כיסוי השלם mappability. במקום זאת נקבע כי הממוצע של 100% כיסוי לקרוא מתרחשת סביב 400 קורא על פי איור משלים 1 ולאחר מכן הניחו כי ממוצע זה חל על קו הערמונית DU145 גידול גם.
זו אסטרטגיה יישור עם 100-200 bp קורא מטכנולוגיית RNA-Seq גם מעדיפים בוחר עבור המבוגר מבוגר L1s בתוך הגנום התייחסות כמו מבוגרים L1s צברו לאורך מוטציות ייחודיות זמן הופכים אותם מיותר למיפוי. גישה זו, לכן, יש רגישות מוגבלת כשמדובר בזיהוי הצעיר של L1s, כמו גם אי התייחסות, פולימלמכולה L1s. כדי לזהות את הצעיר של L1s, אנו מציעים באמצעות 5 ‘ מירוץ מבחר של התעתיקים L1 וטכנולוגיה רצף כמו PacBio כי לעשות שימוש של קורא עוד21. זה מאפשר מיפוי ייחודי יותר ולכן זיהוי בטוח של ביטא, צעיר L1s. באמצעות RNA-Seq ו PacBio גישות יחד יכול להוביל לרשימה מקיפה יותר של ביטוי אותנטי L1s. כדי לזהות L1s מתבטאת באופן אותנטי, השלבים הבאים הראשונים כוללים בנייה והחדרת רצפים פוליממומכולה לתוך הגנום התייחסות.
האתגרים הביולוגיים והטכניים בלימוד רצפים חוזרים הם גדולים, אף עם ההליך הקפדני לעיל כדי להסיר רעש הטרנססקריפט של רצפי L1 בלתי קשורים לרטרוטרנספוזיציה באמצעות הטכנולוגיה ברצף RNA, אנו מתחילים לנפות הרמות הגדולות של רעש הרקע הטרנדיות ולהיות בביטחון ולזהות בL1 דפוסי ביטוי וכמות ברמת לוקוס בודדים.
The authors have nothing to disclose.
אנחנו רוצים להודות לד ר יאן דונג. על תאי גידול הערמונית DU145 ברצוני להודות לד ר נתן אונגרלדר על הדרכתו ועצתו ביצירת סקריפטים של מחשב-על. חלק מהעבודה הזאת ממומנת על ידי NIH מענקים R01 GM121812 למשטרה, R01 AG057597 ל VPB, ו 5TL1TR001418 ל-TK. היינו גם רוצים להכיר את התמיכה של הצלבנים הסרטן ומרכז הסרטן Tulane בביואינפורמטיקה הליבה.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |