פרוטוקול חישובי, CaseOLAP LIFT, ומקרה שימוש מוצגים לחקר חלבונים מיטוכונדריאליים והקשר שלהם למחלות לב וכלי דם כמתואר בדוחות ביו-רפואיים. פרוטוקול זה יכול להיות מותאם בקלות לחקר רכיבים תאיים שנבחרו על ידי המשתמש ומחלות.
הכמויות הגדלות במהירות והכמויות העצומות של דוחות ביו-רפואיים, שכל אחד מהם מכיל ישויות רבות ומידע עשיר, מייצגים משאב עשיר ליישומי כריית טקסט ביו-רפואיים. כלים אלה מאפשרים לחוקרים לשלב, להמשיג ולתרגם תגליות אלה כדי לחשוף תובנות חדשות על פתולוגיה וטיפולים של מחלות. בפרוטוקול זה, אנו מציגים את CaseOLAP LIFT, צינור חישובי חדש לחקר רכיבים תאיים והקשרים שלהם למחלות על ידי חילוץ מידע שנבחר על ידי המשתמש ממערכי נתונים טקסטואליים (למשל, ספרות ביו-רפואית). התוכנה מזהה חלבונים תת-תאיים ואת שותפיהם הפונקציונליים בתוך מסמכים רלוונטיים למחלות. מסמכים נוספים הרלוונטיים למחלה מזוהים באמצעות שיטת זקיפת התוויות של התוכנה. כדי לקשר את הקשרים בין מחלות חלבון הנובעות מכך ולשלב מידע ממשאבים ביו-רפואיים רלוונטיים מרובים, גרף ידע נבנה באופן אוטומטי לניתוחים נוספים. אנו מציגים מקרה שימוש אחד עם קורפוס של ~ 34 מיליון מסמכי טקסט שהורדו באינטרנט כדי לספק דוגמה להבהרת תפקידם של חלבונים מיטוכונדריאליים בפנוטיפים שונים של מחלות לב וכלי דם באמצעות שיטה זו. יתר על כן, מודל למידה עמוקה יושם על גרף הידע שהתקבל כדי לחזות קשרים שלא דווחו בעבר בין חלבונים למחלות, וכתוצאה מכך 1,583 קשרים עם הסתברויות חזויות >0.90 ועם שטח מתחת לעקומת ההפעלה של המקלט (AUROC) של 0.91 בקבוצת הבדיקה. תוכנה זו כוללת זרימת עבודה אוטומטית וניתנת להתאמה אישית, עם היקף רחב של נתונים גולמיים הזמינים לניתוח; לכן, באמצעות שיטה זו, ניתן לזהות אסוציאציות של מחלות חלבונים עם אמינות משופרת בתוך קורפוס טקסט.
חקר חלבונים הקשורים למחלות משפר את הידע המדעי של פתוגנזה ומסייע לזהות טיפולים פוטנציאליים. כמה קורפורות טקסט גדולות של פרסומים ביו-רפואיים, כגון 34 מיליון המאמרים של PubMed המכילים כותרות פרסומים, תקצירים ומסמכי טקסט מלא, מדווחים על ממצאים חדשים המקשרים חלבונים עם מחלות. עם זאת, ממצאים אלה מקוטעים על פני מקורות שונים ויש לשלב אותם כדי ליצור תובנות ביו-רפואיות חדשות. קיימים מספר משאבים ביו-רפואיים לשילוב אסוציאציות של מחלות חלבונים 1,2,3,4,5,6,7. עם זאת, משאבים אלה שנאספו לעתים קרובות אינם שלמים ועשויים שלא להקיף את ממצאי המחקר העדכניים ביותר. גישות כריית טקסט חיוניות כדי לחלץ ולסנתז אסוציאציות של מחלות חלבונים בקורפורות טקסט גדולות, מה שיביא להבנה מקיפה יותר של מושגים ביו-רפואיים אלה בספרות המדעית.
קיימות גישות ביו-רפואיות רבות לכריית טקסט כדי לחשוף יחסי חלבון-מחלה 8,9,10,11,12,13,14, ואחרות תורמות בחלקן לקביעת יחסים אלה על ידי זיהוי החלבונים, המחלות או ישויות ביו-רפואיות אחרות המוזכרות בטקסט 13,15,16,17, 18,19. עם זאת, רבים מכלים אלה חסרים גישה לספרות העדכנית ביותר, למעט מעטים המתעדכנים מעת לעת 8,11,13,15. באופן דומה, לכלים רבים יש גם היקף מחקר מוגבל, מכיוון שהם מוגבלים למחלות או חלבונים מוגדרים מראש 9,13. מספר גישות נוטות גם לזיהוי תוצאות חיוביות שגויות בתוך הטקסט; אחרים התייחסו לבעיות אלה באמצעות רשימה שחורה גלובלית וניתנת לפירוש של שמות חלבונים9,11 או פחות טכניקות זיהוי ישויות של שמות הניתנים לפירוש15,20. בעוד שרוב המשאבים מציגים רק תוצאות מחושבות מראש, כלים מסוימים מציעים אינטראקטיביות באמצעות יישומי אינטרנט או קוד תוכנה נגיש 8,9,11.
כדי להתמודד עם המגבלות לעיל, אנו מציגים את הפרוטוקול הבא, CaseOLAP עם זקיפת תוויות וטקסט מלא (CaseOLAP LIFT), כפלטפורמה גמישה וניתנת להתאמה אישית לחקר קשרים בין חלבונים (למשל, חלבונים הקשורים לרכיב תאי) ומחלות ממערכי נתונים של טקסט. פלטפורמה זו כוללת אצירה אוטומטית של חלבונים ספציפיים למונח אונטולוגיה גנטית (GO) (למשל, חלבונים ספציפיים לאברונים), זקיפה של תוויות נושא חסרות במסמך, ניתוח של מסמכי טקסט מלא, כמו גם כלי ניתוח וכלי חיזוי (איור 1, איור 2 וטבלה 1). CaseOLAP LIFT אוצרת חלבונים ספציפיים לאברונים באמצעות מונחי GO שסופקו על-ידי המשתמש (למשל, תא אברונים) וחלבונים הקשורים לתפקוד באמצעות STRING21, Reactome 22 ו-GRNdb23. מסמכים הלומדים מחלות מזוהים על ידי תוויות כותרת הנושא הרפואי (MeSH) שלהם המבוארות ב- PubMed. עבור ~15.1% מהמסמכים ללא תווית, תוויות מיוחסות אם לפחות מונח MeSH אחד נמצא בכותרת או לפחות שניים נמצאים בתקציר. זה מאפשר לפרסומים שלא סווגו בעבר להיחשב בניתוח כריית טקסט. CaseOLAP LIFT גם מאפשר למשתמש לבחור קטעי פרסומים (למשל, כותרות ותקצירים בלבד, טקסט מלא או טקסט מלא למעט שיטות) במסגרת זמן מוגדרת (למשל, 2012-2022). התוכנה גם אוצרת באופן אוטומטי למחצה רשימה שחורה ספציפית למקרה שימוש של שמות חלבונים, ומפחיתה באופן חיוני את האסוציאציות החיוביות הכוזבות למחלות חלבון הקיימות בגישות אחרות. בסך הכל, שיפורים אלה מאפשרים התאמה אישית ואוטומציה רבה יותר, מרחיבים את כמות הנתונים הזמינים לניתוח ומניבים אסוציאציות בטוחות יותר למחלות חלבונים מחברות טקסט ביו-רפואיות גדולות.
CaseOLAP LIFT משלב ידע ביו-רפואי ומייצג את היחסים בין מושגים ביו-רפואיים שונים באמצעות גרף ידע, הממונף לחיזוי קשרים נסתרים בגרף. לאחרונה, שיטות חישוב מבוססות גרפים יושמו על הגדרות ביולוגיות, כולל שילוב וארגון מושגים ביו-רפואיים 24,25, ייעוד מחדש ופיתוח תרופות 26,27,28, ולקבלת החלטות קליניות מנתוני פרוטאומיקה 29.
כדי להדגים את כלי השירות של CaseOLAP LIFT במסגרת בניית גרף ידע, אנו מדגישים מקרה שימוש על חקירת הקשרים בין חלבונים מיטוכונדריאליים ושמונה קטגוריות של מחלות לב וכלי דם. ראיות מ~362,000 מסמכים רלוונטיים למחלות נותחו כדי לזהות את החלבונים והמסלולים המיטוכונדריאליים המובילים הקשורים למחלות. לאחר מכן, חלבונים אלה, החלבונים הקשורים לתפקוד שלהם ותוצאות כריית הטקסט שלהם שולבו בגרף ידע. גרף זה מונף בניתוח חיזוי קישורים מבוסס למידה עמוקה כדי לחזות קשרים בין מחלות חלבונים שלא דווחו עד כה בפרסומים ביו-רפואיים.
פרק המבוא מתאר את מידע הרקע והמטרות של הפרוטוקול שלנו. הסעיף הבא מתאר את השלבים של הפרוטוקול החישובי. לאחר מכן, מתוארות התוצאות המייצגות של פרוטוקול זה. לבסוף, נדון בקצרה במקרי השימוש בפרוטוקול חישובי, יתרונות, חסרונות ויישומים עתידיים.
CaseOLAP LIFT מאפשר לחוקרים לחקור קשרים בין חלבונים פונקציונליים (למשל, חלבונים הקשורים למרכיב תאי, תהליך ביולוגי או תפקוד מולקולרי) לבין קטגוריות ביולוגיות (למשל, מחלות). הפרוטוקול המתואר צריך להתבצע ברצף שצוין, כאשר פרוטוקול סעיף 2 ופרוטוקול סעיף 3 הם השלבים הקריטיים ביותר, שכן פרוטוקול סעיף 4 ופרוטוקול סעיף 5 תלויים בתוצאותיהם. כחלופה לפרוטוקול סעיף 1, ניתן לשכפל את קוד CaseOLAP LIFT ולגשת אליו ממאגר GitHub (https://github.com/CaseOLAP/caseolap_lift). יש לציין כי למרות בדיקות במהלך פיתוח התוכנה, באגים עלולים להתרחש. אם כן, יש לחזור על השלב שנכשל. אם הבעיה נמשכת, מומלץ לחזור על פרוטוקול סעיף 1 כדי להבטיח שנעשה שימוש בגירסה העדכנית ביותר של הגורם המכיל של Docker. סיוע נוסף זמין על ידי יצירת בעיה במאגר GitHub לקבלת תמיכה נוספת.
שיטה זו תומכת ביצירת השערות בכך שהיא מאפשרת לחוקרים לזהות ישויות בעלות עניין ולחשוף את הקשרים הפוטנציאליים ביניהן, שייתכן שלא יהיו נגישים בקלות במשאבים ביו-רפואיים קיימים. הקשרים בין חלבונים למחלות מאפשרים לחוקרים לקבל תובנות חדשות באמצעות המדדים הניתנים לפירוש של הציונים: ציוני הפופולריות מציינים את החלבונים הנחקרים ביותר ביחס למחלה, ציוני הייחודיות מצביעים על מחלות הייחודיות ביותר לחלבון, וציון CaseOLAP המשולב הוא שילוב של השניים. כדי למנוע זיהויים חיוביים כוזבים (למשל, עקב הומונימים), חלק מהכלים לכריית טקסט משתמשים ברשימה שחורה של מונחים כדי להימנעמ-9,11. כמו כן, CaseOLAP LIFT משתמש גם ברשימה שחורה אך מאפשר למשתמש להתאים את הרשימה השחורה למקרה השימוש שלו. לדוגמה, כאשר לומדים מחלת עורקים כליליים (CAD), “CAD” לא צריך להיחשב שם עבור חלבון “קספאז מופעל deoxyribonuclease”. עם זאת, כאשר לומדים נושאים אחרים, “CAD” עשוי בדרך כלל להתייחס לחלבון.
CaseOLAP LIFT מתאים את עצמו לכמות הנתונים הזמינים לכריית טקסט. פונקציונליות טווח התאריכים מקלה על הנטל החישובי ויוצרת גמישות ליצירת השערות (למשל, לחקור כיצד הידע המדעי על קשר חלבון-מחלה השתנה לאורך זמן). בינתיים, זקיפת התוויות ורכיבי הטקסט המלא משפרים את היקף הנתונים הזמינים לכריית טקסט. שני הרכיבים מושבתים כברירת מחדל כדי להפחית את עלויות החישוב, אך המשתמש עשוי להחליט לכלול כל אחד מהרכיבים. זקיפת התוויות היא שמרנית, והיא מסווגת נכון את רוב הפרסומים (87% דיוק) אך מפספסת תוויות קטגוריה אחרות (2% זוכרים). שיטה זו מסתמכת כיום על היוריסטיקה מבוססת כללים התואמת מילות מפתח של מחלות, ויש תוכניות לשפר את הביצועים באמצעות שימוש בטכניקות מידול נושאי מסמכים. מכיוון שדוחות רבים שאינם מסווגים נוטים להיות פרסומים עדכניים, מחקרים החוקרים טווח תאריכים עדכני (למשל, כל הפרסומים בשלוש השנים האחרונות) מקבלים שירות טוב יותר על ידי השבתת זקיפת התוויות. רכיב הטקסט המלא מגדיל את זמן הריצה ואת דרישות האחסון. יש לציין שרק למיעוט מהמסמכים יש את הטקסט המלא הזמין (~14% מהמסמכים במחקר שלנו). בהנחה ששמות החלבונים המוזכרים בסעיף השיטות של הפרסומים נוטים פחות להיות קשורים לנושאי המחלה, מומלץ לבצע שאילתות במאמרים בטקסט מלא למעט סעיף השיטות.
ציוני הקשר בין מחלות חלבון המתקבלים שימושיים עבור ניתוחים מסורתיים כגון אשכולות, הפחתת ממדיות, או ניתוחי העשרה (למשל, GO, מסלולים), עם יישום מסוים הכלול בחבילת תוכנה זו. כדי לקשר ציונים אלה בתוך הידע הביו-רפואי הקיים, גרף ידע נבנה באופן אוטומטי וניתן לחקור אותו באמצעות כלים להדמיית גרפים (לדוגמה, Neo4j32, Cytoscape33). גרף הידע יכול לשמש גם לניתוחי חיזוי (למשל, חיזוי קישורים של יחסי חלבון-מחלה לא מדווחים, זיהוי קהילתי של רשתות חלבונים, שיטות הליכה בשבילי איסוף פרסים).
בחנו את מדדי הערכת המודל עבור הקשרים החזויים בין חלבונים למחלות (טבלה 5). המודל מקצה ציון הסתברות בין 0.0 ל-1.0 לכל קשר בין חלבון למחלה, כאשר ציונים קרובים יותר ל-1.0 מצביעים על רמה גבוהה יותר של ביטחון בתחזית. ההערכה הפנימית של ביצועי המודל, שהתבססה על מדדים שונים כולל AUROC, דיוק, דיוק מאוזן, ספציפיות וזכירה, הצביעה על ביצועים כוללים מצוינים בעבודתו. עם זאת, ההערכה הדגישה גם ציון גרוע למדי עבור הדיוק (0.15) של הדגם, וכתוצאה מכך ציון AUPRC ו- F1 נמוך יותר. מחקרים עתידיים לשיפור מדד זה יסייעו להעלות את הביצועים הכוללים של המודל. אנו צופים שניתן יהיה להשיג זאת על ידי יישום מודלים מתוחכמים יותר של הטמעת גרפי ידע וחיזוי גרפים. בהתבסס על דיוק המודל של 0.15, החוקרים צריכים לצפות כ -15% זיהויים חיוביים; בפרט, מתוך כל 12,688 הקשרים בין מחלות חלבון שנחזו על ידי המודל, כ -15% הם קשרים חיוביים אמיתיים. ניתן למתן זאת על ידי התחשבות רק בקשר בין מחלות חלבון עם ציון הסתברות גבוה (למשל, 0.90 >); במקרה השימוש שלנו, סינון עם סף הסתברות של 0.90 הוביל לתחזיות ברמת ביטחון גבוהה של 1,583 קשרים. חוקרים עשויים למצוא את זה מועיל גם לבדוק ידנית את התחזיות האלה כדי להבטיח תוקף גבוה (ראו איור 7 כדוגמה). הערכה חיצונית של התחזיות שלנו קבעה כי מתוך 310 אסוציאציות של מחלות חלבונים מתוך מסד נתונים נרחב שאוצר DisGeNet19, 103 זוהו במחקר כריית הטקסט שלנו, ו-88 קשרים נוספים נחזו על ידי ניתוח גרף הידע שלנו עם ציון הסתברות >0.90.
בסך הכל, CaseOLAP LIFT כולל גמישות ושימושיות משופרות בעיצוב ניתוחים מותאמים אישית של הקשרים בין קבוצות חלבונים פונקציונליים וקטגוריות מרובות של מחלות בטקסט גדול. חבילה זו יעילה בממשק שורת פקודה חדש וידידותי למשתמש ומשוחררת כגורם מכיל של Docker, ובכך מפחיתה את הבעיות הקשורות לקביעת התצורה של סביבות התכנות ויחסי התלות בין התוכנה. ניתן להתאים בקלות את צינור CaseOLAP LIFT לחקר חלבונים מיטוכונדריאליים במחלות לב וכלי דם; לדוגמה, יישומים עתידיים של טכניקה זו יכולים לכלול חקירת הקשרים בין חלבונים כלשהם הקשורים למונחי GO כלשהם לבין כל קטגוריה ביו-רפואית. יתר על כן, הקשרים המדורגים בין חלבונים למחלות שזוהו על ידי פלטפורמת כריית טקסט זו חשובים בהכנת מערך הנתונים לשימוש בטכניקות מתקדמות של שפה טבעית. גרף הידע המתקבל מאפשר לחוקרים להמיר ממצאים אלה לידע אינפורמטיבי ביולוגי ומניח את הבסיס לניתוחי מעקב מבוססי גרפים.
The authors have nothing to disclose.
עבודה זו נתמכה על ידי המכונים הלאומיים לבריאות (NIH) R35 HL135772 ל- P.P., NIH T32 HL13945 ל- A.R.P. ו- D.S., NIH T32 EB016640 ל- A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 ל- A.R.P. ו- D.S., NIH R01 HL146739 עבור I.A., J.R., A.V., K.B. ו- TC Laubisch Endowment to P.P. ב- UCLA.