אנו מציגים פרוטוקול ו משויך קוד תיכנות, כמו גם דגימות מטה-נתונים כדי לתמוך מזהה אוטומטי המבוסס על ענן צמתים אגודת משפטים-קטגוריה מייצגת קונספט יחודי בתחום הידע שנבחר משתמש בספרות הביו-רפואית. האגודה הביטוי-קטגוריה לכמת על ידי פרוטוקול זה יכול להקל על בניתוחי עומק בתחום הידע שנבחר.
הצטברות מהירה של נתונים טקסטואליים ביו חרגה בהרבה את היכולת האנושית של curation ידנית וניתוח, המחייב כלי כריית טקסט הרומן לחלץ תובנות ביולוגי כמויות גדולות של דו חות מדעיים. צינור הקשר-מודעות סמנטי מקוון אנליטי לעיבוד (CaseOLAP), שפותח בשנת 2016, בהצלחה מכמתת קשרים הביטוי-הקטגוריה מוגדרת על-ידי המשתמש באמצעות הניתוח של נתונים טקסטואליים. CaseOLAP יש הרבה יישומים ביו-רפואי.
פיתחנו פרוטוקול עבור סביבת המבוסס על ענן צמתים תומך מכרות הביטוי קצה-לקצה של ניתוחים פלטפורמה. פרוטוקול שלנו כוללת נתונים preprocessing (למשל, הורדת החילוץ, ניתוח של מסמכי טקסט), של יצירת אינדקס וחיפוש עם Elasticsearch, יצירת מבנה המסמך פונקציונלי שנקרא טקסט-קוביה, וכימות יחסים הביטוי-קטגוריה באמצעות האלגוריתם CaseOLAP הליבה.
הנתונים שלנו preprocessing מפיק מיפויי מפתח-ערך עבור כל המסמכים מעורב. הנתונים עיבוד מקדים באינדקס כדי לבצע חיפוש של מסמכים כולל ישויות, אשר בהמשך מקלה על יצירת טקסט-קוביית וחישוב הציון CaseOLAP. ציוני הגלם שהושג CaseOLAP מפורשים באמצעות סדרה של ניתוחים אינטגרטיבית, כולל הפחתת dimensionality, קיבוץ באשכולות, הזמני, וניתוחים גיאוגרפי. בנוסף, הציונים CaseOLAP משמשים כדי ליצור מסד נתונים גרפיים, אשר מאפשר מיפוי סמנטי של המסמכים.
CaseOLAP מגדיר את הביטוי-קטגוריה יחסים ב מדויקת (מזהה מערכות יחסים) ועקבי (מאוד לשחזור), ולא באופן יעיל (תהליכים 100,000 מילים/שניה). בעקבות פרוטוקול זה, משתמשים יכולים לגשת סביבת מחשוב ענן כדי לתמוך משלהם תצורות ויישומים של CaseOLAP. פלטפורמה זו מציע נגישות משופרת, מסמיכה את הקהילה הביו-רפואית עם כלי הביטוי כריית ליישומים המחקר הביו-רפואי נרחב.
הערכה ידנית של מיליוני קבצי טקסט לצורך המחקר ההתאגדות הביטוי-קטגוריה (למשל., קבוצת גיל להתאחדות חלבון) אין מה להשוות עם יעילות המסופקים על ידי שיטה חישובית אוטומטית. אנחנו רוצים להציג את הפלטפורמה המבוססת על ענן צמתים ההקשר-aware סמנטי באינטרנט אנליטי לעיבוד (CaseOLAP) כשיטה כריית הביטוי עבור חישוב אוטומטי של שיוך הקטגוריה הביטוי בהקשר ביו.
פלטפורמת CaseOLAP, שהוגדרה לראשונה בשנת 20161, היא יעילה מאוד לעומת השיטות המסורתיות של ניהול נתונים וחישוביות בגלל שלה ניהול מסמכים פונקציונלי שנקרא טקסט-קיוב2,3, 4, המשווקת את המסמכים תוך שמירה על היררכיה הבסיסית ואת השכונות. זה הוחל המחקר הביו-רפואי5 ללמוד ישות-קטגוריה האגודה. פלטפורמת CaseOLAP מורכב שישה שלבים עיקריים לרבות להורדה, מיצוי של נתונים, ניתוח, אינדקס, יצירת טקסט-קוביה, ישות ספירת חישוב הציון CaseOLAP; אשר הוא המוקד העיקרי של הפרוטוקול(איור 1, איור 2, טבלה 1).
כדי ליישם את האלגוריתם CaseOLAP, המשתמש מגדיר קטגוריות עניין (למשל, מחלות, אבחון סימנים וסימפטומים, קבוצות הגיל,) וישויות עניין (כגון: חלבונים, תרופות). דוגמה אחת של קטגוריה כלולים במאמר זה הוא ‘קבוצות’ אשר ‘התינוק’, ‘הילד’, ‘גיל ההתבגרות’, ‘למבוגרים’ קטגוריות משנה כתאים של טקסט-קוביה, שמות חלבון (מילים נרדפות), קיצורים כישויות. כותרות נושאים רפואיים (MeSH) מיושמים לאחזר פרסומים התואם הקטגוריות מוגדרת (טבלה 2). רשת מתארי מאורגנים במבנה עץ היררכי להתיר חיפוש עבור פרסומים שונים רמות של ירידה לפרטים (מדגם בתרשים 3). פלטפורמת CaseOLAP מנצל את הנתונים יצירת אינדקס וחיפוש הפונקציונליות עבור curation של המסמכים הקשורים עם ישות אשר להמשיך לקדם את המסמך כדי ישות ספירת מיפוי וחישוב הציון CaseOLAP.
הפרטים של חישוב הציון CaseOLAP זמין פרסומים קודמים1,5. ציון זה מחושב באמצעות קריטריונים ספציפיים הדירוג מבוסס על מבנה מסמך טקסט-קוביה. הציון הסופי הוא התוצר של שלמות, הפופולריות הייחוד. שלמות מתאר ישות נציג יחידת סמנטי אינטגרלי מתייחסת קונספט משמעותי. שלמות של הביטוי על-ידי המשתמש נלקח להיות 1.0, כי הוא עומד בתור ביטוי רגיל בספרות. הייחוד מייצג את הרלוונטיות היחסי של ביטוי בקבוצת משנה אחד מהמסמכים לעומת שאר התאים האחרים. תחילה היא מחשבת את הרלוונטיות של ישות לתא מסוים על ידי השוואת המופע של חלבון על שם ערכת הנתונים היעד ומספקת תוצאה מנורמלת הייחוד . הפופולריות מייצג למעשה את הביטוי עם ניקוד גבוה יותר פופולריות מופיע בתדירות גבוהה יותר בקבוצת משנה אחד מהמסמכים. שמות נדירים החלבון בתא מדורגים נמוך, ואילו עלייה התדר שלהם שהזכרת יש תשואה שמפחית עקב היישום של הפונקציה לוגריתמי של תדר. באופן כמותי מודדים אלה למושגים שלושה תלוי בתדר (1) לטווח של הישות מעל תא על פני תאים (2) מספר המסמכים שיש ישות זו (מסמך תדירות) בתוך התא, על-פני התאים.
למדנו שני תרחישים נציג PubMed dataset באמצעות אלגוריתם שלנו. אנו מעוניינים בחלבונים מיטוכונדריאלי איך הם קשורים לשתי קטגוריות הייחודי של רשת מתארי; “קבוצות גיל”, “מחלות תזונתי”. באופן ספציפי, אחזרנו פרסומים 15,728,250 מפרסומים 20 שנה שנאספו על ידי PubMed (1998 עד 2018), ביניהם, תקצירים ייחודי 8,123,458 היו מתארי רשת מלאה. בהתאם לכך, 1,842 חלבון מיטוכונדריאלי אנושי שמות (כולל ראשי תיבות, מילים נרדפות), רכשה מ- UniProt (uniprot.org) כמו גם MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), הן באופן שיטתי בחן. שלהם שיוכים אלה פרסומים 8,899,019 וישויות נחקרו באמצעות פרוטוקול שלנו; אנו נבנה קוביה-טקסט, מחושבים הציונים CaseOLAP בהתאמה.
הראו כי האלגוריתם CaseOLAP יכולים ליצור אגודה כמותיים הביטוי מבוסס על קטגוריה מבוססת ידע על כמויות גדולות של נתונים טקסטואליים עבור הפקת תובנות משמעותיות. בעקבות הפרוטוקול שלנו אחד יכול לבנות את המסגרת CaseOLAP כדי ליצור קוביה-הטקסט הרצוי ולכמת ישות-קטגוריה שיוכים באמצעות חישוב הניקוד CaseOLAP. ציוני הגלם שהושג CaseOLAP שניתן לנקוט כדי ניתוח אינטגרטיבי כולל הפחתת dimensionality, קיבוץ באשכולות, זמני וניתוח גיאוגרפי, וכן על הקמת מסד נתונים גרפיים המאפשרת מיפוי סמנטי של המסמכים.
הישימות של אלגוריתם ה- דוגמאות של ישויות על-ידי המשתמש, מלבד חלבונים, יכול להיות רשימה של שמות ג’ין, סמים, סימנים ספציפיים, סימפטומים כולל שלהם קיצורים, מילים נרדפות. יתר על כן, קיימות אפשרויות רבות לבחירת קטגוריה להקל על ספציפיים על-ידי המשתמש ביו ניתוחים (למשל, אנטומיה [A], משמעת, הכיבוש [H], התופעות והתהליכים [G]). שלנו שני מקרי השימוש, כל הפרסומים המדעיים והנתונים טקסטואליים מאוחזרות ממסד הנתונים של MEDLINE באמצעות PubMed כמו מנוע החיפוש, שניהם מנוהל על ידי הספריה הלאומית של הרפואה. עם זאת, ניתן להחיל את הפלטפורמה CaseOLAP למסדי נתונים אחרים של עניין המכיל מסמכים ביו עם נתונים טקסטואליים כמו ה-FDA שלילית האירוע דיווח מערכת (FAERS). זהו בסיס נתונים פתוח המכיל מידע על אירועים קשים רפואי, דוחות שגיאה תרופות ל- FDA. בניגוד MEDLINE, FAERS, מסדי נתונים בבתי חולים המכיל רשומות אלקטרוניות בריאות מחולים לא פתוח לציבור, מוגבלים על ידי ביטוח בריאות הטלטלות דין וחשבון המעשה הידוע בשם HIPAA.
CaseOLAP אלגוריתם הוחלה בהצלחה על סוגים שונים של נתונים (למשל, מאמרי חדשות)1. מימוש אלגוריתם זה במסמכים ביו הפך בשנת 20185. הדרישות הישימות של אלגוריתם CaseOLAP הוא כל אחד מהמסמכים להקצותם עם מילות המפתח המשויך המושגים (למשל, רשת מתארי בפרסומים ביו, מילות מפתח במאמרים חדשות). אם לא נמצאו מילות מפתח, אפשר לייחס Autophrase6,,7 , כדי לאסוף את ביטויים הנציגה העליונה ולבנות את הרשימה ישות לפני יישום פרוטוקול שלנו. פרוטוקול שלנו אינו מספק את הצעד כדי לבצע Autophrase.
השוואה עם אלגוריתמים אחרים. כבר מתפתח המושג באמצעות נתונים-קוביה8,9,10 ו-3,2,4 קוביות טקסט מאז 2005 עם הפיתוחים החדשים כדי להפוך כריית מידע רלוונטי יותר. הרעיון של עיבוד אנליטי מקוון (OLAP)11,12,13,14,15 כריית מידע ומודיעין עסקי חוזר עד 1993. OLAP, באופן כללי, אגרגטים את המידע במערכות מרובות, ומאחסן אותה בתבנית רב-מימדי. ישנם סוגים שונים של מערכות OLAP מיושם כריית נתונים. כך למשל עיבוד טרנזקציות/האנליטי (1) היברידית (HTAP)16,17, OLAP רב-ממדי (MOLAP) (2)18,19-קוביית OLAP יחסיים (ROLAP) בסיס, ו- (3)20.
באופן ספציפי, האלגוריתם CaseOLAP הושוותה עם אלגוריתמים רבים הקיימים, באופן ספציפי, עם שיפורים פילוח הביטוי שלהם, כולל TF-צה ל + Seg, MCX + Seg, MCX ו- SegPhrase. יתר על כן, RepPhrase (RP, הידוע גם בשם SegPhrase +) הושוותה עם וריאציות אבלציה משלו, כולל RP (1) בלי המדד שלמות שולבו (RP לא INT), (2) RP ללא מדד הפופולריות שולבו (RP לא פופ) ו- (3) RP בלי הייחוד מדד משולב (RP לא דיס). תוצאות בחינת ביצועים מוצגות במחקר על-ידי Fangbo טאו ואח ‘1.
יש עדיין אתגרים על כריית מידע אשר יכול להוסיף פונקציונליות נוספת על שמירה של מאחזר את הנתונים ממסד הנתונים. מודעות הקשר סמנטי אנליטי לעיבוד (CaseOLAP) מיישם באופן שיטתי את Elasticsearch כדי לבנות מסד נתונים יצירת אינדקס של מיליוני מסמכים (5 לפרוטוקול). הקוביה-הטקסט הוא מבנה המסמך בנתונים הכלולים באינדקס עם קטגוריות שסופק על-ידי המשתמש (6 לפרוטוקול). זה משפר את הפונקציונליות על מסמכי בתוך ועל -פני התא של הקוביה הטקסט, מאפשרות לנו לחשב את המונח תדר של הישויות מעל המסמך מסמך תדירות מעל תא מסוים (8 לפרוטוקול). הניקוד הסופי CaseOLAP מנצל חישובים אלה בתדר פלט ציון סופי (9 לפרוטוקול). ב 2018, נוכל ליישם אלגוריתם זה ללמוד ECM חלבונים ומחלות לב 6 כדי לנתח עמותות חלבון-מחלה. ניתן למצוא את הפרטים של מחקר זה במחקר על ידי Liem, התובע המחוזי ואח ‘5. המציין כי CaseOLAP יכול להיות בשימוש נרחב הקהילה הביו-רפואית חקר מגוון של מחלות, מנגנונים.
מגבלות של האלגוריתם. כריית הביטוי עצמו היא טכניקה לניהול של מושגים חשובים לאחזר נתונים טקסטואליים. תוך גילוי ישות הקטגוריה שיוך להוסיף1כמו כמות מתמטית (וקטורית), טכניקה זו אין אפשרות להבין את הקוטביות (למשל, הנטייה חיובי או שלילי) של האגודה. אחד יכול לבנות את סיכום כמותי של נתוני שימוש במבנה המסמך הטקסט-Cude עם ישויות שהוקצו, קטגוריות, אך לא ניתן להשיג תפיסה איכותי עם granularities מיקרוסקופיים. כמה מושגים מתפתחים באופן רציף מן העבר עד עכשיו. סיכום מוצג עבור שיוך ישות-קטגוריה ספציפית כולל מקרים כל ברחבי הספרות. זה אולי חוסר התפשטות הטמפורלי של החידוש. בעתיד, אנו מתכננים לפנות מגבלות אלה.
יישומים עתידיים. כ 90% מהמידע שנצבר בעולם נמצא נתוני הטקסט לא מובנים. מציאת של הביטוי נציג והקשר הישויות המוטבעים בטקסט היא משימה חשובה מאוד עבור היישום של טכנולוגיות חדשות (למשל, האינטליגנציה המלאכותית של למידה חישובית, שאיבת מידע,). כדי להפוך את נתוני הטקסט מכונה לקריא, הנתונים צריך להיות מאורגנים במסד הנתונים שעליהם ניתן ליישום השכבה הבאה של כלים. בעתיד, אלגוריתם זה יכול להיות צעד מכריע בהפיכת כריית נתונים יותר פונקציונלי דליית מידע, כימות של השיוכים ישות-קטגוריה.
The authors have nothing to disclose.
עבודה זו נתמכת באופן חלקי על ידי הלאומי ללב, ריאות ודם המכון: R35 HL135772 (כדי פינג פ); לאומי כללי לרפואה למדעי: U54 GM114833 (כדי פינג פ ק ווטסון, וואנג ו); U54 GM114838 (כדי ג’יי האן); מתנה של אויגן & קרן הוג. לארי, ד ר ס סטי; התרומה T.C. Laubisch ב UCLA (כדי פינג עמ’).