מטרת פרוטוקול זה היא ליצור ולאצור ביעילות ספריות מבנה של מולקולות קטנות באמצעות תוכנות קוד פתוח.
לדור ממצה של מבנים מולקולריים יש יישומים כימיים וביוכימיים רבים כגון תכנון תרופות, בניית מסדי נתונים מולקולריים, חקר ביוכימיה חלופית ועוד רבים אחרים. מבחינה מתמטית, מדובר במחוללי גרפים עם אילוצים כימיים. בשטח, הגנרטור היעיל ביותר כיום (MOLGEN) הוא מוצר מסחרי, המגביל את השימוש בו. לחלופין לכך, מחולל מבנה מולקולרי נוסף, MAYGEN, הוא כלי קוד פתוח עדכני עם יעילות דומה ל- MOLGEN ויכולת המשתמשים לשפר את ביצועיו על ידי הוספת תכונות חדשות. אחד מתחומי המחקר שיכולים להפיק תועלת מהתפתחות זו הוא האסטרוביולוגיה; מחוללי מבנה מאפשרים לחוקרים להשלים נתונים ניסיוניים עם אפשרויות חישוביות לביוכימיה חלופית. פרוטוקול זה מפרט מקרה שימוש אחד ליצירת מבנה באסטרוביולוגיה, כלומר יצירה ואוצרות של ספריות חומצות אלפא-אמינו. באמצעות מחוללי מבנים בקוד פתוח וכלים כימינופורמטיים, ניתן ליישם את הפרקטיקות המתוארות כאן מעבר לאסטרוביולוגיה ליצירה ואוצרות בעלות נמוכה של ספריות מבנים כימיים לכל שאלת מחקר.
יצירת מבנה מולקולרי משמשת כיישום מעשי של הבעיה הכללית של יצירת גרפים ממצה; בהינתן מספר צמתים (אטומים) ואילוצים על הקישוריות שלהם (למשל, ערכיות, ריבוי קשרים, תת-מבנים רצויים/לא רצויים), כמה גרפים מחוברים (מולקולות) אפשריים? מחוללי מבנים ראו יישום נרחב בגילוי תרופות ובפיתוח תרופות, שם הם יכולים ליצור ספריות עצומות של מבנים חדשים לסינון סיליקו 1.
מחולל המבנה הראשון, CONGEN, פותח עבור פרויקט הבינה המלאכותית הראשון בכימיה אורגנית, DENDRAL2 (קיצור של DENDRitic ALgorithm). מספר יורשי תוכנה של DENDRAL דווחו בספרות; עם זאת, לא כולם נשמרו או היו יעילים. נכון לעכשיו, MOLGEN3 הוא מחולל המבנה המולקולרי החדיש ביותר. למרבה הצער עבור רוב המשתמשים הפוטנציאליים, הוא מקור סגור ודורש דמי רישוי. לפיכך, היה צורך במחולל מבנה קוד פתוח יעיל שיכול להסתגל בקלות ליישומים ספציפיים. אחד האתגרים של גנרטור מבנה יעיל הוא ניהול פיצוץ קומבינטורי; ככל שגודלה של נוסחה מולקולרית גדל, גודלו של מרחב החיפוש הכימי גדל באופן אקספוננציאלי. סקירה עדכנית בוחנת עוד יותר את ההיסטוריה והאתגרים של מבנה מולקולרי דור4.
לפני 2021, מחולל המולקולות המקבילות (PMG)5 היה מחולל מבנה הקוד הפתוח המהיר ביותר, אך הוא עדיין היה איטי יותר מ-MOLGEN בסדרי גודל. MAYGEN6 מהיר בערך פי 47 מ-PMG ואיטי פי 3 בערך מ-MOLGEN, מה שהופך את MAYGEN למחולל מבנה הקוד הפתוח המהיר והיעיל ביותר שקיים. השוואות מפורטות יותר ומבחני השוואת ביצועים ניתן למצוא במאמר המציג את MAYGEN6. מאפיין מרכזי של התוכנה הוא הבדיקה מבוססת הסדר הלקסיקוגרפי שלה למבנים קנוניים, שיטה מסודרת ליצירת גרפים המבוססת על אלגוריתם שרייר-סימס7 . ניתן לשלב את התוכנה בקלות בפרויקטים אחרים ולשפר אותה לצרכי המשתמשים.
בדומה ל-MOLGEN ול-PMG, MAYGEN לוקחת נוסחה מולקולרית המוגדרת על-ידי המשתמש ומייצרת את כל המבנים האפשריים לנוסחה זו. לדוגמה, אם משתמש מריץ את MAYGEN עם הנוסחה C5H12, MAYGEN תייצר את כל המבנים האפשריים המכילים חמישה אטומי פחמן ושנים עשר אטומי מימן. בניגוד למקבילה בקוד פתוח שלה PMG, MAYGEN יכולה גם להכיל נוסחאות מולקולריות “מטושטשות” המשתמשות במרווחי זמן במקום במספרים בדידים לספירה של כל אלמנט. לדוגמה, אם משתמש מריץ את MAYGEN עם הנוסחה C5-7H12-15, MAYGEN תיצור את כל המבנים האפשריים המכילים בין חמישה לשבעה אטומי פחמן ושנים עשר וחמישה עשר אטומי מימן, מה שיאפשר ייצור פשוט של מבנים עם מגוון רחב של הרכבים אטומיים.
אסטרוביולוגיה היא תחום אחד כזה שיכול להפיק תועלת ממחוללי מבנים מולקולריים. נושא פופולרי באסטרוביולוגיה הוא האבולוציה של האלפבית של חומצות האמינו המשותפות לכל החיים הקיימים על פני כדור הארץ. אחד המאפיינים המגדירים של האב הקדמון המשותף האוניברסלי האחרון (LUCA) הוא השימוש שלו בעשרים חומצות אמינו מקודדות גנטית לבניית חלבונים 8,9. בהתבסס על מטא-אנליזות של עבודה בתחומים מרובים 10,11,12, כ-10 מחומצות האמינו הללו (Gly, Ala, Val, Asp, Glu, Ser, Thr, Thr, Leu, Ile, Pro) נוצרות בקלות בתנאים אביוטיים וככל הנראה מהוות את האלפבית של חומצות האמינו של אורגניזמים טרום-LUCA. עם הזמן, האלפבית “המוקדם” הזה הורחב בתגובה לצרכים מבניים ותפקודיים שונים. לדוגמה, סקירה עדכנית של Moosmann13 טוענת כי תוספת של חברים חדשים יותר של חומצות האמינו המקודדות גנטית (כלומר Met, Tyr ו- Trp) אפשרה הישרדות בסביבות עשירות בחמצן על ידי מניעת התפשטות תוך-תאית של מיני חמצן תגובתי.
חבילה הולכת וגדלה של טכניקות כימיה אנליטית מאפשרת תובנה לגבי מבני חומצות האמינו שיכולים להיווצר בתנאים אביוטיים. סקירה אחרונה14 של סימקוס ואחרים מפרטת את השיטות ששימשו לאיתור תרכובות אורגניות רבות במטאוריטים, כמו גם תרכובות אורגניות מהדמיות במבחנה של סביבות כדור הארץ הקדומות 15,16,17. יצירה שיטתית של מבנים כימיים מאפשרת לחוקרים לחקור מעבר לתרכובות האורגניות שזוהו באמצעות מכשור, ומאכלסת את המרחב המבני סביב “איים” מבניים שזוהו על ידי כימיה אנליטית. במקרה של חומצות האמינו “המוקדמות”, יצירת מבנה שיטתית זו מראה כימיה אפשרית של חלבונים הזמינה לחיים המוקדמים מבלי להגביל את החקירה למבנים שזוהו בניסוי בתנאי סינתזה אביוטית. עם ערכות כלים של כימינופורמטיקה בקוד פתוח ומחוללי מבנים יעילים כגון MAYGEN, יצירה וחקירה של ספריות מבנים כימיים חדשניות היא כעת קלה יותר מאי פעם ויכולה להנחות חקירות מפורטות יותר של כימיה חלופית של החיים.
תכונה אחת של חומצות האמינו “המוקדמות” היא מחסור בגופרית. המטא-אנליזות שהוזכרו קודם לכן מחשיבות בדרך כלל את חומצות האמינו המקודדות המכילות גופרית (Cys and Met) כתוספות מאוחרות יחסית לקוד הגנטי, מסקנות הנתמכות על ידי היעדר חומצות אמינו המכילות גופרית במטאוריטים ובניסויים בצינורות ניצוץ. עם זאת, תרכובות אורגנוסולפור מזוהות בקלות בשביטים ובמטאוריטים22, ואנליזה מחודשת של ניסויים בצינורות ניצוץ באמצעות גז H2S מצאה חומצות אמינו ותרכובות אורגניות אחרות המכילות גופרית16. כאשר שוקלים אלפבית של חומצות אמינו חלופיות, כדאי לחקור אחת מועשרת בגופרית.
בפרוטוקול הנ”ל, יצירת מבנים וסינון תת-מבנה נחשבים לשלבים קריטיים; בהתאם להרכב של ספריית המבנה המוגמרת, ייתכן שחוקר יצטרך לבצע רק את שני השלבים הללו. הוראות ותוכנה לפעולות נוספות (החלפת פסאודו-אטום והוספת תת-מבנים (במקרה זה, כיפה של חומצות אמינו)) נכללות לחישוב מתאר רלוונטי יותר (ההצמדה מבטיחה שחישובי XLogP יושפעו מהצד ולא מקבוצות האמין או הקרבוקסיל של עמוד השדרה) ויצירת מבנה מהיר יותר באמצעות שימוש בפסאודואטום, הנדון ביתר פירוט בהמשך. בנוסף, חישוב תיאור נעשה כאן כדרך קלה להמחיש את מגוון המבנים שנוצרו ולהשוות את ההשפעות של העשרת גופרית בספריות המוגמרות.
בעוד ש-PaDEL-Descriptor יכול לחשב אלפי תכונות מולקולריות, נפח מולקולרי (כפי שחושב נפח ואן דר ואלס) ומקדם חלוקה (כ-XLogP) שימשו כאן משתי סיבות שונות. ראשית, שני מתארים אלה מודדים תכונות מולקולריות (גודל והידרופוביות, בהתאמה) המוכרות לרוב הכימאים והביולוגים. שנית, במקרה של חומצות אמינו, שתי תכונות אלה הן משמעותיות. במשך עשרות שנים, גודל חומצות אמינו והידרופוביות היו ידועים כמשפיעים על התרמודינמיקה של קיפול חלבונים23. שתי תכונות אלה מסייעות להסביר את תדירות ההחלפה של חומצות אמינו שהיו חלק בלתי נפרד מהבנת האבולוציה של חלבונים24.
הדוגמה לעיל מראה כי בשני התיאורים שנחקרו (נפח מולקולרי והידרופוביות), החלפת גופרית דיוולנטית בפחמן ושני מימן אינה מניבה שינויים משמעותיים. את העלייה הקלה והלא משמעותית בנפח המולקולרי הממוצע כתוצאה מהחלפת גופרית (איור 3) ניתן לייחס לרדיוס הקוולנטי הגדול יותר של הגופרית (כ-22:00) בהשוואה לפחמן sp3 (~75 pm) או sp2 (~73 pm)פחמן 25. באופן דומה, לתחליפי גופרית יש השפעה מינימלית על ה-XLogP הממוצע (איור 4). ההשפעה הגדולה ביותר הייתה בין ספריות ה-VAIL וה-VAIL_S, ככל הנראה בשל שילוב של ספריית ה-VAIL כהידרופובית במיוחד (ה-sidechains הם רק פחמימנים) וקבוצות סולפהידריל חומציות הרבה יותר מקבוצות המתיל שהן היו מחליפות. ההשפעה המינימלית של החלפת גופרית ניכרת באיור 2, שבו ספריות עם תחליפי גופרית תופסות את אותו מרחב כימי כמו ספריות מקבילות ללא החלפת גופרית.
הירידה במספר המבנים (איור 5A) ובזמן הדרוש ליצירת המבנים האלה (איור 5B) בעת שימוש בפסאודואטום אינה מפתיעה. שימוש בפסאודואטום מקטין את מספר האטומים הכבדים שיש לשלב בגרף כימי, מקטין את מספר צמתי הגרפים ומניב ירידות אקספוננציאליות בזמן הייצור ובמספר המבנים. כאן, הבחירה בזרחן טריוולנטי כפסאודו-אטום נובעת מביוכימיה בסיסית (בהיעדר תוספת פוסט-טרנסלציונית של קבוצות פוספטים, אין חומצות אמינו מקודדות גנטית המכילות זרחן) וערכיות האטום שתחליף אותו (זרחן טריוולנטי יכול בקלות להיות מוחלף בפחמן טטרוולנטי שנקשר בנפרד לאטום אחר או לקבוצת אטומים אחרים). בעוד שהקוד המסופק להחלפת פסאודו-אטומים הוא ספציפי להחלפת זרחן טריוולנטי בתת-מבנה אלנין, משתמשים יכולים להתאים אישית את הקוד כך שיעבוד עם פסאודו-אטומים שונים או תת-מבנים חלופיים שונים, וייתכן שהם משתמשים במספר פסאודו-אטומים במהלך יצירת המבנה הראשוני ולאחר מכן החלפת כל פסאודו-אטום בתת-מבנה מולקולרי גדול יותר.
שיטות ליצירת מבנה הדומות לאלה שבהן משתמשת MAYGEN (ושיטות אחרות כגון רשתות עצביות) כבר משמשות לגילוי תרופות כדי ליצור ספריות מורכבות לסינון סיליקו ; סקירה אחרונה4 דנה בשיטות אלה ביתר פירוט. מכיוון ששיטות אלה מיועדות בעיקר ליצירת מולקולות דמויות תרופה, ישנן מגבלות מסוימות על יכולתן לייצר מולקולות, כגון שימוש בתכונות ביולוגיות או פרמצבטיות כדי להגביל את המבנים שנוצרו (QSPR/QSAR הפוך) או יצירת מבנים ממספר מוגדר מראש של אבני בניין תת-מבניות. ככל שהאסטרוביולוגיה מתמקדת יותר בריבוי התרכובות האורגניות שיכולות להיווצר באופן אביוטי ופחות במוצרים סופיים כלשהם או בתכונותיהם, יצירת המבנה הממצה של MAYGEN אידיאלית ליצירת ספריות מבנים כדי לענות על שאלות אסטרוביולוגיות. הגישה לסינון תת-מבנה המתוארת כאן (המבוצעת לאחר יצירת מבנה באמצעות תוכנית חיצונית) שונה מהתוכנית המתחרה MOLGEN בכך שסינון תת-המבנה של MOLGEN מתרחש במהלך יצירת המבנה. מכיוון ש- MAYGEN הוא קוד פתוח, לא רק שהוא נגיש יותר מ- MOLGEN בשל עלות הרישוי של MOLGEN, אלא שאנשים פרטיים יכולים ליישם תכונות חדשות כגון סינון תת-מבנה במהלך יצירת מבנה.
כפי שנכתב, הפרוטוקול המתואר כאן מתמקד ביצירה ואוצרות של ספריות של חומצות אלפא-אמינו קטנות יחסית. כדי ליצור ספריות שונות, משתמשים יכולים לתת נוסחאות מולקולריות שונות ל- MAYGEN, לשנות את סינון תת-המבנה על-ידי שינוי גודל הטבעת המרבי המותר ואת ערכיות הקשר, או לערוך את קבצי הרשימה הטובה והרשימה הרעה כדי להוסיף או להסיר תבניות תת-מבנה. שינויים בפרוטוקולים הכוללים שינוי אופן ההוספה או ההחלפה של אטומים ותתי-מבנים (החלפה פסאודו-אטומית וכיפה מולקולרית) הם אפשריים, אך ידרשו תשומת לב רבה יותר למגבלות ערכיות כדי למנוע שגיאות RDKit לגבי ערכיות שגויה במבנים שהשתנו.
הפרוטוקול המפורט לעיל מיועד לחומצות אלפא-אמינו קטנות. עם זאת, הפורמט הכללי (יצירת מבנה מקיף באמצעות פסאודו-אטומים, ואחריו סינון תת-מבנה ושינויים מולקולריים) גמיש מאוד עבור תרכובות מעבר לחומצות אמינו קטנות. אפילו באסטרוביולוגיה, הליך דומה שבוצע לאחרונה באמצעות MOLGEN שימש לחקר איזומרים חוקתיים של חומצות גרעין26. בנוסף לכלים שתוארו לעיל, ניתן לשלב את MAYGEN עם כלים אחרים של כימינופורמטיקה בקוד פתוח כדי להפוך את היצירה והניתוח של מבנים כימיים חדשניים למשתלמים ונגישים למגוון רחב של תחומי מחקר.
The authors have nothing to disclose.
מאי מכירה במימון של קרן קרל-צייס. כל הנתונים נוצרו באמצעות Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |