Summary

אוצרות של ספריות כימיות חישוביות שהוכחו באמצעות חומצות אלפא-אמינו

Published: April 13, 2022
doi:

Summary

מטרת פרוטוקול זה היא ליצור ולאצור ביעילות ספריות מבנה של מולקולות קטנות באמצעות תוכנות קוד פתוח.

Abstract

לדור ממצה של מבנים מולקולריים יש יישומים כימיים וביוכימיים רבים כגון תכנון תרופות, בניית מסדי נתונים מולקולריים, חקר ביוכימיה חלופית ועוד רבים אחרים. מבחינה מתמטית, מדובר במחוללי גרפים עם אילוצים כימיים. בשטח, הגנרטור היעיל ביותר כיום (MOLGEN) הוא מוצר מסחרי, המגביל את השימוש בו. לחלופין לכך, מחולל מבנה מולקולרי נוסף, MAYGEN, הוא כלי קוד פתוח עדכני עם יעילות דומה ל- MOLGEN ויכולת המשתמשים לשפר את ביצועיו על ידי הוספת תכונות חדשות. אחד מתחומי המחקר שיכולים להפיק תועלת מהתפתחות זו הוא האסטרוביולוגיה; מחוללי מבנה מאפשרים לחוקרים להשלים נתונים ניסיוניים עם אפשרויות חישוביות לביוכימיה חלופית. פרוטוקול זה מפרט מקרה שימוש אחד ליצירת מבנה באסטרוביולוגיה, כלומר יצירה ואוצרות של ספריות חומצות אלפא-אמינו. באמצעות מחוללי מבנים בקוד פתוח וכלים כימינופורמטיים, ניתן ליישם את הפרקטיקות המתוארות כאן מעבר לאסטרוביולוגיה ליצירה ואוצרות בעלות נמוכה של ספריות מבנים כימיים לכל שאלת מחקר.

Introduction

יצירת מבנה מולקולרי משמשת כיישום מעשי של הבעיה הכללית של יצירת גרפים ממצה; בהינתן מספר צמתים (אטומים) ואילוצים על הקישוריות שלהם (למשל, ערכיות, ריבוי קשרים, תת-מבנים רצויים/לא רצויים), כמה גרפים מחוברים (מולקולות) אפשריים? מחוללי מבנים ראו יישום נרחב בגילוי תרופות ובפיתוח תרופות, שם הם יכולים ליצור ספריות עצומות של מבנים חדשים לסינון סיליקו 1.

מחולל המבנה הראשון, CONGEN, פותח עבור פרויקט הבינה המלאכותית הראשון בכימיה אורגנית, DENDRAL2 (קיצור של DENDRitic ALgorithm). מספר יורשי תוכנה של DENDRAL דווחו בספרות; עם זאת, לא כולם נשמרו או היו יעילים. נכון לעכשיו, MOLGEN3 הוא מחולל המבנה המולקולרי החדיש ביותר. למרבה הצער עבור רוב המשתמשים הפוטנציאליים, הוא מקור סגור ודורש דמי רישוי. לפיכך, היה צורך במחולל מבנה קוד פתוח יעיל שיכול להסתגל בקלות ליישומים ספציפיים. אחד האתגרים של גנרטור מבנה יעיל הוא ניהול פיצוץ קומבינטורי; ככל שגודלה של נוסחה מולקולרית גדל, גודלו של מרחב החיפוש הכימי גדל באופן אקספוננציאלי. סקירה עדכנית בוחנת עוד יותר את ההיסטוריה והאתגרים של מבנה מולקולרי דור4.

לפני 2021, מחולל המולקולות המקבילות (PMG)5 היה מחולל מבנה הקוד הפתוח המהיר ביותר, אך הוא עדיין היה איטי יותר מ-MOLGEN בסדרי גודל. MAYGEN6 מהיר בערך פי 47 מ-PMG ואיטי פי 3 בערך מ-MOLGEN, מה שהופך את MAYGEN למחולל מבנה הקוד הפתוח המהיר והיעיל ביותר שקיים. השוואות מפורטות יותר ומבחני השוואת ביצועים ניתן למצוא במאמר המציג את MAYGEN6. מאפיין מרכזי של התוכנה הוא הבדיקה מבוססת הסדר הלקסיקוגרפי שלה למבנים קנוניים, שיטה מסודרת ליצירת גרפים המבוססת על אלגוריתם שרייר-סימס7 . ניתן לשלב את התוכנה בקלות בפרויקטים אחרים ולשפר אותה לצרכי המשתמשים.

בדומה ל-MOLGEN ול-PMG, MAYGEN לוקחת נוסחה מולקולרית המוגדרת על-ידי המשתמש ומייצרת את כל המבנים האפשריים לנוסחה זו. לדוגמה, אם משתמש מריץ את MAYGEN עם הנוסחה C5H12, MAYGEN תייצר את כל המבנים האפשריים המכילים חמישה אטומי פחמן ושנים עשר אטומי מימן. בניגוד למקבילה בקוד פתוח שלה PMG, MAYGEN יכולה גם להכיל נוסחאות מולקולריות “מטושטשות” המשתמשות במרווחי זמן במקום במספרים בדידים לספירה של כל אלמנט. לדוגמה, אם משתמש מריץ את MAYGEN עם הנוסחה C5-7H12-15, MAYGEN תיצור את כל המבנים האפשריים המכילים בין חמישה לשבעה אטומי פחמן ושנים עשר וחמישה עשר אטומי מימן, מה שיאפשר ייצור פשוט של מבנים עם מגוון רחב של הרכבים אטומיים.

אסטרוביולוגיה היא תחום אחד כזה שיכול להפיק תועלת ממחוללי מבנים מולקולריים. נושא פופולרי באסטרוביולוגיה הוא האבולוציה של האלפבית של חומצות האמינו המשותפות לכל החיים הקיימים על פני כדור הארץ. אחד המאפיינים המגדירים של האב הקדמון המשותף האוניברסלי האחרון (LUCA) הוא השימוש שלו בעשרים חומצות אמינו מקודדות גנטית לבניית חלבונים 8,9. בהתבסס על מטא-אנליזות של עבודה בתחומים מרובים 10,11,12, כ-10 מחומצות האמינו הללו (Gly, Ala, Val, Asp, Glu, Ser, Thr, Thr, Leu, Ile, Pro) נוצרות בקלות בתנאים אביוטיים וככל הנראה מהוות את האלפבית של חומצות האמינו של אורגניזמים טרום-LUCA. עם הזמן, האלפבית “המוקדם” הזה הורחב בתגובה לצרכים מבניים ותפקודיים שונים. לדוגמה, סקירה עדכנית של Moosmann13 טוענת כי תוספת של חברים חדשים יותר של חומצות האמינו המקודדות גנטית (כלומר Met, Tyr ו- Trp) אפשרה הישרדות בסביבות עשירות בחמצן על ידי מניעת התפשטות תוך-תאית של מיני חמצן תגובתי.

חבילה הולכת וגדלה של טכניקות כימיה אנליטית מאפשרת תובנה לגבי מבני חומצות האמינו שיכולים להיווצר בתנאים אביוטיים. סקירה אחרונה14 של סימקוס ואחרים מפרטת את השיטות ששימשו לאיתור תרכובות אורגניות רבות במטאוריטים, כמו גם תרכובות אורגניות מהדמיות במבחנה של סביבות כדור הארץ הקדומות 15,16,17. יצירה שיטתית של מבנים כימיים מאפשרת לחוקרים לחקור מעבר לתרכובות האורגניות שזוהו באמצעות מכשור, ומאכלסת את המרחב המבני סביב “איים” מבניים שזוהו על ידי כימיה אנליטית. במקרה של חומצות האמינו “המוקדמות”, יצירת מבנה שיטתית זו מראה כימיה אפשרית של חלבונים הזמינה לחיים המוקדמים מבלי להגביל את החקירה למבנים שזוהו בניסוי בתנאי סינתזה אביוטית. עם ערכות כלים של כימינופורמטיקה בקוד פתוח ומחוללי מבנים יעילים כגון MAYGEN, יצירה וחקירה של ספריות מבנים כימיים חדשניות היא כעת קלה יותר מאי פעם ויכולה להנחות חקירות מפורטות יותר של כימיה חלופית של החיים.

Protocol

הערה: ראה איור 1 לסיכום הפרוטוקול וטבלת החומרים לקבלת פרטים על התוכנה שבה נעשה שימוש. איור 1: תרשים זרימה מסכם של הפרוטוקול. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה. 1. הורדות תוכנה וקבצים הערה: כל התוכניות ניתנות לשימוש חופשי לשימוש אישי וניתן להפעיל אותן במחשב אישי. צור ספריה חדשה עבור פרוייקט זה. מקם את הקבצים ואת קבצי ההפעלה כאן לגישה נוחה. הורד והתקן את חבילות התוכנה הדרושות. הורד את הגירסה העדכנית ביותר של MAYGEN כקובץ .jar.הערה: MAYGEN זמין באופן חופשי כקובץ .jar https://github.com/MehmetAzizYirik/MAYGEN/releases הורד והתקן את תוכנת ניהול החבילות Conda ואת ערכת הכלים של כימינופורמטיקה RDKit18.הערה: RDKit תסנן את המבנים המולקולריים המיוצרים על ידי MAYGEN ופועלת בצורה הטובה ביותר בסביבת קונדה. הוראות להורדת פלטפורמת קונדה ניתן למצוא בכתובת https://conda.io/projects/conda/en/latest/user-guide/install/index.html. ניתן למצוא את הוראות ההתקנה והגדרת הסביבה של RDKit https://www.rdkit.org/docs/Install.html. התקן את RDKit בסביבת Conda הראשית במקום בסביבת RDKit נפרדת באמצעות הנחיית Anaconda. במערכות Windows, חפש את “Anaconda prompt” ולחץ על קיצור הדרך שנוצר כדי לפעול. במערכות MacOS ו-Linux, יש לקיים אינטראקציה עם Conda דרך המסוף מבלי להפעיל תוכניות נוספות. לאחר מכן, הקלד את הפקודה הבאה והקש Enter כדי לפעול, וענה בחיוב על כל שאלה שעולה במהלך ההתקנה:conda install -c rdkit rdkit.בעוד שישנן תוכניות רבות לחישוב מתארים הזמינות באופן חופשי, דוגמה זו משתמשת ב- PaDEL-Descriptor19, מחשבון חופשי ומהיר לתיאורים מולקולריים וטביעות אצבע. הורד ושמור את קובץ .jar בתיקיית הפרוייקט.הערה: ניתן להוריד את PaDEL-Descriptor בחינם http://www.yapcwsoft.com/dd/padeldescriptor/. הורד את מחברות Jupyter וקבצי טקסט של תבניות תת-מבנה מקבצים משלימים 1-5.הערה: ניתן להוריד גם מחברות Jupyter מדף GitHub הבא: https://github.com/cmayerb1/AA-structure-manip. 2. יצירת מבנה באמצעות MAYGEN בשורת פקודה, נווט אל הספריה המכילה את קובץ ההפעלה MAYGEN .jar. עבור כל נוסחה כימית בעלת עניין, הפעל את MAYGEN באמצעות הפקודה הבאה:java -jar [MAYGEN .jar שם הקובץ] -f [נוסחה כימית] -v -o [תיקייה עבור פלט MAYGEN] -m -sdf.הערה: פעולה זו תשמור קובץ .sdf בתיקיה המיועדת, הקרויה על שם הנוסחה שבה נעשה שימוש. אם הנוסחה היא נוסחה מטושטשת במקום נוסחה בדידה, החלף את דגל ה-f בדגל -מטושטש , וסגור את כל מרווחי היסוד בסוגריים (לדוגמה, השתמש ב-C[5-7]H[12-15] כדי להבטיח שלכל המבנים הנוצרים יהיו בין 5 ל-7 אטומי פחמן ובין 12 ל-15 אטומי מימן). 3. מסנן תרכובות עם תת-מבנים לא רצויים פתח הנחיית Anaconda (ראה שלב 1.2.2.1) ונווט אל התיקיה המכילה את מחברות Jupyter שהורדו מקובץ משלים 1. פתח את מחברת Jupyter לסינון תת-מבנה באמצעות הפקודה הבאה:מחברת jupyter [שם קובץ מחברת] בתא המיועד בתחילת המחברת, הזן את נתיב הקובץ המלא של קובץ .sdf הקלט (שנוצר על-ידי MAYGEN), את נתיב הקובץ המלא של קובץ הפלט הרצוי .sdf, ואת נתיב הקובץ של קובץ “badlist” כמחרוזות (בתוך מרכאות). ראה קובץ משלים 2 לדוגמה של רשימה גרועה. אם יש לשמור כמה מבני משנה בספריה המסוננת (רשימה טובה), צור קובץ .txt של תבניות SMARTS20 עבור אותם מבני משנה (רשימה טובה) והצב את נתיב הקובץ של הרשימה הטובה בשורה המיועדת בתחילת המחברת. ראה קובץ משלים 3 לדוגמה של רשימה טובה. הפעל מחדש את ליבת המחברת והפעל את כל התאים (מהתפריט בחלק העליון, בחר ליבה, הפעל מחדש והפעל הכל) כדי לקבל קובץ .sdf עם השם הרצוי בתיקיית הפלט שצוינה. חזור על שני השלבים הקודמים עבור כל קובץ מבנה שנוצר על-ידי MAYGEN בשלב 2. 4. (אופציונלי) שינויים נוספים במבנה הערה: אלה מבוצעים בדוגמה זו, אך ייתכן שאין בהם צורך באוצרות ספריות אחרות. החלפת פסאודואטום.הערה: כאן, פסאודו-אטום הוא אטום ייחודי המשמש לייצוג תת-מבנה גדול יותר המשותף לכל המבנים הנוצרים, ובכך מקצר את זמן הדור של MAYGEN. ראה קובץ משלים 4 לדוגמה של החלפת פסאודו-אטום. פתח הנחיית Anaconda (ראה שלב 1.2.2.1) ונווט אל התיקיה המכילה את מחברות Jupyter. פתח את מחברת Jupyter להחלפה פסאודו-אטומית:מחברת jupyter [שם קובץ מחברת] בתא המיועד בתחילת המחברת, הזן את נתיב הקובץ המלא של קובץ .sdf הקלט ואת נתיב הקובץ המלא של קובץ הפלט הרצוי .sdf כמחרוזות (בתוך מרכאות). הפעל מחדש את ליבת המחברת והפעל את כל התאים כדי לקבל קובץ .sdf עם השם הרצוי בתיקיית הפלט שצוינה. חומצת אמינו N- ו-C-termini מכסההערה: הליך זה הוא ספציפי לחומצות אלפא-אמינו, ומוסיף מכסים מולקולריים ל-N ו-C-termini של עמודי השדרה של חומצות אלפא-אמינו. ראה קובץ משלים 5 לדוגמה של הגבלת חומצות אמינו. פתח הנחיית Anaconda (ראה שלב 1.2.2.1) ונווט אל התיקיה המכילה את מחברות Jupyter. פתח את מחברת Jupyter למכסה חומצות אמינו:מחברת jupyter [שם קובץ מחברת] בתא המיועד בתחילת המחברת, הזן את נתיב הקובץ המלא של קובץ .sdf הקלט ואת נתיב הקובץ המלא של קובץ הפלט הרצוי .sdf כמחרוזות (בתוך מרכאות). הפעל מחדש את ליבת המחברת והפעל את כל התאים כדי לקבל קובץ .sdf עם השם הרצוי בתיקיית הפלט שצוינה. 5. יצירת מתארים לפני יצירת מתאר, מקם את כל הקבצים .sdf שעבורם יש לחשב מתארים בתיקיה אחת.הערה: אם עדיין לא נעשה, תן לקבצים אלה שמות תיאוריים לסינון קל לאחר יצירת מתאר. פתח שורת פקודה ונווט אל התיקיה המכילה את קובץ .jar PaDEL-Descriptor. הפעל את PaDEL-Descriptor עבור קבצי .sdf שנאספו באמצעות הפקודה הבאה:java -jar PaDEL-Descriptor.jar -dir [directory of the .sdf files] -file [נתיב קובץ של קובץ .csv לתוצאות] -2d -keeporder -usefilenameasmolnameהערה: קובץ התוצאות יכלול את שם המולקולה בעמודה הראשונה וכל מתאר בעמודות הבאות. ייצא נתונים אלה לכל תוכנת גיליון אלקטרוני לצורך ניתוח נוסף.

Representative Results

ספריה נוסחה אילוצים נוספים חומצות אמינו מקודדות “מוקדמות” זמן דור (ms) מבנים הראשונית הסופי 1 גלי ג2ח5לא2 כולל תת-מבנה גלי גלי 192 84 1 2 וייל מחשב0-3H3-9 ואל, אלה, איל, ליאו 172 70 22 3 דסט מחשב0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 מקצוען ג2-5לא2ח7-11 כלול תת-מבנה N-meGly או N-meAla מקצוען 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S ג2-4סנו2ח7-9 כלול תת-מבנה N-meGly או N-meAla 3999 75734 10 טבלה 1: ספריות מורכבות המשמשות בדוגמה זו. ספריות הבנויות מנוסחאות 1-4 (Gly, VAIL, DEST ו-Pro) מבוססות על נוסחאות מטושטשות שפורסמו בעבר של חומצות האמינו המקודדות “המוקדמות”21, בעוד שספריות הבנויות מנוסחאות 5-7 (VAIL_S, DEST_S ו-Pro_S) מבוססות על גרסאות של נוסחה 2-4 המדמיינות גופרית דיוולנטית שמחליפה את אחד מאטומי הפחמן. ספירות מבנה משקפות את מספר המולקולות הנוצרות על ידי MAYGEN עבור כל נוסחה (“ראשונית”) ואת מספר המולקולות שנותרו לאחר סינון אלה עם תת-מבנים לא רצויים (“סופי”). קיצורים: VAIL = ואלין, אלנין, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין; X_S = גופרית דיוולנטית מחליפה את אחד הפחמנים בספריה X; N-meX = N-מתילX. השיטות הכלליות לעיל יושמו על נוסחאות המבוססות על חומצות האמינו המקודדות “המוקדמות”, בעקבות ההליך של Meringer et al.21 מבנים Badlist נלקחו מאותו מקור והומרו למחרוזות SMARTS כדי לייצג בקלות תבניות תת-מבניות. שני תתי-מבנים של רשימות רעות לא שימשו בדוגמה זו: מבנה 018 (CH 3-CH-N) התאים כמעט לאיזומרים של פרולין שלא היו בעצמם לא יציבים; מבנה 106 (R-C-C-OH, שבו R=תת-מבנה אלנין מתחבר בבטא-פחמן) התאים לחומצה גלוטמית, חומצת אמינו מקודדת. בנוסף לנוסחאות הכימיות הללו, נוצרו גרסאות עם גופרית דיוואלנטית התופסת את מקומו של אטום פחמן ושני אטומי מימן. מטעמי ביצועים, כמה מהנוסחאות הללו משתמשות באטום זרחן טריוולנטי (למשל, “פסאודו-אטום”) כתחליף לבטא-פחמן של תת-מבנה אלנין. טבלה 1 מפרטת את הספריות שנוצרו בדוגמה זו, את הנוסחאות ששימשו ליצירתן ואת מספר התרכובות הכלולות בהן. שמות הספריות מבוססים על חומצות האמינו המקודדות שמהן הם נגזרים: או באמצעות קיצור בן 3 אותיות (Gly = glycine, Pro = proline) או קיצור של אותיות בודדות (VAIL = Valine, Alanine, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין). הסיומת “_S” מצביעה על כך שגופרית הוחלפה בפחמן בנוסחה המקורית של הספרייה (למשל, VAIL_S בנוי עם אותה נוסחה מטושטשת כמו VAIL, אך עם גופרית דיאלוונטית שמחליפה את אחד הפחמנים). לאחר יצירת מבנים עם MAYGEN, הספריות שהתקבלו סוננו מתרכובות המכילות לפחות תת-מבנה אחד הכלול ברשימה הרעה. בעקבות סינון זה, כל אטומי הזרחן הוחלפו בתת-מבנה אלנין. לאחר מכן, נוצרו גרסאות “מכוסות” של כל המבנים, עם קבוצת אצטיל שנוספו ל-N-terminus וקבוצת N-מתיל אמיד שנוספה ל-C-terminus. זה נעשה כדי להסיר את ההשפעה על ההידרופוביות של קבוצות האמין החופשי והחומצה הקרבוקסילית בעמוד השדרה של חומצת האלפא-אמינו. PaDEL-Descriptor שימש לחישוב XLogP עבור כל המבנים המכוסים וחישב את נפח ואן דר ואלס (VABC) עבור כל המבנים הלא מכוסים. איור 2 מציג את המרחב הכימי של הספריות המסוננות, כפי שהוגדר על ידי מתארי VABC ו-XLogP. כאן, טווח ערכי logP אפשריים גדל עם נפח מולקולרי, אפילו בתוך ספריות שאין בהן צדדים הידרופיליים במפורש (למשל, VAIL, Pro). חומצות אמינו מקודדות עם ציד פחמימנים היו הידרופוביות יותר מרוב חומצות האמינו האחרות בנפח דומה מהספרייה שלהן. נראה שזה המקרה גם עבור Met ו- Cys בהשוואה לחברים אחרים בספריית VAIL_S עם כרכים דומים. חומצות אמינו מקודדות עם שרשראות צד הידרוקסיל (Ser ו-Thr) היו בין החברים הקטנים ביותר בספריית DEST, כאשר Asp היה גדול רק במעט מ-Thr. איור 3 ואיור 4 מראים את ההשפעות על נפח ולוגפ כאשר גופרית דיואלנט מחליפה פחמן בשרשרת צד של חומצת אלפא-אמינו. תחליפי גופרית הובילו לעלייה קלה בנפח המולקולרי בכל הספריות (איור 3). ההשפעה של החלפת גופרית על logP אינה הומוגנית כמו נפח (איור 4). הלוג הממוצע של ספריית VAIL_S נמוך מעט מזה של ספריית VAIL, אך אפקט זה אינו נראה באף אחד מזוגות הספריות האחרים (DEST ו- DEST_S, Pro ו- Pro_S). איור 5 מכמת את ההשפעות על יצירת מבנה של פסאודו-אטום העומד בפני תת-מבנה משותף; כאן, P טריוולנטי החליף את המואטי של אלנין במהלך יצירת מבנה. שימוש בפסאודואטום ביצירת מבנים הפחית מאוד את מספר המבנים הנוצרים על ידי סדרי גודל של כ-3 (איור 5A) ואת הזמן הכולל הדרוש ליצירת מבנים אלה ב-1-2 סדרי גודל (איור 5B). איור 2: המרחב הכימי של כל ספריות חומצות האמינו המסוננות. סמנים שחורים מייצגים חומצות אמינו מספריות ללא גופרית; סמנים צהובים מייצגים חומצות אמינו מספריות מועשרות בגופרית. מעגלים: VAIL ו- VAIL_S; ריבועים: DEST ו- DEST_S; משולשים: מקצוענים Pro_S; כוכבים: חומצות אמינו מקודדות. שימו לב ששתי חומצות האמינו המקודדות המכילות גופרית (Met ו-Cys) אינן נחשבות לחומצות אמינו “מוקדמות” אלא נמצאות בספריית VAIL_S. קיצורים: XLogP = מקדם מחיצה; VAIL = ואלין, אלנין, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין; X_S = גופרית דיוואלנט מחליפה את אחד הפחמנים בספריה X. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. איור 3: כרכים ממוצעים של ואן דר ואלס (ב-Å3) של ספריות עם ובלי גופרית. פסים שחורים מייצגים את הכרכים הממוצעים של ספריות ללא גופרית (VAIL, DEST, Pro), בעוד שסורגים צהובים מייצגים נפחים ממוצעים של הגרסאות המוחלפות בגופרית של ספריות אלה (VAIL_S, DEST_S, Pro_S). פסי שגיאה מראים סטיית תקן. קיצורים: VAIL = ואלין, אלנין, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין; X_S = גופרית דיוואלנט מחליפה את אחד הפחמנים בספריה X. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. איור 4: ערכי XLogP ממוצעים של ספריות עם ובלי גופרית. פסים שחורים מייצגים ספריות ללא גופרית (VAIL, DEST, Pro), בעוד שסורגים צהובים מייצגים גרסאות שהוחלפו בגופרית של ספריות אלה (VAIL_S, DEST_S, Pro_S). פסי שגיאה מראים סטיית תקן. קיצורים: XLogP = מקדם מחיצה; VAIL = ואלין, אלנין, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין; X_S = גופרית דיוואלנט מחליפה את אחד הפחמנים בספריה X. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. איור 5: השפעות של פסאודו-אטום טריוולנטי על יצירת מבנה MAYGEN. כל הבדיקות נעשו במחשב עם מעבד Intel i7-7700HQ ב-2.8 GHz, 16 GB של זיכרון RAM, ללא מבני שמירה לקובץ, ואפשרות -m לשימוש בריבוי הליכי משנה. בדיקות באמצעות פסאודו-אטום השתמשו בנוסחאות המטושטשות כמתואר בטבלה 1. עבור בדיקות ללא פסאודואטום, הנוסחאות המטושטשות שבהן נעשה שימוש היו זהות לאלה המתוארות בטבלה 1 עם השינויים הבאים: P הוחלף ב-N; ספירת הפחמן הוגדלה ב-3; ספירת המימן הוגדלה ב-7; ספירת החמצן עלתה ב-2. פסים שחורים מציגים ספריות שנוצרו עם פסאודו-אטום; פסים אפורים מציגים ספריות שנוצרו ללא פסאודו-אטום. (A) מספר המבנים שנוצרו באמצעות הנוסחאות המטושטשות ששימשו לבניית ספריות VAIL ו-DEST עם ובלי החלפת זרחן טריוולנטית עבור תת-מבנה אלנין. (B) זמן (ב-ms) הדרוש לבניית ספריות VAIL ו-DEST עם ובלי תחליף זרחן טריוולנטי בתת-מבנה אלנין. קיצורים: VAIL = ואלין, אלנין, איזולאוצין, לאוצין; DEST = חומצה אספרטית, חומצה גלוטמית, סרין, תראונין. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. קובץ משלים 1: מחברת סינון תת-מבנה. אנא לחץ כאן כדי להוריד קובץ זה. קובץ משלים 2: רשימה גרועה לדוגמה. אנא לחץ כאן כדי להוריד קובץ זה. קובץ משלים 3: רשימה טובה לדוגמה. אנא לחץ כאן כדי להוריד קובץ זה. קובץ משלים 4: מחברת החלפת פסאודו-אטומית. אנא לחץ כאן כדי להוריד קובץ זה. קובץ משלים 5: מחברת מכסה חומצות אמינו. אנא לחץ כאן כדי להוריד קובץ זה.

Discussion

תכונה אחת של חומצות האמינו “המוקדמות” היא מחסור בגופרית. המטא-אנליזות שהוזכרו קודם לכן מחשיבות בדרך כלל את חומצות האמינו המקודדות המכילות גופרית (Cys and Met) כתוספות מאוחרות יחסית לקוד הגנטי, מסקנות הנתמכות על ידי היעדר חומצות אמינו המכילות גופרית במטאוריטים ובניסויים בצינורות ניצוץ. עם זאת, תרכובות אורגנוסולפור מזוהות בקלות בשביטים ובמטאוריטים22, ואנליזה מחודשת של ניסויים בצינורות ניצוץ באמצעות גז H2S מצאה חומצות אמינו ותרכובות אורגניות אחרות המכילות גופרית16. כאשר שוקלים אלפבית של חומצות אמינו חלופיות, כדאי לחקור אחת מועשרת בגופרית.

בפרוטוקול הנ”ל, יצירת מבנים וסינון תת-מבנה נחשבים לשלבים קריטיים; בהתאם להרכב של ספריית המבנה המוגמרת, ייתכן שחוקר יצטרך לבצע רק את שני השלבים הללו. הוראות ותוכנה לפעולות נוספות (החלפת פסאודו-אטום והוספת תת-מבנים (במקרה זה, כיפה של חומצות אמינו)) נכללות לחישוב מתאר רלוונטי יותר (ההצמדה מבטיחה שחישובי XLogP יושפעו מהצד ולא מקבוצות האמין או הקרבוקסיל של עמוד השדרה) ויצירת מבנה מהיר יותר באמצעות שימוש בפסאודואטום, הנדון ביתר פירוט בהמשך. בנוסף, חישוב תיאור נעשה כאן כדרך קלה להמחיש את מגוון המבנים שנוצרו ולהשוות את ההשפעות של העשרת גופרית בספריות המוגמרות.

בעוד ש-PaDEL-Descriptor יכול לחשב אלפי תכונות מולקולריות, נפח מולקולרי (כפי שחושב נפח ואן דר ואלס) ומקדם חלוקה (כ-XLogP) שימשו כאן משתי סיבות שונות. ראשית, שני מתארים אלה מודדים תכונות מולקולריות (גודל והידרופוביות, בהתאמה) המוכרות לרוב הכימאים והביולוגים. שנית, במקרה של חומצות אמינו, שתי תכונות אלה הן משמעותיות. במשך עשרות שנים, גודל חומצות אמינו והידרופוביות היו ידועים כמשפיעים על התרמודינמיקה של קיפול חלבונים23. שתי תכונות אלה מסייעות להסביר את תדירות ההחלפה של חומצות אמינו שהיו חלק בלתי נפרד מהבנת האבולוציה של חלבונים24.

הדוגמה לעיל מראה כי בשני התיאורים שנחקרו (נפח מולקולרי והידרופוביות), החלפת גופרית דיוולנטית בפחמן ושני מימן אינה מניבה שינויים משמעותיים. את העלייה הקלה והלא משמעותית בנפח המולקולרי הממוצע כתוצאה מהחלפת גופרית (איור 3) ניתן לייחס לרדיוס הקוולנטי הגדול יותר של הגופרית (כ-22:00) בהשוואה לפחמן sp3 (~75 pm) או sp2 (~73 pm)פחמן 25. באופן דומה, לתחליפי גופרית יש השפעה מינימלית על ה-XLogP הממוצע (איור 4). ההשפעה הגדולה ביותר הייתה בין ספריות ה-VAIL וה-VAIL_S, ככל הנראה בשל שילוב של ספריית ה-VAIL כהידרופובית במיוחד (ה-sidechains הם רק פחמימנים) וקבוצות סולפהידריל חומציות הרבה יותר מקבוצות המתיל שהן היו מחליפות. ההשפעה המינימלית של החלפת גופרית ניכרת באיור 2, שבו ספריות עם תחליפי גופרית תופסות את אותו מרחב כימי כמו ספריות מקבילות ללא החלפת גופרית.

הירידה במספר המבנים (איור 5A) ובזמן הדרוש ליצירת המבנים האלה (איור 5B) בעת שימוש בפסאודואטום אינה מפתיעה. שימוש בפסאודואטום מקטין את מספר האטומים הכבדים שיש לשלב בגרף כימי, מקטין את מספר צמתי הגרפים ומניב ירידות אקספוננציאליות בזמן הייצור ובמספר המבנים. כאן, הבחירה בזרחן טריוולנטי כפסאודו-אטום נובעת מביוכימיה בסיסית (בהיעדר תוספת פוסט-טרנסלציונית של קבוצות פוספטים, אין חומצות אמינו מקודדות גנטית המכילות זרחן) וערכיות האטום שתחליף אותו (זרחן טריוולנטי יכול בקלות להיות מוחלף בפחמן טטרוולנטי שנקשר בנפרד לאטום אחר או לקבוצת אטומים אחרים). בעוד שהקוד המסופק להחלפת פסאודו-אטומים הוא ספציפי להחלפת זרחן טריוולנטי בתת-מבנה אלנין, משתמשים יכולים להתאים אישית את הקוד כך שיעבוד עם פסאודו-אטומים שונים או תת-מבנים חלופיים שונים, וייתכן שהם משתמשים במספר פסאודו-אטומים במהלך יצירת המבנה הראשוני ולאחר מכן החלפת כל פסאודו-אטום בתת-מבנה מולקולרי גדול יותר.

שיטות ליצירת מבנה הדומות לאלה שבהן משתמשת MAYGEN (ושיטות אחרות כגון רשתות עצביות) כבר משמשות לגילוי תרופות כדי ליצור ספריות מורכבות לסינון סיליקו ; סקירה אחרונה4 דנה בשיטות אלה ביתר פירוט. מכיוון ששיטות אלה מיועדות בעיקר ליצירת מולקולות דמויות תרופה, ישנן מגבלות מסוימות על יכולתן לייצר מולקולות, כגון שימוש בתכונות ביולוגיות או פרמצבטיות כדי להגביל את המבנים שנוצרו (QSPR/QSAR הפוך) או יצירת מבנים ממספר מוגדר מראש של אבני בניין תת-מבניות. ככל שהאסטרוביולוגיה מתמקדת יותר בריבוי התרכובות האורגניות שיכולות להיווצר באופן אביוטי ופחות במוצרים סופיים כלשהם או בתכונותיהם, יצירת המבנה הממצה של MAYGEN אידיאלית ליצירת ספריות מבנים כדי לענות על שאלות אסטרוביולוגיות. הגישה לסינון תת-מבנה המתוארת כאן (המבוצעת לאחר יצירת מבנה באמצעות תוכנית חיצונית) שונה מהתוכנית המתחרה MOLGEN בכך שסינון תת-המבנה של MOLGEN מתרחש במהלך יצירת המבנה. מכיוון ש- MAYGEN הוא קוד פתוח, לא רק שהוא נגיש יותר מ- MOLGEN בשל עלות הרישוי של MOLGEN, אלא שאנשים פרטיים יכולים ליישם תכונות חדשות כגון סינון תת-מבנה במהלך יצירת מבנה.

כפי שנכתב, הפרוטוקול המתואר כאן מתמקד ביצירה ואוצרות של ספריות של חומצות אלפא-אמינו קטנות יחסית. כדי ליצור ספריות שונות, משתמשים יכולים לתת נוסחאות מולקולריות שונות ל- MAYGEN, לשנות את סינון תת-המבנה על-ידי שינוי גודל הטבעת המרבי המותר ואת ערכיות הקשר, או לערוך את קבצי הרשימה הטובה והרשימה הרעה כדי להוסיף או להסיר תבניות תת-מבנה. שינויים בפרוטוקולים הכוללים שינוי אופן ההוספה או ההחלפה של אטומים ותתי-מבנים (החלפה פסאודו-אטומית וכיפה מולקולרית) הם אפשריים, אך ידרשו תשומת לב רבה יותר למגבלות ערכיות כדי למנוע שגיאות RDKit לגבי ערכיות שגויה במבנים שהשתנו.

הפרוטוקול המפורט לעיל מיועד לחומצות אלפא-אמינו קטנות. עם זאת, הפורמט הכללי (יצירת מבנה מקיף באמצעות פסאודו-אטומים, ואחריו סינון תת-מבנה ושינויים מולקולריים) גמיש מאוד עבור תרכובות מעבר לחומצות אמינו קטנות. אפילו באסטרוביולוגיה, הליך דומה שבוצע לאחרונה באמצעות MOLGEN שימש לחקר איזומרים חוקתיים של חומצות גרעין26. בנוסף לכלים שתוארו לעיל, ניתן לשלב את MAYGEN עם כלים אחרים של כימינופורמטיקה בקוד פתוח כדי להפוך את היצירה והניתוח של מבנים כימיים חדשניים למשתלמים ונגישים למגוון רחב של תחומי מחקר.

Disclosures

The authors have nothing to disclose.

Acknowledgements

מאי מכירה במימון של קרן קרל-צייס. כל הנתונים נוצרו באמצעות Microsoft Excel.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video