Summary

تنظيم المكتبات الكيميائية الحاسوبية المثبتة مع أحماض ألفا الأمينية

Published: April 13, 2022
doi:

Summary

الغرض من هذا البروتوكول هو إنشاء وتنظيم مكتبات بنية الجزيئات الصغيرة بكفاءة باستخدام برامج مفتوحة المصدر.

Abstract

يحتوي التوليد الشامل للهياكل الجزيئية على العديد من التطبيقات الكيميائية والكيميائية الحيوية مثل تصميم الأدوية وبناء قاعدة البيانات الجزيئية واستكشاف الكيمياء الحيوية البديلة وغيرها الكثير. من الناحية الرياضية ، هذه هي مولدات الرسم البياني مع قيود كيميائية. في هذا المجال ، فإن المولد الأكثر كفاءة حاليا (MOLGEN) هو منتج تجاري ، مما يحد من استخدامه. وبدلا من ذلك ، فإن مولد بنية جزيئية آخر ، MAYGEN ، هو أداة حديثة مفتوحة المصدر ذات كفاءة مماثلة ل MOLGEN وقدرة المستخدمين على زيادة أدائها عن طريق إضافة ميزات جديدة. واحدة من المجالات البحثية التي يمكن أن تستفيد من هذا التطور هو علم الأحياء الفلكية. تسمح مولدات البنية للباحثين باستكمال البيانات التجريبية بالإمكانيات الحسابية للكيمياء الحيوية البديلة. يفصل هذا البروتوكول حالة استخدام واحدة لتوليد البنية في علم الأحياء الفلكية ، وهي توليد وتنظيم مكتبات الأحماض الأمينية ألفا. باستخدام مولدات البنية مفتوحة المصدر وأدوات المعلوماتية الكيميائية ، يمكن تنفيذ الممارسات الموضحة هنا خارج علم الأحياء الفلكية لإنشاء وتنظيم مكتبات البنية الكيميائية منخفضة التكلفة لأي سؤال بحثي.

Introduction

توليد البنية الجزيئية بمثابة تطبيق عملي للمشكلة العامة لتوليد الرسم البياني الشامل. بالنظر إلى العديد من العقد (الذرات) والقيود المفروضة على اتصالها (على سبيل المثال ، التكافؤ ، وتعدد الروابط ، والهياكل الفرعية المرغوبة / غير المرغوب فيها) ، كم عدد الرسوم البيانية المتصلة (الجزيئات) الممكنة؟ شهدت مولدات الهياكل تطبيقا واسعا في اكتشاف الأدوية وتطوير المستحضرات الصيدلانية ، حيث يمكنها إنشاء مكتبات واسعة من الهياكل الجديدة في فحص سيليكو 1.

تم تطوير أول مولد هيكلي ، CONGEN ، لأول مشروع ذكاء اصطناعي في الكيمياء العضوية ، DENDRAL2 (اختصار ل DENDRitic ALgorithm). تم الإبلاغ عن العديد من الخلفاء البرمجيين ل DENDRAL في الأدبيات. ومع ذلك ، لم يتم الحفاظ عليها جميعا أو كفاءتها. حاليا ، MOLGEN3 هو مولد البنية الجزيئية الحديث. لسوء الحظ بالنسبة لمعظم المستخدمين المحتملين ، فهو مغلق المصدر ويتطلب رسوم ترخيص. وبالتالي ، كانت هناك حاجة إلى مولد هيكل فعال مفتوح المصدر يمكنه التكيف بسهولة مع تطبيقات محددة. يتمثل أحد التحديات التي تواجه مولد الهيكل الفعال في إدارة الانفجار التوافقي. مع زيادة حجم الصيغة الجزيئية ، يزداد حجم مساحة البحث الكيميائي أضعافا مضاعفة. تستكشف مراجعة حديثة تاريخ وتحديات الجيل4 من البنية الجزيئية.

قبل عام 2021 ، كان مولد الجزيئات المتوازية (PMG)5 أسرع مولد هيكل مفتوح المصدر ، لكنه كان لا يزال أبطأ من MOLGEN بأوامر من حيث الحجم. MAYGEN6 أسرع بحوالي 47 مرة من PMG وحوالي 3 مرات أبطأ من MOLGEN ، مما يجعل MAYGEN أسرع وأكثر مولدات هيكل مفتوحة المصدر متاحة وأكثرها كفاءة. يمكن العثور على مقارنات واختبارات مقارنة أكثر تفصيلا في الورقة التي تقدم MAYGEN6. الميزة الرئيسية للبرنامج هي اختباره القائم على الترتيب المعجمي للهياكل الأساسية ، وهي طريقة منظمة لتوليد الرسوم البيانية تعتمد على خوارزمية Schreier-Sims7 . يمكن دمج البرنامج بسهولة في مشاريع أخرى وتحسينه لتلبية احتياجات المستخدمين.

مثل MOLGEN و PMG ، يأخذ MAYGEN صيغة جزيئية محددة من قبل المستخدم ويولد جميع الهياكل الممكنة لتلك الصيغة. على سبيل المثال ، إذا قام المستخدم بتشغيل MAYGEN باستخدام الصيغة C5H12 ، فستقوم MAYGEN بإنشاء جميع الهياكل الممكنة التي تحتوي على خمس ذرات كربون واثنتي عشرة ذرة هيدروجين. على عكس نظيرتها مفتوحة المصدر PMG ، يمكن ل MAYGEN أيضا استيعاب الصيغ الجزيئية “الغامضة” التي تستخدم الفواصل الزمنية بدلا من الأرقام المنفصلة لعدد كل عنصر. على سبيل المثال ، إذا قام المستخدم بتشغيل MAYGEN باستخدام الصيغة C5-7H12-15 ، فسيقوم MAYGEN بإنشاء جميع الهياكل الممكنة التي تحتوي على ما بين خمس وسبع ذرات كربون واثنتي عشرة وخمس عشرة ذرة هيدروجين ، مما يسمح بتوليد بسيط للهياكل مع مجموعة واسعة من التراكيب الذرية.

علم الأحياء الفلكية هو أحد هذه المجالات التي يمكن أن تستفيد من مولدات البنية الجزيئية. موضوع شائع في علم الأحياء الفلكية هو تطور أبجدية الأحماض الأمينية المشتركة بين جميع أشكال الحياة الموجودة على الأرض. واحدة من السمات المميزة للسلف المشترك العالمي الأخير (LUCA) هو استخدامه لعشرين حمضا أمينيا مشفرا وراثيا لبناء البروتين 8,9. استنادا إلى التحليلات التلوية للعمل في مجالات متعددة 10،11،12 ، ما يقرب من10 من هذه الأحماض الأمينية (Gly ، Ala ، Val ، Asp ، Glu ، Ser ، Thr ، Leu ، Ile ، Pro) تتشكل بسهولة في ظل ظروف غير أحيائية ومن المحتمل أن تشكل أبجدية الأحماض الأمينية للكائنات الحية قبل LUCA. مع مرور الوقت ، تم توسيع هذه الأبجدية “المبكرة” استجابة للاحتياجات الهيكلية والوظيفية المختلفة. على سبيل المثال ، تدعي مراجعة حديثة من Moosmann13 أن إضافة أعضاء أحدث من الأحماض الأمينية المشفرة وراثيا (وهي Met و Tyr و Trp) سمحت بالبقاء على قيد الحياة في البيئات الغنية بالأكسجين عن طريق منع الانتشار داخل الخلايا لأنواع الأكسجين التفاعلية.

تتيح مجموعة متزايدة باستمرار من تقنيات الكيمياء التحليلية نظرة ثاقبة على هياكل الأحماض الأمينية التي يمكن أن تتشكل في ظل ظروف غير حيوية. تفصل مراجعة حديثة14 أجراها Simkus وآخرون الطرق المستخدمة للكشف عن العديد من المركبات العضوية في النيازك ، وكذلك المركبات العضوية من المحاكاة المختبرية لبيئات الأرض المبكرة15،16،17. يسمح التوليد المنهجي للهياكل الكيميائية للباحثين باستكشاف ما وراء المركبات العضوية المكتشفة عن طريق الأجهزة ، مما يملأ المساحة الهيكلية حول “الجزر” الهيكلية التي تحددها الكيمياء التحليلية. في حالة الأحماض الأمينية “المبكرة” ، يظهر هذا الجيل المنهجي من البنية كيمياء البروتين المحتملة المتاحة للحياة المبكرة دون قصر الاستكشاف على الهياكل التي تم اكتشافها تجريبيا في ظل ظروف التوليف اللاأحيائي. مع مجموعات أدوات المعلوماتية الكيميائية مفتوحة المصدر ومولدات البنية الفعالة مثل MAYGEN ، أصبح إنشاء واستكشاف مكتبات بنية كيميائية جديدة الآن أسهل من أي وقت مضى ويمكن أن توجه تحقيقات أكثر تفصيلا في كيمياء بديلة للحياة.

Protocol

ملاحظة: انظر الشكل 1 للحصول على ملخص للبروتوكول وجدول المواد للحصول على تفاصيل حول البرنامج المستخدم. الشكل 1: مخطط انسيابي موجز للبروتوكول. يرجى النقر هنا لعرض نسخة أكبر من هذا الشكل. 1. تنزيلات البرامج والملفات ملاحظة: جميع البرامج مجانية للاستخدام الفردي ويمكن تشغيلها على جهاز كمبيوتر شخصي. إنشاء دليل جديد لهذا المشروع. ضع الملفات والملفات التنفيذية هنا لسهولة الوصول إليها. قم بتنزيل حزم البرامج الضرورية وتثبيتها. قم بتنزيل أحدث إصدار من MAYGEN كملف .jar.ملاحظة: يتوفر MAYGEN مجانا كملف .jar من https://github.com/MehmetAzizYirik/MAYGEN/releases قم بتنزيل وتثبيت برنامج إدارة الحزم Conda ومجموعة أدوات المعلوماتية الكيميائية RDKit18.ملاحظة: سيقوم RDKit بتصفية الهياكل الجزيئية التي تنتجها MAYGEN ويعمل بشكل أفضل في بيئة Conda. يمكن العثور على تعليمات تنزيل منصة Conda في https://conda.io/projects/conda/en/latest/user-guide/install/index.html. يمكن العثور على إرشادات تثبيت RDKit وإعداد البيئة في https://www.rdkit.org/docs/Install.html. قم بتثبيت RDKit في بيئة Conda الرئيسية بدلا من بيئة RDKit منفصلة عبر موجه Anaconda. على أنظمة Windows ، ابحث عن “مطالبة Anaconda” وانقر فوق الاختصار الناتج لتشغيله. على أنظمة MacOS و Linux ، تفاعل مع Conda من خلال المحطة الطرفية دون تشغيل أي برامج إضافية. بعد ذلك ، اكتب الأمر التالي واضغط على Enter للتشغيل ، وأجب بنعم على أي أسئلة تظهر أثناء التثبيت:conda install -c rdkit rdkit.في حين أن هناك العديد من برامج حساب الواصف المتاحة مجانا ، يستخدم هذا المثال PaDEL-Descriptor19 ، وهي آلة حاسبة مجانية وسريعة للواصفات الجزيئية وبصمات الأصابع. قم بتنزيل ملف .jar وحفظه في مجلد المشروع.ملاحظة: يمكن تنزيل PaDEL-Descriptor مجانا من http://www.yapcwsoft.com/dd/padeldescriptor/. قم بتنزيل دفاتر ملاحظات Jupyter والملفات النصية لأنماط البنية التحتية من الملفات التكميلية 1-5.ملاحظة: يمكن أيضا تنزيل دفاتر ملاحظات Jupyter من صفحة GitHub التالية: https://github.com/cmayerb1/AA-structure-manip. 2. توليد الهيكل باستخدام MAYGEN في موجه الأوامر، انتقل إلى الدليل الذي يحتوي على الملف القابل للتنفيذ .jar MAYGEN. لكل صيغة كيميائية ذات أهمية، قم بتشغيل MAYGEN باستخدام الأمر التالي:java -jar [MAYGEN .jar اسم الملف] -f [الصيغة الكيميائية] -v -o [مجلد لإخراج MAYGEN] -m -sdf.ملاحظة: سيؤدي ذلك إلى حفظ ملف .sdf في المجلد المعين، المسمى باسم الصيغة المستخدمة. إذا كانت الصيغة عبارة عن صيغة غامضة بدلا من صيغة منفصلة، فاستبدل العلم -f بعلامة -fuzzy، وأرفق أي فواصل زمنية للعناصر بين قوسين (على سبيل المثال، استخدم C[5-7]H[12-15] للتأكد من أن جميع الهياكل المتولدة تحتوي على ما بين 5 و 7 ذرات كربون وما بين 12 و 15 ذرة هيدروجين). 3. تصفية المركبات مع الهياكل الفرعية غير المرغوب فيها افتح مطالبة Anaconda (راجع الخطوة 1.2.2.1) وانتقل إلى المجلد الذي يحتوي على دفاتر ملاحظات Jupyter التي تم تنزيلها من الملف التكميلي 1. افتح دفتر ملاحظات Jupyter لتصفية البنية التحتية باستخدام الأمر التالي:دفتر ملاحظات jupyter [اسم ملف دفتر الملاحظات] في الخلية المعينة في بداية دفتر الملاحظات، أدخل مسار الملف الكامل لملف .sdf الإدخال (الذي تم إنشاؤه بواسطة MAYGEN)، ومسار الملف الكامل لملف إخراج .sdf المطلوب، ومسار ملف ملف “badlist” كسلاسل (ضمن علامات اقتباس). راجع الملف التكميلي 2 للحصول على مثال على قائمة سيئة. إذا كان سيتم الاحتفاظ ببعض الهياكل الفرعية في المكتبة التي تمت تصفيتها (قائمة جيدة)، فقم بإنشاء ملف .txt من أنماط SMARTS20 لتلك الهياكل الفرعية (قائمة جيدة) ووضع مسار ملف القائمة الجيدة في السطر المعين في بداية دفتر الملاحظات. راجع الملف التكميلي 3 للحصول على مثال على قائمة جيدة. أعد تشغيل kernel دفتر الملاحظات وقم بتشغيل كافة الخلايا (من القائمة الموجودة في الأعلى، حدد Kernel وإعادة التشغيل وتشغيل الكل) للحصول على ملف .sdf بالاسم المطلوب في مجلد الإخراج المحدد. كرر الخطوتين السابقتين لكل ملف بنية تم إنشاؤه بواسطة MAYGEN في الخطوة 2. 4. (اختياري) تعديلات إضافية على الهيكل ملاحظة: يتم تنفيذ هذه في هذا المثال ولكن قد لا تكون هناك حاجة لتنظيم المكتبات الأخرى. استبدال الذرة الزائفة.ملاحظة: هنا ، الذرة الزائفة هي ذرة فريدة تستخدم لتمثيل بنية تحتية أكبر مشتركة بين جميع الهياكل المتولدة ، مما يقلل من وقت توليد MAYGEN. انظر الملف التكميلي 4 للحصول على مثال على استبدال الذرة الزائفة. افتح مطالبة Anaconda (راجع الخطوة 1.2.2.1) وانتقل إلى المجلد الذي يحتوي على دفاتر ملاحظات Jupyter. افتح دفتر ملاحظات Jupyter لاستبدال الذرة الزائفة:دفتر ملاحظات jupyter [اسم ملف دفتر الملاحظات] في الخلية المعينة في بداية دفتر الملاحظات، أدخل مسار الملف الكامل لملف .sdf الإدخال ومسار الملف الكامل لملف إخراج .sdf المطلوب كسلاسل (ضمن علامات اقتباس). أعد تشغيل kernel دفتر الملاحظات وقم بتشغيل كافة الخلايا للحصول على ملف .sdf بالاسم المطلوب في مجلد الإخراج المحدد. الأحماض الأمينية N- و C-termini السدملاحظة: هذا الإجراء خاص بالأحماض الأمينية ألفا ، مضيفا قبعات جزيئية إلى N- و C-termini من العمود الفقري للأحماض الأمينية ألفا. انظر الملف التكميلي 5 للحصول على مثال على تغطية الأحماض الأمينية. افتح مطالبة Anaconda (راجع الخطوة 1.2.2.1) وانتقل إلى المجلد الذي يحتوي على دفاتر ملاحظات Jupyter. افتح دفتر Jupyter لسد الأحماض الأمينية:دفتر ملاحظات jupyter [اسم ملف دفتر الملاحظات] في الخلية المعينة في بداية دفتر الملاحظات، أدخل مسار الملف الكامل لملف .sdf الإدخال ومسار الملف الكامل لملف إخراج .sdf المطلوب كسلاسل (ضمن علامات اقتباس). أعد تشغيل kernel دفتر الملاحظات وقم بتشغيل كافة الخلايا للحصول على ملف .sdf بالاسم المطلوب في مجلد الإخراج المحدد. 5. جيل الواصف قبل إنشاء الواصف، ضع كافة الملفات .sdf التي سيتم حساب الواصفات لها في مجلد واحد.ملاحظة: إذا لم يتم ذلك بالفعل، فقم بإعطاء هذه الملفات أسماء وصفية لسهولة التصفية بعد إنشاء الواصف. افتح موجه الأوامر، وانتقل إلى المجلد الذي يحتوي على ملف .jar PaDEL-Descriptor. قم بتشغيل PaDEL-Descriptor لملفات .sdf التي تم تجميعها باستخدام الأمر التالي:java -jar PaDEL-Descriptor.jar -dir [دليل الملفات .sdf] -file [مسار ملف ملف ملف .csv للنتائج] -2d -retainorder -usefilenameasmolnameملاحظة: سيكون لملف النتائج اسم الجزيء في العمود الأول وكل واصف في الأعمدة اللاحقة. قم بتصدير هذه البيانات إلى أي برنامج جداول بيانات لمزيد من التحليل.

Representative Results

مكتبة صيغة قيود إضافية الأحماض الأمينية المشفرة “المبكرة” وقت التوليد (مللي ثانية) الهياكل الاولي نهائي 1 جلي ج 2 ح5لا2 تشمل البنية التحتية Gly جلي 192 84 1 2 كمبيوترشخصي 0-3 H 3-9 فال ، علاء ، إيل ، ليو 172 70 22 3 ديست كمبيوتر0-3O1-2 H 3-5 ASP ، غلو ، سير ، Thr 481 1928 254 4 برو ج 2-5 نو2ح7-11 تضمين البنية التحتية N-meGly أو N-meAla برو 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2 O 1-2H3 349 1075 79 7 Pro_S C 2-4 SNO2H7-9 تضمين البنية التحتية N-meGly أو N-meAla 3999 75734 10 الجدول 1: المكتبات المركبة المستخدمة في هذا المثال. تعتمد المكتبات المبنية من الصيغ 1-4 (Gly و VAIL و DEST و Pro) على صيغ غامضة منشورة سابقا للأحماض الأمينية المشفرة “المبكرة”21 ، في حين تستند المكتبات المبنية من الصيغ 5-7 (VAIL_S DEST_S Pro_S) إلى متغيرات من الصيغ 2-4 التي تتخيل الكبريت الثنائي محل إحدى ذرات الكربون. تعكس أعداد الجزيئات عدد الجزيئات التي تم إنشاؤها بواسطة MAYGEN لكل صيغة (“أولية”) وعدد الجزيئات المتبقية بعد تصفية تلك التي تحتوي على هياكل فرعية غير مرغوب فيها (“نهائي”). الاختصارات: VAIL = فالين ، ألانين ، إيزولوسين ، ليوسين ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين ؛ X_S = الكبريت الثنائي يحل محل أحد الكربون في المكتبة X. N-meX = N-methylX. تم تطبيق الطرق العامة المذكورة أعلاه على الصيغ القائمة على الأحماض الأمينية المشفرة “المبكرة” ، باتباع إجراء Meringer et al.21 تم أخذ هياكل Badlist من هذا المصدر نفسه وتحويلها إلى سلاسل SMARTS لتمثيل أنماط البنية التحتية بسهولة. لم يتم استخدام بنيتين فرعيتين سيئتين في هذا المثال: البنية 018 (CH 3-CH-N) مطابقة الأيزومرات القريبة من البرولين التي لم تكن هي نفسها غير مستقرة. الهيكل 106 (R-C-C-OH ، حيث R = ألانين البنية الفرعية المرفقة في بيتا كاربون) تطابق حمض الجلوتاميك ، وهو حمض أميني مشفر. بالإضافة إلى هذه الصيغ الكيميائية ، تم إنشاء متغيرات مع الكبريت الثنائي الذي يحل محل ذرة الكربون وذرتي الهيدروجين. لأسباب تتعلق بالأداء ، تستخدم العديد من هذه الصيغ ذرة فوسفور ثلاثية التكافؤ (على سبيل المثال ، “ذرة زائفة”) كبديل لكربون بيتا في بنية فرعية من ألانين. يسرد الجدول 1 المكتبات التي تم إنشاؤها في هذا المثال، والصيغ المستخدمة لإنشائها، وعدد المركبات الموجودة فيها. تعتمد أسماء المكتبات على الأحماض الأمينية المشفرة التي اشتقت منها: إما باستخدام الاختصار المكون من 3 أحرف (Gly = glycine ، Pro = proline) أو الاختصار المكون من حرف واحد (VAIL = Valine ، Alanine ، Isoleucine ، Leucine ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين). تشير لاحقة “_S” إلى أن الكبريت قد تم استبداله بالكربون في صيغة المكتبة الأصلية (على سبيل المثال ، تم بناء VAIL_S بنفس الصيغة الغامضة مثل VAIL ، ولكن مع كبريت ثنائي يحل محل أحد الكربونات). بعد إنشاء الهيكل باستخدام MAYGEN ، تمت تصفية المكتبات الناتجة من المركبات التي تحتوي على بنية فرعية واحدة على الأقل موجودة في badlist. بعد هذا الترشيح ، تم استبدال أي ذرات فوسفور ببنية تحتية ألانين. بعد ذلك ، تم إنشاء إصدارات “متوجة” لجميع الهياكل ، مع إضافة مجموعة أسيتيل إلى N-terminus ومجموعة N-methyl amide المضافة إلى C-terminus. وقد تم ذلك لإزالة التأثير على كره الماء لمجموعات الأمينات الحرة والأحماض الكربوكسيلية في العمود الفقري للحمض الأميني ألفا. تم استخدام PaDEL-Descriptor لحساب XLogP لجميع الهياكل المغطاة وحجم فان دير فالز المحسوب (VABC) لجميع الهياكل غير المغطاة. ويبين الشكل 2 المساحة الكيميائية للمكتبات المصفاة، كما هو محدد في واصفات VABC وXLogP. هنا ، يزداد نطاق قيم logP المحتملة مع الحجم الجزيئي ، حتى داخل المكتبات التي تفتقر صراحة إلى سلاسل جانبية محبة للماء (على سبيل المثال ، VAIL ، Pro). كانت الأحماض الأمينية المشفرة ذات السلاسل الجانبية الهيدروكربونية أكثر كرها للماء من معظم الأحماض الأمينية الأخرى ذات الحجم المماثل من مكتبتها الخاصة. يبدو أن هذا هو الحال أيضا بالنسبة ل Met و Cys مقارنة بالأعضاء الآخرين في مكتبة VAIL_S التي تحتوي على مجلدات مماثلة. كانت الأحماض الأمينية المشفرة ذات السلاسل الجانبية للهيدروكسيل (Ser و Thr) من بين أصغر أعضاء مكتبة DEST ، مع Asp أكبر قليلا من Thr. يوضح الشكل 3 والشكل 4 التأثيرات على الحجم و logP عندما يحل الكبريت الثنائي محل الكربون في سلسلة جانبية من حمض ألفا الأميني. أدى استبدال الكبريت إلى زيادة طفيفة في الحجم الجزيئي في جميع المكتبات (الشكل 3). تأثير استبدال الكبريت على logP ليس متجانسا كما هو الحال بالنسبة للحجم (الشكل 4). متوسط logP لمكتبة VAIL_S أقل قليلا من مكتبة VAIL ، ولكن هذا التأثير لا يظهر في أي من أزواج المكتبات الأخرى (DEST و DEST_S و Pro و Pro_S). ويبين الشكل 5 كميا الآثار المترتبة على توليد بنية ذرة زائفة تقف في إطار بنية تحتية مشتركة؛ هنا ، تم استبدال P ثلاثي التكافؤ ب ألانين مويتي أثناء توليد الهيكل. أدى استخدام الذرة الزائفة في توليد البنية إلى انخفاض كبير في عدد الهياكل الناتجة عن ~ 3 أوامر من الحجم (الشكل 5A) والوقت الإجمالي اللازم لتوليد تلك الهياكل بمقدار 1-2 أوامر من الحجم (الشكل 5B). الشكل 2: الفضاء الكيميائي لجميع مكتبات الأحماض الأمينية المصفاة. تمثل العلامات السوداء الأحماض الأمينية من المكتبات بدون كبريت. تمثل العلامات الصفراء الأحماض الأمينية من المكتبات الغنية بالكبريت. الدوائر: VAIL و VAIL_S ؛ المربعات: DEST و DEST_S ؛ المثلثات: برو Pro_S. النجوم: الأحماض الأمينية المشفرة. لاحظ أن الأحماض الأمينية المشفرة المحتوية على الكبريت (Met و Cys) لا تعتبر أحماض أمينية “مبكرة” ولكنها موجودة في مكتبة VAIL_S. الاختصارات: XLogP = معامل التقسيم; VAIL = فالين ، ألانين ، آيسولوسين ، ليوسين ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين ؛ X_S = يحل الكبريت الثنائي محل أحد الكربون في المكتبة X. يرجى النقر هنا لعرض نسخة أكبر من هذا الشكل. الشكل 3: متوسط مجلدات فان دير فالز (في Å3) للمكتبات التي تحتوي على الكبريت وبدونه. تمثل الأشرطة السوداء متوسط أحجام المكتبات الخالية من الكبريت (VAIL و DEST و Pro) ، بينما تمثل الأشرطة الصفراء متوسط أحجام الإصدارات المستبدلة بالكبريت من تلك المكتبات (VAIL_S DEST_S Pro_S). تظهر أشرطة الخطأ الانحراف المعياري. الاختصارات: VAIL = فالين ، ألانين ، إيزولوسين ، ليوسين ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين ؛ X_S = يحل الكبريت الثنائي محل أحد الكربون في المكتبة X. يرجى النقر هنا لعرض نسخة أكبر من هذا الشكل. الشكل 4: متوسط قيم XLogP للمكتبات التي تحتوي على الكبريت وبدونه. تمثل الأشرطة السوداء المكتبات الخالية من الكبريت (VAIL و DEST و Pro) ، بينما تمثل الأشرطة الصفراء إصدارات بديلة عن الكبريت من تلك المكتبات (VAIL_S DEST_S Pro_S). تظهر أشرطة الخطأ الانحراف المعياري. الاختصارات: XLogP = معامل التقسيم; VAIL = فالين ، ألانين ، آيسولوسين ، ليوسين ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين ؛ X_S = يحل الكبريت الثنائي محل أحد الكربون في المكتبة X. يرجى النقر هنا لعرض نسخة أكبر من هذا الشكل. الشكل 5: آثار الذرة الزائفة ثلاثية التكافؤ على توليد بنية مايغن. تم إجراء جميع الاختبارات على جهاز كمبيوتر مزود بمعالج Intel i7-7700HQ بسرعة 2.8 جيجاهرتز وذاكرة وصول عشوائي (RAM) بسعة 16 جيجابايت وعدم وجود هياكل حفظ في ملف وخيار -m لاستخدام خيوط متعددة. استخدمت الاختبارات التي تستخدم ذرة زائفة الصيغ الضبابية كما هو موضح في الجدول 1. وبالنسبة للاختبارات التي لا تحتوي على ذرة زائفة، كانت الصيغ الغامضة المستخدمة هي نفسها كما هو موضح في الجدول 1 مع التغييرات التالية: استعيض عن P ب N؛ واستعيض عن الصيغ الغامضة المستخدمة ب N؛ واستعيض عن الصيغ الغامضة المستخدمة ب N؛ واستعيض عن الصيغ الغامضة المستخدمة ب N؛ واستعيض عن الصيغ الغامضة المستخدمة ب N؛ واستعيض تم زيادة عدد الكربون بنسبة 3 ؛ تم زيادة عدد الهيدروجين بنسبة 7 ؛ تم زيادة عدد الأكسجين بنسبة 2. تظهر الأشرطة السوداء المكتبات التي تم إنشاؤها باستخدام ذرة زائفة. تعرض الأشرطة الرمادية المكتبات التي تم إنشاؤها بدون ذرة زائفة. (أ) عدد الهياكل التي تم إنشاؤها باستخدام الصيغ الضبابية المستخدمة لبناء مكتبتي VAIL و DEST مع أو بدون فوسفور ثلاثي التكافؤ يحل محل بنية فرعية من الألانين. (ب) الوقت اللازم (بالمللي ثانية) لبناء مكتبتي VAIL وDEST مع وبدون فوسفور ثلاثي التكافؤ يحل محل البنية التحتية للألانين. الاختصارات: VAIL = فالين ، ألانين ، إيزولوسين ، ليوسين ؛ DEST = حمض الأسبارتيك ، حمض الجلوتاميك ، سيرين ، ثريونين. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم. الملف التكميلي 1: دفتر فحص البنية التحتية. يرجى النقر هنا لتنزيل هذا الملف. الملف التكميلي 2: عينة سيئة. يرجى النقر هنا لتنزيل هذا الملف. الملف التكميلي 3: عينة جيدة. يرجى النقر هنا لتنزيل هذا الملف. الملف التكميلي 4: دفتر ملاحظات استبدال الذرة الزائفة. يرجى النقر هنا لتنزيل هذا الملف. الملف التكميلي 5: دفتر ملاحظات تغطية الأحماض الأمينية. يرجى النقر هنا لتنزيل هذا الملف.

Discussion

إحدى ميزات الأحماض الأمينية “المبكرة” هي نقص الكبريت. تعتبر التحليلات التلوية المذكورة سابقا عموما أن الأحماض الأمينية المشفرة المحتوية على الكبريت (Cys و Met) كانت إضافات متأخرة نسبيا إلى الشفرة الوراثية ، وهي استنتاجات مدعومة بنقص الأحماض الأمينية المحتوية على الكبريت في النيازك وتجارب أنابيب الشرارة. ومع ذلك ، يتم اكتشاف مركبات الكبريت العضوي بسهولة في المذنبات والنيازك22 ، وإعادة تحليل تجارب أنابيب الشرارة باستخدام غاز H2S وجدت الأحماض الأمينية والمركبات العضوية الأخرى التي تحتوي على الكبريت16. عند التفكير في أبجدية بديلة للأحماض الأمينية ، فإن الأبجدية المخصب بالكبريت تستحق الاستكشاف.

في البروتوكول أعلاه ، يعتبر توليد الهيكل وتصفية البنية التحتية خطوات حاسمة. اعتمادا على تكوين مكتبة الهيكل النهائي ، قد يحتاج الباحث فقط إلى تنفيذ هاتين الخطوتين. يتم تضمين التعليمات والبرامج الخاصة بالإجراءات الإضافية (استبدال الذرة الزائفة وإضافة الهياكل الفرعية (في هذه الحالة ، تغطية الأحماض الأمينية)) لحساب واصف أكثر صلة (يضمن السد أن حسابات XLogP تتأثر بالسلسلة الجانبية وليس أمين العمود الفقري أو مجموعات الكربوكسيل) وتوليد بنية أسرع عن طريق استخدام الذرة الزائفة ، والتي تتم مناقشتها بمزيد من التفصيل أدناه. بالإضافة إلى ذلك ، يتم إجراء حساب الواصف هنا كطريقة سهلة لتصور تنوع الهياكل المتولدة ومقارنة آثار إثراء الكبريت في المكتبات النهائية.

في حين أن PaDEL-Descriptor يمكنه حساب الآلاف من الخصائص الجزيئية ، تم استخدام الحجم الجزيئي (كما تم حساب حجم فان دير فالز) ومعامل التقسيم (مثل XLogP) هنا لسببين متميزين. أولا ، يقيس هذان الوصفان الخصائص الجزيئية (الحجم وكره الماء ، على التوالي) المألوفة لمعظم الكيميائيين وعلماء الأحياء. ثانيا ، في حالة الأحماض الأمينية ، تكون هاتان الخاصيتان مهمتين. على مدى عقود ، كان من المعروف أن حجم الأحماض الأمينية وكره الماء يؤثران على الديناميكا الحرارية للبروتين القابل للطي23. تساعد هاتان الخاصيتان في تفسير ترددات استبدال الأحماض الأمينية التي كانت جزءا لا يتجزأ من فهم تطور البروتين24.

يوضح المثال أعلاه أنه في الوصفين اللذين تمت دراستهما (الحجم الجزيئي وكره الماء) ، فإن استبدال الكبريت الثنائي بالكربون واثنين من الهيدروجين لا يؤدي إلى تغييرات كبيرة. يمكن أن تعزى الزيادة الطفيفة وغير المهمة في متوسط الحجم الجزيئي من استبدال الكبريت (الشكل 3) إلى نصف قطر الكبريت التساهمي الأكبر (~ 103 مساء) مقارنة إما sp3 (~ 75 pm) أو sp2 (~ 73 pm) الكربون25. وبالمثل ، فإن استبدال الكبريت له تأثير ضئيل على متوسط XLogP (الشكل 4). كان التأثير الأكبر بين مكتبتي VAIL و VAIL_S ، ويرجع ذلك على الأرجح إلى مزيج من مكتبة VAIL كونها كارهة للماء بشكل خاص (السلاسل الجانبية هي الهيدروكربونات فقط) ومجموعات السلفهيدرول أكثر حمضية بكثير من مجموعات الميثيل التي ستحل محلها. ويتضح التأثير الأدنى لاستبدال الكبريت في الشكل 2، حيث تشغل المكتبات التي تحتوي على استبدال الكبريت نفس المساحة الكيميائية التي تشغلها المكتبات المماثلة دون استبدال الكبريت.

إن الانخفاض في عدد الهياكل (الشكل 5A) والوقت اللازم لتوليد تلك الهياكل (الشكل 5B) عند استخدام الذرة الزائفة ليس مفاجئا. يقلل استخدام الذرة الزائفة من عدد الذرات الثقيلة التي تحتاج إلى دمجها في رسم بياني كيميائي ، مما يقلل من عدد العقد البيانية وينتج عنه انخفاضات أسية في وقت التوليد وعدد الهياكل. هنا ، ينبع اختيار الفوسفور ثلاثي التكافؤ كذرة زائفة من الكيمياء الحيوية الأساسية (في غياب إضافة ما بعد الترجمة لمجموعات الفوسفات ، لا تحتوي أي أحماض أمينية مشفرة وراثيا على الفوسفور) وتكافؤ الذرة التي ستحل محلها (يمكن بسهولة استبدال الفوسفور ثلاثي التكافؤ بكربون رباعي التكافؤ مرتبط بشكل فردي بذرة أخرى أو مجموعة من الذرات). في حين أن الكود المقدم لاستبدال الذرة الزائفة محدد لاستبدال الفوسفور ثلاثي التكافؤ ببنية فرعية ألانين ، يمكن للمستخدمين تخصيص الشفرة للعمل مع ذرات زائفة مختلفة أو هياكل فرعية بديلة ، وربما باستخدام ذرات زائفة متعددة أثناء توليد البنية الأولية تليها استبدال كل ذرة زائفة ببنية تحتية جزيئية أكبر.

تستخدم بالفعل طرق توليد البنية المماثلة لتلك التي تستخدمها MAYGEN (وطرق أخرى مثل الشبكات العصبية) في اكتشاف الأدوية لإنشاء مكتبات مركبة في فحص السيليكو . يناقش استعراض حديث4 هذه الأساليب بمزيد من التفصيل. نظرا لأن هذه الطرق تهدف في المقام الأول إلى إنشاء جزيئات تشبه الأدوية ، فهناك بعض القيود على قدرتها على توليد الجزيئات ، مثل استخدام الخصائص البيولوجية أو الصيدلانية للحد من الهياكل التي تم إنشاؤها (عكس QSPR / QSAR) أو إنشاء هياكل من عدد محدد مسبقا من لبنات بناء البنية التحتية. نظرا لأن علم الأحياء الفلكية يركز بشكل أكبر على العديد من المركبات العضوية التي يمكن أن تتشكل بشكل غير حيوي وأقل على أي منتجات نهائية أو خصائصها ، فإن توليد البنية الشامل من MAYGEN مثالي لإنشاء مكتبات هيكلية لمعالجة الأسئلة البيولوجية الفلكية. يختلف نهج تصفية البنية التحتية الموصوفة هنا (التي يتم إجراؤها بعد إنشاء الهيكل عبر برنامج خارجي) عن البرنامج المنافس MOLGEN في أن تصفية البنية التحتية ل MOLGEN تحدث أثناء إنشاء الهيكل. نظرا لأن MAYGEN مفتوح المصدر ، فهو ليس فقط أكثر سهولة من MOLGEN بسبب تكلفة ترخيص MOLGEN ، ولكن يمكن للأفراد تنفيذ ميزات جديدة مثل تصفية البنية التحتية أثناء إنشاء الهيكل.

كما هو مكتوب ، يركز البروتوكول الموصوف هنا على إنشاء وتنسيق مكتبات من أحماض ألفا الأمينية الصغيرة نسبيا. لإنشاء مكتبات مختلفة ، يمكن للمستخدمين إعطاء صيغ جزيئية مختلفة ل MAYGEN ، أو تغيير تصفية البنية التحتية عن طريق تغيير الحد الأقصى المسموح به لحجم الحلقة وتكافؤ الرابطة ، أو تحرير ملفات القائمة الجيدة والقائمة السيئة لإضافة أو إزالة أنماط البنية التحتية. تعديلات البروتوكول التي تنطوي على تغيير كيفية إضافة الذرات والهياكل الفرعية أو استبدالها (استبدال الذرة الزائفة والغطاء الجزيئي) ممكنة ولكنها ستتطلب المزيد من الاهتمام بقيود التكافؤ لتجنب أخطاء RDKit حول التكافؤ غير الصحيح في الهياكل المعدلة.

تم تصميم البروتوكول المفصل أعلاه لأحماض ألفا الأمينية الصغيرة. ومع ذلك ، فإن الشكل العام (توليد بنية شاملة باستخدام الذرات الزائفة ، متبوعا بتصفية البنية التحتية والتعديلات الجزيئية) مرن للغاية للمركبات التي تتجاوز الأحماض الأمينية الصغيرة. حتى في علم الأحياء الفلكية ، تم استخدام إجراء حديث مماثل باستخدام MOLGEN للتحقيق في الأيزومرات الدستورية للأحماض النووية26. بالإضافة إلى الأدوات الموضحة أعلاه ، يمكن إقران MAYGEN بأدوات المعلوماتية الكيميائية مفتوحة المصدر الأخرى لجعل إنشاء وتحليل الهياكل الكيميائية الجديدة ميسور التكلفة ويمكن الوصول إليه لمجموعة واسعة من مجالات البحث.

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

تعترف ماي بالتمويل المقدم من مؤسسة كارل زايس. تم إنشاء جميع الأرقام باستخدام Microsoft Excel.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

Referenzen

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Diesen Artikel zitieren
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video