الغرض من هذا البروتوكول هو إنشاء وتنظيم مكتبات بنية الجزيئات الصغيرة بكفاءة باستخدام برامج مفتوحة المصدر.
يحتوي التوليد الشامل للهياكل الجزيئية على العديد من التطبيقات الكيميائية والكيميائية الحيوية مثل تصميم الأدوية وبناء قاعدة البيانات الجزيئية واستكشاف الكيمياء الحيوية البديلة وغيرها الكثير. من الناحية الرياضية ، هذه هي مولدات الرسم البياني مع قيود كيميائية. في هذا المجال ، فإن المولد الأكثر كفاءة حاليا (MOLGEN) هو منتج تجاري ، مما يحد من استخدامه. وبدلا من ذلك ، فإن مولد بنية جزيئية آخر ، MAYGEN ، هو أداة حديثة مفتوحة المصدر ذات كفاءة مماثلة ل MOLGEN وقدرة المستخدمين على زيادة أدائها عن طريق إضافة ميزات جديدة. واحدة من المجالات البحثية التي يمكن أن تستفيد من هذا التطور هو علم الأحياء الفلكية. تسمح مولدات البنية للباحثين باستكمال البيانات التجريبية بالإمكانيات الحسابية للكيمياء الحيوية البديلة. يفصل هذا البروتوكول حالة استخدام واحدة لتوليد البنية في علم الأحياء الفلكية ، وهي توليد وتنظيم مكتبات الأحماض الأمينية ألفا. باستخدام مولدات البنية مفتوحة المصدر وأدوات المعلوماتية الكيميائية ، يمكن تنفيذ الممارسات الموضحة هنا خارج علم الأحياء الفلكية لإنشاء وتنظيم مكتبات البنية الكيميائية منخفضة التكلفة لأي سؤال بحثي.
توليد البنية الجزيئية بمثابة تطبيق عملي للمشكلة العامة لتوليد الرسم البياني الشامل. بالنظر إلى العديد من العقد (الذرات) والقيود المفروضة على اتصالها (على سبيل المثال ، التكافؤ ، وتعدد الروابط ، والهياكل الفرعية المرغوبة / غير المرغوب فيها) ، كم عدد الرسوم البيانية المتصلة (الجزيئات) الممكنة؟ شهدت مولدات الهياكل تطبيقا واسعا في اكتشاف الأدوية وتطوير المستحضرات الصيدلانية ، حيث يمكنها إنشاء مكتبات واسعة من الهياكل الجديدة في فحص سيليكو 1.
تم تطوير أول مولد هيكلي ، CONGEN ، لأول مشروع ذكاء اصطناعي في الكيمياء العضوية ، DENDRAL2 (اختصار ل DENDRitic ALgorithm). تم الإبلاغ عن العديد من الخلفاء البرمجيين ل DENDRAL في الأدبيات. ومع ذلك ، لم يتم الحفاظ عليها جميعا أو كفاءتها. حاليا ، MOLGEN3 هو مولد البنية الجزيئية الحديث. لسوء الحظ بالنسبة لمعظم المستخدمين المحتملين ، فهو مغلق المصدر ويتطلب رسوم ترخيص. وبالتالي ، كانت هناك حاجة إلى مولد هيكل فعال مفتوح المصدر يمكنه التكيف بسهولة مع تطبيقات محددة. يتمثل أحد التحديات التي تواجه مولد الهيكل الفعال في إدارة الانفجار التوافقي. مع زيادة حجم الصيغة الجزيئية ، يزداد حجم مساحة البحث الكيميائي أضعافا مضاعفة. تستكشف مراجعة حديثة تاريخ وتحديات الجيل4 من البنية الجزيئية.
قبل عام 2021 ، كان مولد الجزيئات المتوازية (PMG)5 أسرع مولد هيكل مفتوح المصدر ، لكنه كان لا يزال أبطأ من MOLGEN بأوامر من حيث الحجم. MAYGEN6 أسرع بحوالي 47 مرة من PMG وحوالي 3 مرات أبطأ من MOLGEN ، مما يجعل MAYGEN أسرع وأكثر مولدات هيكل مفتوحة المصدر متاحة وأكثرها كفاءة. يمكن العثور على مقارنات واختبارات مقارنة أكثر تفصيلا في الورقة التي تقدم MAYGEN6. الميزة الرئيسية للبرنامج هي اختباره القائم على الترتيب المعجمي للهياكل الأساسية ، وهي طريقة منظمة لتوليد الرسوم البيانية تعتمد على خوارزمية Schreier-Sims7 . يمكن دمج البرنامج بسهولة في مشاريع أخرى وتحسينه لتلبية احتياجات المستخدمين.
مثل MOLGEN و PMG ، يأخذ MAYGEN صيغة جزيئية محددة من قبل المستخدم ويولد جميع الهياكل الممكنة لتلك الصيغة. على سبيل المثال ، إذا قام المستخدم بتشغيل MAYGEN باستخدام الصيغة C5H12 ، فستقوم MAYGEN بإنشاء جميع الهياكل الممكنة التي تحتوي على خمس ذرات كربون واثنتي عشرة ذرة هيدروجين. على عكس نظيرتها مفتوحة المصدر PMG ، يمكن ل MAYGEN أيضا استيعاب الصيغ الجزيئية “الغامضة” التي تستخدم الفواصل الزمنية بدلا من الأرقام المنفصلة لعدد كل عنصر. على سبيل المثال ، إذا قام المستخدم بتشغيل MAYGEN باستخدام الصيغة C5-7H12-15 ، فسيقوم MAYGEN بإنشاء جميع الهياكل الممكنة التي تحتوي على ما بين خمس وسبع ذرات كربون واثنتي عشرة وخمس عشرة ذرة هيدروجين ، مما يسمح بتوليد بسيط للهياكل مع مجموعة واسعة من التراكيب الذرية.
علم الأحياء الفلكية هو أحد هذه المجالات التي يمكن أن تستفيد من مولدات البنية الجزيئية. موضوع شائع في علم الأحياء الفلكية هو تطور أبجدية الأحماض الأمينية المشتركة بين جميع أشكال الحياة الموجودة على الأرض. واحدة من السمات المميزة للسلف المشترك العالمي الأخير (LUCA) هو استخدامه لعشرين حمضا أمينيا مشفرا وراثيا لبناء البروتين 8,9. استنادا إلى التحليلات التلوية للعمل في مجالات متعددة 10،11،12 ، ما يقرب من10 من هذه الأحماض الأمينية (Gly ، Ala ، Val ، Asp ، Glu ، Ser ، Thr ، Leu ، Ile ، Pro) تتشكل بسهولة في ظل ظروف غير أحيائية ومن المحتمل أن تشكل أبجدية الأحماض الأمينية للكائنات الحية قبل LUCA. مع مرور الوقت ، تم توسيع هذه الأبجدية “المبكرة” استجابة للاحتياجات الهيكلية والوظيفية المختلفة. على سبيل المثال ، تدعي مراجعة حديثة من Moosmann13 أن إضافة أعضاء أحدث من الأحماض الأمينية المشفرة وراثيا (وهي Met و Tyr و Trp) سمحت بالبقاء على قيد الحياة في البيئات الغنية بالأكسجين عن طريق منع الانتشار داخل الخلايا لأنواع الأكسجين التفاعلية.
تتيح مجموعة متزايدة باستمرار من تقنيات الكيمياء التحليلية نظرة ثاقبة على هياكل الأحماض الأمينية التي يمكن أن تتشكل في ظل ظروف غير حيوية. تفصل مراجعة حديثة14 أجراها Simkus وآخرون الطرق المستخدمة للكشف عن العديد من المركبات العضوية في النيازك ، وكذلك المركبات العضوية من المحاكاة المختبرية لبيئات الأرض المبكرة15،16،17. يسمح التوليد المنهجي للهياكل الكيميائية للباحثين باستكشاف ما وراء المركبات العضوية المكتشفة عن طريق الأجهزة ، مما يملأ المساحة الهيكلية حول “الجزر” الهيكلية التي تحددها الكيمياء التحليلية. في حالة الأحماض الأمينية “المبكرة” ، يظهر هذا الجيل المنهجي من البنية كيمياء البروتين المحتملة المتاحة للحياة المبكرة دون قصر الاستكشاف على الهياكل التي تم اكتشافها تجريبيا في ظل ظروف التوليف اللاأحيائي. مع مجموعات أدوات المعلوماتية الكيميائية مفتوحة المصدر ومولدات البنية الفعالة مثل MAYGEN ، أصبح إنشاء واستكشاف مكتبات بنية كيميائية جديدة الآن أسهل من أي وقت مضى ويمكن أن توجه تحقيقات أكثر تفصيلا في كيمياء بديلة للحياة.
إحدى ميزات الأحماض الأمينية “المبكرة” هي نقص الكبريت. تعتبر التحليلات التلوية المذكورة سابقا عموما أن الأحماض الأمينية المشفرة المحتوية على الكبريت (Cys و Met) كانت إضافات متأخرة نسبيا إلى الشفرة الوراثية ، وهي استنتاجات مدعومة بنقص الأحماض الأمينية المحتوية على الكبريت في النيازك وتجارب أنابيب الشرارة. ومع ذلك ، يتم اكتشاف مركبات الكبريت العضوي بسهولة في المذنبات والنيازك22 ، وإعادة تحليل تجارب أنابيب الشرارة باستخدام غاز H2S وجدت الأحماض الأمينية والمركبات العضوية الأخرى التي تحتوي على الكبريت16. عند التفكير في أبجدية بديلة للأحماض الأمينية ، فإن الأبجدية المخصب بالكبريت تستحق الاستكشاف.
في البروتوكول أعلاه ، يعتبر توليد الهيكل وتصفية البنية التحتية خطوات حاسمة. اعتمادا على تكوين مكتبة الهيكل النهائي ، قد يحتاج الباحث فقط إلى تنفيذ هاتين الخطوتين. يتم تضمين التعليمات والبرامج الخاصة بالإجراءات الإضافية (استبدال الذرة الزائفة وإضافة الهياكل الفرعية (في هذه الحالة ، تغطية الأحماض الأمينية)) لحساب واصف أكثر صلة (يضمن السد أن حسابات XLogP تتأثر بالسلسلة الجانبية وليس أمين العمود الفقري أو مجموعات الكربوكسيل) وتوليد بنية أسرع عن طريق استخدام الذرة الزائفة ، والتي تتم مناقشتها بمزيد من التفصيل أدناه. بالإضافة إلى ذلك ، يتم إجراء حساب الواصف هنا كطريقة سهلة لتصور تنوع الهياكل المتولدة ومقارنة آثار إثراء الكبريت في المكتبات النهائية.
في حين أن PaDEL-Descriptor يمكنه حساب الآلاف من الخصائص الجزيئية ، تم استخدام الحجم الجزيئي (كما تم حساب حجم فان دير فالز) ومعامل التقسيم (مثل XLogP) هنا لسببين متميزين. أولا ، يقيس هذان الوصفان الخصائص الجزيئية (الحجم وكره الماء ، على التوالي) المألوفة لمعظم الكيميائيين وعلماء الأحياء. ثانيا ، في حالة الأحماض الأمينية ، تكون هاتان الخاصيتان مهمتين. على مدى عقود ، كان من المعروف أن حجم الأحماض الأمينية وكره الماء يؤثران على الديناميكا الحرارية للبروتين القابل للطي23. تساعد هاتان الخاصيتان في تفسير ترددات استبدال الأحماض الأمينية التي كانت جزءا لا يتجزأ من فهم تطور البروتين24.
يوضح المثال أعلاه أنه في الوصفين اللذين تمت دراستهما (الحجم الجزيئي وكره الماء) ، فإن استبدال الكبريت الثنائي بالكربون واثنين من الهيدروجين لا يؤدي إلى تغييرات كبيرة. يمكن أن تعزى الزيادة الطفيفة وغير المهمة في متوسط الحجم الجزيئي من استبدال الكبريت (الشكل 3) إلى نصف قطر الكبريت التساهمي الأكبر (~ 103 مساء) مقارنة إما sp3 (~ 75 pm) أو sp2 (~ 73 pm) الكربون25. وبالمثل ، فإن استبدال الكبريت له تأثير ضئيل على متوسط XLogP (الشكل 4). كان التأثير الأكبر بين مكتبتي VAIL و VAIL_S ، ويرجع ذلك على الأرجح إلى مزيج من مكتبة VAIL كونها كارهة للماء بشكل خاص (السلاسل الجانبية هي الهيدروكربونات فقط) ومجموعات السلفهيدرول أكثر حمضية بكثير من مجموعات الميثيل التي ستحل محلها. ويتضح التأثير الأدنى لاستبدال الكبريت في الشكل 2، حيث تشغل المكتبات التي تحتوي على استبدال الكبريت نفس المساحة الكيميائية التي تشغلها المكتبات المماثلة دون استبدال الكبريت.
إن الانخفاض في عدد الهياكل (الشكل 5A) والوقت اللازم لتوليد تلك الهياكل (الشكل 5B) عند استخدام الذرة الزائفة ليس مفاجئا. يقلل استخدام الذرة الزائفة من عدد الذرات الثقيلة التي تحتاج إلى دمجها في رسم بياني كيميائي ، مما يقلل من عدد العقد البيانية وينتج عنه انخفاضات أسية في وقت التوليد وعدد الهياكل. هنا ، ينبع اختيار الفوسفور ثلاثي التكافؤ كذرة زائفة من الكيمياء الحيوية الأساسية (في غياب إضافة ما بعد الترجمة لمجموعات الفوسفات ، لا تحتوي أي أحماض أمينية مشفرة وراثيا على الفوسفور) وتكافؤ الذرة التي ستحل محلها (يمكن بسهولة استبدال الفوسفور ثلاثي التكافؤ بكربون رباعي التكافؤ مرتبط بشكل فردي بذرة أخرى أو مجموعة من الذرات). في حين أن الكود المقدم لاستبدال الذرة الزائفة محدد لاستبدال الفوسفور ثلاثي التكافؤ ببنية فرعية ألانين ، يمكن للمستخدمين تخصيص الشفرة للعمل مع ذرات زائفة مختلفة أو هياكل فرعية بديلة ، وربما باستخدام ذرات زائفة متعددة أثناء توليد البنية الأولية تليها استبدال كل ذرة زائفة ببنية تحتية جزيئية أكبر.
تستخدم بالفعل طرق توليد البنية المماثلة لتلك التي تستخدمها MAYGEN (وطرق أخرى مثل الشبكات العصبية) في اكتشاف الأدوية لإنشاء مكتبات مركبة في فحص السيليكو . يناقش استعراض حديث4 هذه الأساليب بمزيد من التفصيل. نظرا لأن هذه الطرق تهدف في المقام الأول إلى إنشاء جزيئات تشبه الأدوية ، فهناك بعض القيود على قدرتها على توليد الجزيئات ، مثل استخدام الخصائص البيولوجية أو الصيدلانية للحد من الهياكل التي تم إنشاؤها (عكس QSPR / QSAR) أو إنشاء هياكل من عدد محدد مسبقا من لبنات بناء البنية التحتية. نظرا لأن علم الأحياء الفلكية يركز بشكل أكبر على العديد من المركبات العضوية التي يمكن أن تتشكل بشكل غير حيوي وأقل على أي منتجات نهائية أو خصائصها ، فإن توليد البنية الشامل من MAYGEN مثالي لإنشاء مكتبات هيكلية لمعالجة الأسئلة البيولوجية الفلكية. يختلف نهج تصفية البنية التحتية الموصوفة هنا (التي يتم إجراؤها بعد إنشاء الهيكل عبر برنامج خارجي) عن البرنامج المنافس MOLGEN في أن تصفية البنية التحتية ل MOLGEN تحدث أثناء إنشاء الهيكل. نظرا لأن MAYGEN مفتوح المصدر ، فهو ليس فقط أكثر سهولة من MOLGEN بسبب تكلفة ترخيص MOLGEN ، ولكن يمكن للأفراد تنفيذ ميزات جديدة مثل تصفية البنية التحتية أثناء إنشاء الهيكل.
كما هو مكتوب ، يركز البروتوكول الموصوف هنا على إنشاء وتنسيق مكتبات من أحماض ألفا الأمينية الصغيرة نسبيا. لإنشاء مكتبات مختلفة ، يمكن للمستخدمين إعطاء صيغ جزيئية مختلفة ل MAYGEN ، أو تغيير تصفية البنية التحتية عن طريق تغيير الحد الأقصى المسموح به لحجم الحلقة وتكافؤ الرابطة ، أو تحرير ملفات القائمة الجيدة والقائمة السيئة لإضافة أو إزالة أنماط البنية التحتية. تعديلات البروتوكول التي تنطوي على تغيير كيفية إضافة الذرات والهياكل الفرعية أو استبدالها (استبدال الذرة الزائفة والغطاء الجزيئي) ممكنة ولكنها ستتطلب المزيد من الاهتمام بقيود التكافؤ لتجنب أخطاء RDKit حول التكافؤ غير الصحيح في الهياكل المعدلة.
تم تصميم البروتوكول المفصل أعلاه لأحماض ألفا الأمينية الصغيرة. ومع ذلك ، فإن الشكل العام (توليد بنية شاملة باستخدام الذرات الزائفة ، متبوعا بتصفية البنية التحتية والتعديلات الجزيئية) مرن للغاية للمركبات التي تتجاوز الأحماض الأمينية الصغيرة. حتى في علم الأحياء الفلكية ، تم استخدام إجراء حديث مماثل باستخدام MOLGEN للتحقيق في الأيزومرات الدستورية للأحماض النووية26. بالإضافة إلى الأدوات الموضحة أعلاه ، يمكن إقران MAYGEN بأدوات المعلوماتية الكيميائية مفتوحة المصدر الأخرى لجعل إنشاء وتحليل الهياكل الكيميائية الجديدة ميسور التكلفة ويمكن الوصول إليه لمجموعة واسعة من مجالات البحث.
The authors have nothing to disclose.
تعترف ماي بالتمويل المقدم من مؤسسة كارل زايس. تم إنشاء جميع الأرقام باستخدام Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |