يتم تقديم بروتوكول حسابي ، CaseOLAP LIFT ، وحالة استخدام للتحقيق في بروتينات الميتوكوندريا وارتباطاتها بأمراض القلب والأوعية الدموية كما هو موضح في التقارير الطبية الحيوية. يمكن تكييف هذا البروتوكول بسهولة لدراسة المكونات الخلوية والأمراض التي يختارها المستخدم.
وتمثل الكميات المتزايدة بسرعة والهائلة من التقارير الطبية الحيوية، التي يحتوي كل منها على العديد من الكيانات والمعلومات الغنية، موردا غنيا لتطبيقات التنقيب عن النصوص الطبية الحيوية. تمكن هذه الأدوات الباحثين من دمج هذه الاكتشافات وتصورها وترجمتها للكشف عن رؤى جديدة في علم أمراض الأمراض والعلاجات. في هذا البروتوكول ، نقدم CaseOLAP LIFT ، وهو خط أنابيب حسابي جديد للتحقيق في المكونات الخلوية وارتباطاتها المرضية عن طريق استخراج المعلومات التي يختارها المستخدم من مجموعات البيانات النصية (على سبيل المثال ، الأدبيات الطبية الحيوية). يحدد البرنامج البروتينات دون الخلوية وشركائها الوظيفيين ضمن المستندات ذات الصلة بالمرض. يتم تحديد المستندات الإضافية ذات الصلة بالمرض عبر طريقة احتساب ملصق البرنامج. لوضع سياق الارتباطات الناتجة عن أمراض البروتين ودمج المعلومات من العديد من الموارد الطبية الحيوية ذات الصلة ، يتم إنشاء رسم بياني معرفي تلقائيا لمزيد من التحليلات. نقدم حالة استخدام واحدة مع مجموعة من ~ 34 مليون وثيقة نصية تم تنزيلها عبر الإنترنت لتقديم مثال على توضيح دور بروتينات الميتوكوندريا في الأنماط الظاهرية المتميزة لأمراض القلب والأوعية الدموية باستخدام هذه الطريقة. علاوة على ذلك ، تم تطبيق نموذج التعلم العميق على الرسم البياني المعرفي الناتج للتنبؤ بالعلاقات غير المبلغ عنها سابقا بين البروتينات والمرض ، مما أدى إلى 1,583 ارتباطا مع الاحتمالات المتوقعة >0.90 ومع منطقة تحت منحنى خصائص تشغيل المستقبل (AUROC) تبلغ 0.91 في مجموعة الاختبار. يتميز هذا البرنامج بسير عمل آلي وقابل للتخصيص بدرجة عالية ، مع نطاق واسع من البيانات الخام المتاحة للتحليل ؛ لذلك ، باستخدام هذه الطريقة ، يمكن تحديد ارتباطات أمراض البروتين بموثوقية معززة داخل مجموعة نصية.
دراسة البروتينات المرتبطة بالأمراض تعزز المعرفة العلمية للإمراض وتساعد على تحديد العلاجات المحتملة. العديد من النصوص الكبيرة من المنشورات الطبية الحيوية ، مثل 34 مليون مقالة في PubMed تحتوي على عناوين المنشورات والملخصات ووثائق النص الكامل ، تبلغ عن نتائج جديدة تربط البروتينات بالأمراض. ومع ذلك ، فإن هذه النتائج مجزأة عبر مصادر مختلفة ويجب دمجها لتوليد رؤى طبية حيوية جديدة. توجد العديد من الموارد الطبية الحيوية لدمج جمعيات أمراض البروتين1،2،3،4،5،6،7. ومع ذلك ، غالبا ما تكون هذه الموارد المنسقة غير مكتملة وقد لا تشمل أحدث نتائج البحوث. تعد مناهج التنقيب عن النصوص ضرورية لاستخراج وتوليف ارتباطات أمراض البروتين في مجموعة نصية كبيرة ، مما يؤدي إلى فهم أكثر شمولا لهذه المفاهيم الطبية الحيوية في الأدبيات العلمية.
توجد مناهج متعددة للتنقيب عن النصوص الطبية الحيوية للكشف عن العلاقات بين البروتين والمرض8،9،10،11،12،13،14 ، ويساهم آخرون جزئيا في تحديد هذه العلاقات من خلال تحديد البروتينات أو الأمراض أو الكيانات الطبية الحيوية الأخرى المذكورة في النص 13،15،16،17 ، 18,19. ومع ذلك ، تفتقر العديد من هذه الأدوات إلى الوصول إلى أحدث الأدبيات ، باستثناء عدد قليل يتم تحديثها بشكل دوري8،11،13،15. وبالمثل ، فإن العديد من الأدوات لها أيضا نطاق محدود من الدراسة ، لأنها تقتصر على أمراض أو بروتينات محددة مسبقا على نطاق واسع 9,13. وهناك عدة نهج تميل أيضا إلى تحديد الإيجابيات الخاطئة داخل النص؛ عالج آخرون هذه المشكلات من خلال قائمة سوداء عالمية قابلة للتفسير لأسماء البروتين9,11 أو أقل تقنيات التعرف على كيان الاسم القابلة للتفسير15,20. في حين أن معظم الموارد تقدم نتائج محسوبة مسبقا فقط ، فإن بعض الأدوات توفر التفاعل عبر تطبيقات الويب أو رمز البرنامجالذي يمكن الوصول إليه 8،9،11.
لمعالجة القيود المذكورة أعلاه ، نقدم البروتوكول التالي ، CaseOLAP مع تضمين الملصق والنص الكامل (CaseOLAP LIFT) ، كمنصة مرنة وقابلة للتخصيص للتحقيق في الارتباطات بين البروتينات (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي) والأمراض من مجموعات البيانات النصية. تتميز هذه المنصة بالتنظيم الآلي للبروتينات الخاصة بمصطلح الأنطولوجيا الجينية (GO) (على سبيل المثال ، البروتينات الخاصة بالعضيات) ، وإسناد تسميات مواضيع المستندات المفقودة ، وتحليل مستندات النص الكامل ، بالإضافة إلى أدوات التحليل والأدوات التنبؤية (الشكل 1 ، الشكل 2 ، والجدول 1). يقوم CaseOLAP LIFT برعاية البروتينات الخاصة بالعضيات باستخدام مصطلحات GO المقدمة من المستخدم (على سبيل المثال ، حجرة العضيات) والبروتينات ذات الصلة وظيفيا باستخدام STRING21 و Reactome 22 و GRNdb23. يتم تحديد وثائق دراسة الأمراض من خلال تسميات رأس الموضوع الطبي المشروح PubMed (MeSH). بالنسبة إلى ~ 15.1٪ من المستندات غير المسماة ، يتم احتساب التسميات إذا تم العثور على مرادف مصطلح MeSH واحد على الأقل في العنوان أو تم العثور على اثنين على الأقل في الملخص. وهذا يمكن من النظر في المنشورات غير المصنفة سابقا في تحليل التنقيب عن النصوص. يسمح CaseOLAP LIFT أيضا للمستخدم بتحديد أقسام المنشورات (على سبيل المثال ، العناوين والملخصات فقط ، أو النص الكامل ، أو طرق استبعاد النص الكامل) ضمن إطار زمني محدد (على سبيل المثال ، 2012-2022). يقوم البرنامج أيضا برعاية قائمة سوداء خاصة بحالة الاستخدام لأسماء البروتين بشكل شبه تلقائي ، مما يقلل بشكل حيوي من ارتباطات أمراض البروتين الإيجابية الكاذبة الموجودة في الأساليب الأخرى. بشكل عام ، تتيح هذه التحسينات قابلية أكبر للتخصيص والأتمتة ، وتوسيع كمية البيانات المتاحة للتحليل ، وإنتاج ارتباطات أكثر ثقة بين أمراض البروتين من مجموعة النصوص الطبية الحيوية الكبيرة.
يتضمن CaseOLAP LIFT المعرفة الطبية الحيوية ويمثل العلاقة بين المفاهيم الطبية الحيوية المختلفة باستخدام الرسم البياني المعرفي ، والذي يتم الاستفادة منه للتنبؤ بالعلاقات الخفية في الرسم البياني. في الآونة الأخيرة ، تم تطبيق طرق الحساب القائمة على الرسم البياني على الإعدادات البيولوجية ، بما في ذلك دمج وتنظيم المفاهيم الطبية الحيوية24،25 ، وإعادة استخدام الأدوية وتطويرها 26،27،28 ، ولاتخاذ القرارات السريرية من بيانات البروتينات 29.
لتوضيح المرافق ل CaseOLAP LIFT في إعداد إنشاء رسم بياني معرفي ، نسلط الضوء على حالة استخدام حول التحقيق في الارتباطات بين بروتينات الميتوكوندريا وثماني فئات من أمراض القلب والأوعية الدموية. تم تحليل الأدلة من ~ 362000 وثيقة ذات صلة بالمرض لتحديد أفضل بروتينات الميتوكوندريا والمسارات المرتبطة بالأمراض. بعد ذلك ، تم دمج هذه البروتينات والبروتينات المرتبطة وظيفيا ونتائج التنقيب عن النصوص في الرسم البياني المعرفي. تم الاستفادة من هذا الرسم البياني في تحليل التنبؤ بالارتباط القائم على التعلم العميق للتنبؤ بارتباطات أمراض البروتين التي لم يتم الإبلاغ عنها حتى الآن في المنشورات الطبية الحيوية.
يصف قسم المقدمة المعلومات الأساسية وأهداف بروتوكولنا. يصف القسم التالي خطوات البروتوكول الحسابي. بعد ذلك ، يتم وصف النتائج التمثيلية لهذا البروتوكول. أخيرا ، نناقش بإيجاز حالات استخدام البروتوكول الحسابي والمزايا والعيوب والتطبيقات المستقبلية.
يمكن CaseOLAP LIFT الباحثين من التحقيق في الارتباطات بين البروتينات الوظيفية (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي أو عملية بيولوجية أو وظيفة جزيئية) والفئات البيولوجية (مثل الأمراض). يجب تنفيذ البروتوكول الموصوف بالتسلسل المحدد ، مع كون قسم البروتوكول 2 وقسم البروتوكول 3 أهم الخطوات ، حيث يعتمد قسم البروتوكول 4 وقسم البروتوكول 5 على نتائجهما. كبديل لقسم البروتوكول 1 ، يمكن استنساخ رمز CaseOLAP LIFT والوصول إليه من مستودع GitHub (https://github.com/CaseOLAP/caseolap_lift). تجدر الإشارة إلى أنه على الرغم من الاختبار أثناء تطوير البرنامج ، قد تحدث أخطاء. إذا كان الأمر كذلك ، فيجب تكرار الخطوة الفاشلة. إذا استمرت المشكلة، فمن المستحسن تكرار قسم البروتوكول 1 لضمان استخدام أحدث إصدار من حاوية عامل الإرساء. يتوفر مزيد من المساعدة من خلال إنشاء مشكلة في مستودع GitHub للحصول على دعم إضافي.
تدعم هذه الطريقة توليد الفرضيات من خلال تمكين الباحثين من تحديد الكيانات ذات الأهمية والكشف عن الارتباطات المحتملة بينها ، والتي قد لا تكون متاحة بسهولة في الموارد الطبية الحيوية الحالية. تسمح الارتباطات الناتجة عن أمراض البروتين للباحثين باكتساب رؤى جديدة من خلال المقاييس القابلة للتفسير للدرجات: تشير درجات الشعبية إلى البروتينات الأكثر دراسة فيما يتعلق بالمرض ، وتشير درجات التميز إلى الأمراض الأكثر تميزا للبروتين ، ودرجة CaseOLAP المجمعة هي مزيج من الاثنين. لمنع التعريفات الإيجابية الخاطئة (على سبيل المثال ، بسبب المترادفات) ، تستخدم بعض أدوات التنقيب عن النصوص قائمة سوداء من المصطلحات لتجنب 9,11. وبالمثل ، يستخدم CaseOLAP LIFT أيضا قائمة سوداء ولكنه يسمح للمستخدم بتخصيص القائمة السوداء وفقا لحالة الاستخدام الخاصة به. على سبيل المثال ، عند دراسة مرض الشريان التاجي (CAD) ، لا ينبغي اعتبار “CAD” اسما للبروتين “deoxyribonuclease المنشط بالكاسباس”. ومع ذلك ، عند دراسة مواضيع أخرى ، قد يشير “CAD” عادة إلى البروتين.
يتكيف CaseOLAP LIFT مع كمية البيانات المتاحة للتنقيب عن النصوص. تخفف وظيفة النطاق الزمني من العبء الحسابي وتخلق مرونة لتوليد الفرضيات (على سبيل المثال ، دراسة كيفية تغير المعرفة العلمية حول ارتباط مرض البروتين بمرور الوقت). وفي الوقت نفسه ، فإن مكونات تضمين التسمية والنص الكامل تعزز نطاق البيانات المتاحة للتنقيب عن النصوص. يتم تعطيل كلا المكونين بشكل افتراضي لتقليل التكاليف الحسابية ، ولكن قد يقرر المستخدم تضمين أي من المكونين. إن تصنيف التسمية متحفظ ، ويصنف معظم المنشورات بشكل صحيح (دقة 87٪) ولكنه يفتقد تسميات الفئات الأخرى (تذكر 2٪). تعتمد هذه الطريقة حاليا على دليل إرشادي قائم على القواعد يطابق الكلمات الرئيسية للمرض ، وهناك خطط لتحسين الأداء من خلال استخدام تقنيات نمذجة موضوع المستند. نظرا لأن العديد من التقارير غير المصنفة تميل إلى أن تكون منشورات حديثة ، فإن الدراسات التي تبحث في نطاق زمني حديث (على سبيل المثال ، جميع المنشورات خلال آخر 3 سنوات) يتم تقديمها بشكل أفضل عن طريق تعطيل إسناد التصنيف. يزيد مكون النص الكامل من وقت التشغيل ومتطلبات التخزين. والجدير بالذكر أن أقلية فقط من الوثائق لديها النص الكامل المتاح (~ 14٪ من الوثائق في دراستنا). بافتراض أن أسماء البروتين المذكورة في قسم طرق المنشورات أقل احتمالا أن تكون مرتبطة بموضوعات المرض ، يوصى بالاستعلام عن مقالات النص الكامل باستثناء قسم الطرق.
تعد درجات ارتباط البروتين والمرض الناتجة مفيدة للتحليلات التقليدية مثل التجميع أو تقليل الأبعاد أو تحليلات التخصيب (على سبيل المثال ، GO ، المسارات) ، مع تضمين بعض التنفيذ في حزمة البرامج هذه. لوضع هذه الدرجات في سياقها ضمن المعرفة الطبية الحيوية الحالية ، يتم إنشاء رسم بياني معرفي تلقائيا ويمكن استكشافه باستخدام أدوات تصور الرسم البياني (على سبيل المثال ، Neo4j32 ، Cytoscape33). يمكن أيضا استخدام الرسم البياني المعرفي للتحليلات التنبؤية (على سبيل المثال ، التنبؤ بالارتباطات للعلاقات غير المبلغ عنها بين البروتين والمرض ، والكشف المجتمعي عن شبكات البروتين ، وطرق جمع الجوائز في مسارات المشي).
لقد درسنا مقاييس تقييم النموذج لارتباطات أمراض البروتين المتوقعة (الجدول 5). يعين النموذج درجة احتمال بين 0.0 و 1.0 لكل ارتباط بالبروتين والمرض ، مع درجات أقرب إلى 1.0 تشير إلى مستوى أعلى من الثقة في التنبؤ. أشار التقييم الداخلي لأداء النموذج ، والذي استند إلى مقاييس مختلفة بما في ذلك AUROC والدقة والدقة المتوازنة والنوعية والاستدعاء ، إلى الأداء العام الممتاز في عمله. ومع ذلك ، سلط التقييم الضوء أيضا على درجة ضعيفة إلى حد ما لدقة (0.15) للنموذج ، مما أدى إلى انخفاض درجة AUPRC و F1. ستساعد الدراسات المستقبلية لتحسين هذا المقياس على رفع الأداء العام للنموذج. نتصور أنه يمكن تحقيق ذلك من خلال تنفيذ نماذج أكثر تطورا لتضمين الرسم البياني المعرفي والتنبؤ بالرسم البياني. استنادا إلى دقة النموذج البالغة 0.15 ، يجب أن يتوقع الباحثون ما يقرب من 15٪ من عمليات تحديد الهوية الإيجابية. على وجه الخصوص ، من بين جميع ارتباطات أمراض البروتين البالغ عددها 12,688 التي تنبأ بها النموذج ، فإن ما يقرب من 15٪ هي ارتباطات إيجابية حقيقية. يمكن التخفيف من ذلك من خلال النظر فقط في ارتباطات أمراض البروتين ذات درجة احتمالية عالية (على سبيل المثال ، >0.90) ؛ في حالة الاستخدام الخاصة بنا ، أدت التصفية بحد احتمال 0.90 إلى تنبؤات عالية الثقة ل 1583 جمعية. قد يجد المحققون أنه من المفيد أيضا فحص هذه التنبؤات يدويا لضمان صحة عالية (انظر الشكل 7 كمثال). حدد تقييم خارجي لتوقعاتنا أنه من بين 310 ارتباطات لأمراض البروتين من قاعدة بيانات منسقة واسعة النطاق DisGeNet19 ، تم تحديد 103 في دراستنا للتنقيب عن النصوص ، وتم التنبؤ ب 88 ارتباطا إضافيا من خلال تحليل الرسم البياني المعرفي الخاص بنا بدرجة احتمالية >0.90.
بشكل عام ، يتميز CaseOLAP LIFT بمرونة محسنة وسهولة الاستخدام في تصميم تحليلات مخصصة للارتباطات بين مجموعات البروتين الوظيفية وفئات متعددة من الأمراض في مجموعة النصوص الكبيرة. يتم تبسيط هذه الحزمة في واجهة سطر أوامر جديدة سهلة الاستخدام ويتم إصدارها كحاوية عامل إرساء ، وبالتالي تقليل المشكلات المرتبطة بتكوين بيئات البرمجة وتبعيات البرامج. يمكن تكييف خط أنابيب CaseOLAP LIFT لدراسة بروتينات الميتوكوندريا في أمراض القلب والأوعية الدموية بسهولة. على سبيل المثال ، يمكن أن تتضمن التطبيقات المستقبلية لهذه التقنية التحقيق في الارتباطات بين أي بروتينات مرتبطة بأي مصطلحات GO وأي فئة طبية حيوية. علاوة على ذلك ، فإن ارتباطات أمراض البروتين المصنفة التي حددتها منصة التنقيب عن النصوص هذه مهمة في إعداد مجموعة البيانات لاستخدام تقنيات اللغة الطبيعية المتقدمة. يمكن الرسم البياني المعرفي الناتج الباحثين من تحويل هذه النتائج إلى معرفة إعلامية بيولوجيا ويضع الأساس لمتابعة التحليلات القائمة على الرسم البياني.
The authors have nothing to disclose.
تم دعم هذا العمل من قبل المعاهد الوطنية للصحة (NIH) R35 HL135772 إلى P.P. ، NIH T32 HL13945 إلى A.R.P. و DS ، NIH T32 EB016640 إلى A.R.P. ، التدريب البحثي لمؤسسة العلوم الوطنية (NRT) 1829071 إلى A.R.P. و DS ، NIH R01 HL146739 ل I.A. ، J.R. ، A.V. ، K.B. ، ووقف TC Laubisch إلى P.P. في جامعة كاليفورنيا في لوس أنجلوس.