نقدم بروتوكول ورمز البرمجة المرتبطة بها، فضلا عن عينات البيانات الفوقية لدعم تعريف تلقائية المستندة إلى مجموعة النظراء لرابطة العبارات-فئة تمثل مفاهيم فريدة من نوعها في مجال المعارف المحدد المستخدم في الأدبيات الطبية الحيوية. يمكن أن تيسر الرابطة عبارة-الفئة كمياً بموجب هذا البروتوكول في عمق التحليل في مجال المعرفة المحددة.
وقد تجاوزت التراكم السريع للبيانات النصية الطبية القدرة البشرية curation اليدوي والتحليل، مما استلزم رواية أدوات النص-التعدين لاستخراج الأفكار البيولوجية من كميات كبيرة من التقارير العلمية. خط الأنابيب سياق علم “الدلالات على الإنترنت تحليلية معالجة” (كاسيولاب)، وضعت في عام 2016، يوضحها بنجاح علاقات الفئة العبارة المعرفة من قبل المستخدم من خلال تحليل البيانات النصية. وقد كاسيولاب العديد من التطبيقات الطبية الحيوية.
وقد وضعنا بروتوكولا لبيئة المستندة إلى مجموعة النظراء الداعمة لنهاية إلى نهاية العبارة-التعدين ومنصة تحليلات. لدينا بروتوكول يتضمن بيانات تجهيزها (مثل تحميل واستخراج وتحليل الوثائق والنصوص)، والفهرسة والبحث مع الاستيكسيرتش، إنشاء هيكل وثيقة فنية ودعا النص إلى المكعب، والتحديد الكمي لعلاقات عبارة-الفئة باستخدام خوارزمية كاسيولاب الأساسية.
لدينا بيانات تجهيزها يولد تعيينات مفتاح القيمة لجميع الوثائق المعنية. معالجة البيانات المفهرسة للاضطلاع ببحث عن الوثائق بما في ذلك الكيانات، مما يسهل كذلك إنشاء المكعب النص وحساب نقاط كاسيولاب. يتم تفسير عشرات كاسيولاب الخام التي يتم الحصول عليها باستخدام سلسلة من التحليلات التكاملية، بما في ذلك الحد من أبعاد، والتكتل، الزمانية، والتحليلات الجغرافية. بالإضافة إلى ذلك، يتم استخدام عشرات كاسيولاب لإنشاء قاعدة بيانات رسومية، الذي يتيح لرسم الخرائط الدلالية للوثائق.
كاسيولاب يحدد علاقات الفئة العبارة في الدقيقة (يحدد العلاقات)، بما يتفق (استنساخه بدرجة عالية)، وكفاءة (عمليات 100,000 الكلمات/sec). وفي أعقاب هذا البروتوكول، يمكن للمستخدمين الوصول في بيئة الحوسبة السحابية لدعم تطبيقات من كاسيولاب والتكوينات الخاصة بهم. يوفر إمكانية الوصول المحسن هذا المنهاج ويخول للمجتمع الطبي الحيوي أدوات عبارة-التعدين لتطبيقات البحوث الطبية الحيوية على نطاق واسع.
دليل التقييم الملايين من ملفات نصية لدراسة الرابطة عبارة-الفئة (على سبيل المثال.، العمرية لرابطة البروتين) لا تضاهي بالكفاءة المقدمة بطريقة حسابية مؤتمتة. أننا نريد لإدخال منهاج علم السياق “الدلالي على الإنترنت تحليلية تجهيز” (كاسيولاب) المستندة إلى مجموعة النظراء كأسلوب العبارة-التعدين للحساب الآلي من العبارة-الفئة الرابطة في سياق الطب الحيوي.
منصة كاسيولاب، الذي عرف أولاً في عام 20161، فعالة جداً مقارنة بالأساليب التقليدية لإدارة البيانات وحساب بسبب إدارتها الوثيقة الفنية ودعا النص إلى المكعب2،3، 4، التي توزع الوثائق مع الحفاظ على التسلسل الهرمي والأحياء الأساسية. قد طبقت في البحوث الطبية الحيوية5 دراسة جمعية كيان-الفئة. منصة كاسيولاب يتكون من ست خطوات رئيسية بما في ذلك تحميل واستخراج البيانات وتحليل، والفهرسة، إنشاء المكعب النص، عد الكيان، وحساب نقاط كاسيولاب؛ وهو المحور الرئيسي للبروتوكول (الشكل 1، الشكل 2، الجدول 1).
تنفيذ خوارزمية كاسيولاب، يضع المستخدم فئات الاهتمام (مثل المرض، وعلامات وأعراض، والفئات العمرية، والتشخيص) والكيانات ذات الأهمية (مثل البروتينات، والأدوية). مثال واحد من الفئة المدرجة في هذه المادة هو ‘الفئات العمرية’، الذي ‘الرضع’، ‘الطفل’، ‘المراهقات’، و ‘الكبار’ الفئات الفرعية كخلايا النص إلى المكعب وأسماء البروتين (المترادفات) والمختصرات ككيانات. عناوين المواضيع الطبية (مش) تنفذ إلى استرداد المنشورات المقابلة لفئات محددة (الجدول 2). واصفات مش تنتظم في بنية شجرة هرمية للسماح بالبحث عن المنشورات في مختلف مستويات خصوصية (عينة هو موضح في الشكل 3). ويستخدم النظام الأساسي كاسيولاب بيانات الفهرسة والبحث عن وظيفة curation للوثائق المرتبطة بكيان والتي زيادة تيسير المستند إلى تعيين كيان العد وحساب نقاط كاسيولاب.
تتوفر تفاصيل حساب نقاط كاسيولاب في المنشورات السابقة1،5. هذه النتيجة يتم حسابها باستخدام معايير محددة مرتبة استناداً إلى هيكل وثيقة النص إلى المكعب. والنتيجة النهائية هي نتاج النزاهةو شعبية، و التمايز. ويصف سلامة ما إذا كان كيان ممثل هو وحدة دلالية لا يتجزأ مجتمعة تشير إلى مفهوم ذات مغزى. يتم أخذ سلامة العبارة المعرفة من قبل المستخدم لأن 1.0 أنها تقف كعبارة قياسية في الأدب. يمثل التميز النسبي أهمية العبارة في مجموعة فرعية واحدة من الوثائق مقارنة ببقية الخلايا الأخرى. أول مرة يحسب أهمية كيان في خلية معينة عن طريق مقارنة حدوث اسم البروتين في مجموعة البيانات المستهدفة ويوفر درجة التميز تم تسويتها. يمثل شعبية يظهر حقيقة أن العبارة مع أعلى درجة شعبية أكثر تواترا في مجموعة فرعية واحدة من الوثائق. أسماء البروتين نادرة في خلية مرتبة منخفضة، في حين زيادة في تواتر ذكر عودة تناقص بسبب تنفيذ الدالة اللوغاريتمية للتردد. قياس الكمية هذه المفاهيم الثلاثة يعتمد على التردد (1) مصطلح الكيان على خلية وعبر (2) عدد من الوثائق بعد ذلك الكيان (تردد الوثيقة) داخل الخلية وعبر الخلايا والخلايا.
وقد درسنا سيناريوهين الممثل باستخدام إحدى وحدات dataset PubMed ولدينا الخوارزمية. ونحن مهتمون في البروتينات المتقدرية كيف ترتبط بفئتين فريدة من واصفات مش؛ “الفئات العمرية” و “أمراض التغذية والتمثيل الغذائي”. على وجه التحديد، يمكننا استرداد المنشورات 15,728,250 من منشورات 20 عاماً، جمعتها PubMed (من عام 1998 إلى عام 2018)، فيما بينها، خلاصات فريد 8,123,458 كامل مش واصفات. وبناء على ذلك، 1,842 البروتين المتقدرية البشرية أسماء (بما في ذلك المختصرات ومرادفات)، اكتسب من أونيبروت (uniprot.org) وكذلك من MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)، يتم بشكل منتظم درست. فدرست روابطها مع هذه المنشورات 8,899,019 والكيانات باستخدام لدينا البروتوكول؛ نحن بني نص-مكعب وتحسب كل منها عشرات كاسيولاب.
لقد أظهرنا أن الخوارزمية كاسيولاب يمكن إنشاء اقتران عبارة على أساس كمية إلى فئة القائم على المعرفة على كميات كبيرة من البيانات النصية لاستخراج أفكار ذات معنى. بعد أن البروتوكول، يمكن للمرء بناء إطار كاسيولاب لإنشاء مكعب-نص المطلوب وتحديد الكيان-فئة الجمعيات من خلال حساب درجة كاسيولاب. يمكن أن تؤخذ عشرات كاسيولاب الخام التي يتم الحصول عليها للتحليلات التكاملية بما في ذلك الحد من أبعاد، والتجميع، التحليل الزمني والجغرافي، فضلا عن إنشاء قاعدة بيانات رسومية مما يتيح رسم الخرائط الدلالية للوثائق.
تطبيق الخوارزمية. يمكن أن تكون أمثلة الكيانات المعرفة من قبل المستخدم، بخلاف البروتينات، قائمة بأسماء الجينات، والمخدرات وعلامات محددة وأعراض بما في ذلك المختصرات، والمرادفات. وعلاوة على ذلك، هناك العديد من الخيارات لاختيار الفئة لتيسير المعرفة الطبية تحليلات محددة (مثلاً، التشريح [A]، والانضباط والاحتلال [ح] والظواهر والعمليات [ز]). في أن اثنين من حالات الاستخدام، جميع المنشورات العلمية والبيانات النصية الخاصة بهم يتم استردادها من قاعدة بيانات MEDLINE باستخدام ال PubMed كمحرك البحث، وكلاهما يدير “المكتبة الوطنية للطب”. ومع ذلك، يجوز تطبيق منهاج كاسيولاب لقواعد البيانات الأخرى للاهتمام الذي يحتوي على الوثائق الطبية الحيوية مع بيانات نصية مثل إدارة الأغذية والعقاقير الضارة الحدث الإبلاغ عن نظام (فارس). وهذا فتح قاعدة بيانات تحتوي على معلومات عن الأحداث الضائرة الطبية والدواء الخطأ التقارير المقدمة إلى إدارة الأغذية والعقاقير. وعلى النقيض من MEDLINE وفارس، قواعد البيانات في المستشفيات التي تحتوي على السجلات الصحية الإلكترونية من المرضى هي ليست مفتوحة للجمهور ومقيدة بموجب قانون المساءلة المعروفة باسم HIPAA وقابلية التأمين الصحي.
خوارزمية كاسيولاب قد طبقت بنجاح إلى أنواع مختلفة من البيانات (على سبيل المثال، المقالات الإخبارية)1. أحرز تنفيذ هذه الخوارزمية في الوثائق الطبية في عام 20185. المتطلبات لتطبيق خوارزمية كاسيولاب أنه يجب تعيين كل من الوثائق مع الكلمات الرئيسية المرتبطة بالمفاهيم (مثل واصفات مش في المنشورات الطبية الحيوية، والكلمات الرئيسية في الأخبار). إذا لم يتم العثور على كلمات رئيسية، واحدة يمكن تطبيقها أوتوفراسي6،7 جمع العبارات الممثل الأعلى وبناء قائمة الكيانات قبل تنفيذ بروتوكول لدينا. لا توفر لنا البروتوكول خطوة لتنفيذ أوتوفراسي.
مقارنة مع خوارزميات أخرى. ما فتئ يتطور مفهوم استخدام بيانات مكعب8،،من910 ونص مكعب2،3،4 منذ عام 2005 مع التطورات الجديدة لجعل استخراج البيانات أكثر قابلية للتطبيق. مفهوم المعالجة التحليلية عبر الإنترنت (OLAP)11،،من1213،14،15 في استخراج البيانات والمعلومات التجارية يعود إلى عام 1993. وبصفة عامة، OLAP، تجمع المعلومات من أنظمة متعددة، ويخزنها في تنسيق متعدد الأبعاد. وهناك أنواع مختلفة من نظم OLAP المنفذة في التنقيب عن البيانات. على سبيل المثال تجهيز المعاملات/التحليلي (1) الهجين (حطاب)16،17،18،OLAP المتعددة الأبعاد (MOLAP) (2)19-مكعب OLAP العلائقية (ROLAP) يستند إلى، و (3)20.
على وجه التحديد، خوارزمية كاسيولاب قد تم مقارنة مع خوارزميات القائمة العديدة، على وجه التحديد، مع هذه التحسينات تجزئة العبارة، بما في ذلك فريق العمل-جيش الدفاع الإسرائيلي + Seg و MCX + Seg MCX سيجفراسي. علاوة على ذلك، تم مقارنة مع ريبفراسي (RP، يعرف أيضا باسم سيجفراسي +) مع اختلافات الاجتثاث الخاصة به، بما في ذلك (1) البرنامج العادي دون سلامة التدبير أدرجت (RP لا INT) و (2) البرنامج العادي دون قياس شعبية تدرج (RP لا POP) روبية (3) دون إدراج مقياس التمايز (RP لا ديس). وترد نتائج قياس الأداء في الدراسة فانجبو تاو et al.1.
لا تزال هناك تحديات في استخراج البيانات التي يمكن إضافة وظائف إضافية أكثر من حفظ واسترجاع البيانات من قاعدة البيانات. سياق علم دلالية “تحليلية معالجة” (كاسيولاب) بشكل منهجي وتنفذ الاستيكسيرتش لبناء قاعدة بيانات فهرسة الملايين من الوثائق (بروتوكول 5). النص-المكعب بنية مستند بناء على البيانات المفهرسة مع الفئات المتوفرة من قبل المستخدم (بروتوكول 6). وهذا يعزز الأداء الوظيفي للوثائق داخل وعبر الخلية من المكعب بالنص وتسمح لنا بحساب تردد مصطلح الكيانات أكثر من وثيقة والوثيقة التردد على خلية محددة (بروتوكول 8). النتيجة النهائية كاسيولاب وتستخدم هذه الحسابات التردد لإخراج النتيجة نهائية (9 البروتوكول). في عام 2018، قمنا بتنفيذ هذه الخوارزمية لدراسة البروتينات إدارة المحتوى في المؤسسة وستة أمراض القلب لتحليل البروتين-المرض الجمعيات. يمكن الاطلاع على تفاصيل هذه الدراسة في الدراسة قبل لييم، دا et al.5. مشيراً إلى أن كاسيولاب يمكن أن تستخدم على نطاق واسع في أوساط الطب الحيوي استكشاف مجموعة متنوعة من الأمراض والآليات.
قيود الخوارزمية. التعدين العبارة نفسها أسلوب لإدارة واسترداد المفاهيم الهامة من البيانات النصية. حين اكتشاف جمعية كيان-الفئة ككمية رياضية (ناقلات)، هذا الأسلوب غير قادر على معرفة الأقطاب (مثلاً، الميل الإيجابي أو السلبي) للرابطة. يمكن للمرء بناء تلخيص كمية من البيانات استخدام هيكل الوثيقة Cude النص مع الكيانات المخصصة والفئات، ولكن لا يمكن التوصل إلى مفهوم نوعية مع جرانولاريتيس المجهري. بعض المفاهيم تتطور بشكل مستمر من الماضي حتى الآن. تلخيص المقدمة لارتباط فئة كيان محدد يشمل جميع حالات في جميع أنحاء الأدب. وهذا قد تفتقر إلى نشر الزمانية للابتكار. في المستقبل، ونخطط لمعالجة أوجه القصور هذه.
تطبيقات في المستقبل- حوالي 90% البيانات المتراكمة في العالم موجود في بيانات النص غير منظم. العثور على عبارة الممثل وفيما يتعلق بالكيانات جزءا لا يتجزأ من النص مهمة هامة جداً لتنفيذ التكنولوجيات الجديدة (مثلاً، “آلة التعلم”، استخراج المعلومات، الذكاء الاصطناعي). لجعل البيانات النصية آلة للقراءة، تحتاج البيانات التي سيتم تنظيمها في قاعدة البيانات التي يمكن تنفيذها في الطبقة التالية من الأدوات. في المستقبل، يمكن أن تكون هذه الخوارزمية خطوة حاسمة في جعل استخراج البيانات أكثر وظيفية لاسترجاع المعلومات والتحديد الكمي للجمعيات كيان-الفئة.
The authors have nothing to disclose.
هذا العمل كان يدعمها في الجزء الوطني للقلب والرئة والدم المعهد: HL135772 R35 (إلى ص Ping)؛ المعهد الوطني للعلوم الطبية العامة: GM114833 U54 (إلى Ping ص ك. واتسون وجورج وانغ)؛ U54 GM114838 (لهان J.)؛ هدية من هلن & مؤسسة هوغ لاري والدكتور س. سيتي؛ والهبة لوبيش T.C. في جامعة كاليفورنيا (إلى Ping ص).