Summary

التعدين عبارة المستندة إلى مجموعة النظراء وتحليل الرابطة الفئة العبارة المعرفة من قبل المستخدم في المنشورات الطبية الحيوية

Published: February 23, 2019
doi:

Summary

نقدم بروتوكول ورمز البرمجة المرتبطة بها، فضلا عن عينات البيانات الفوقية لدعم تعريف تلقائية المستندة إلى مجموعة النظراء لرابطة العبارات-فئة تمثل مفاهيم فريدة من نوعها في مجال المعارف المحدد المستخدم في الأدبيات الطبية الحيوية. يمكن أن تيسر الرابطة عبارة-الفئة كمياً بموجب هذا البروتوكول في عمق التحليل في مجال المعرفة المحددة.

Abstract

وقد تجاوزت التراكم السريع للبيانات النصية الطبية القدرة البشرية curation اليدوي والتحليل، مما استلزم رواية أدوات النص-التعدين لاستخراج الأفكار البيولوجية من كميات كبيرة من التقارير العلمية. خط الأنابيب سياق علم “الدلالات على الإنترنت تحليلية معالجة” (كاسيولاب)، وضعت في عام 2016، يوضحها بنجاح علاقات الفئة العبارة المعرفة من قبل المستخدم من خلال تحليل البيانات النصية. وقد كاسيولاب العديد من التطبيقات الطبية الحيوية.

وقد وضعنا بروتوكولا لبيئة المستندة إلى مجموعة النظراء الداعمة لنهاية إلى نهاية العبارة-التعدين ومنصة تحليلات. لدينا بروتوكول يتضمن بيانات تجهيزها (مثل تحميل واستخراج وتحليل الوثائق والنصوص)، والفهرسة والبحث مع الاستيكسيرتش، إنشاء هيكل وثيقة فنية ودعا النص إلى المكعب، والتحديد الكمي لعلاقات عبارة-الفئة باستخدام خوارزمية كاسيولاب الأساسية.

لدينا بيانات تجهيزها يولد تعيينات مفتاح القيمة لجميع الوثائق المعنية. معالجة البيانات المفهرسة للاضطلاع ببحث عن الوثائق بما في ذلك الكيانات، مما يسهل كذلك إنشاء المكعب النص وحساب نقاط كاسيولاب. يتم تفسير عشرات كاسيولاب الخام التي يتم الحصول عليها باستخدام سلسلة من التحليلات التكاملية، بما في ذلك الحد من أبعاد، والتكتل، الزمانية، والتحليلات الجغرافية. بالإضافة إلى ذلك، يتم استخدام عشرات كاسيولاب لإنشاء قاعدة بيانات رسومية، الذي يتيح لرسم الخرائط الدلالية للوثائق.

كاسيولاب يحدد علاقات الفئة العبارة في الدقيقة (يحدد العلاقات)، بما يتفق (استنساخه بدرجة عالية)، وكفاءة (عمليات 100,000 الكلمات/sec). وفي أعقاب هذا البروتوكول، يمكن للمستخدمين الوصول في بيئة الحوسبة السحابية لدعم تطبيقات من كاسيولاب والتكوينات الخاصة بهم. يوفر إمكانية الوصول المحسن هذا المنهاج ويخول للمجتمع الطبي الحيوي أدوات عبارة-التعدين لتطبيقات البحوث الطبية الحيوية على نطاق واسع.

Introduction

دليل التقييم الملايين من ملفات نصية لدراسة الرابطة عبارة-الفئة (على سبيل المثال العمرية لرابطة البروتين) لا تضاهي بالكفاءة المقدمة بطريقة حسابية مؤتمتة. أننا نريد لإدخال منهاج علم السياق “الدلالي على الإنترنت تحليلية تجهيز” (كاسيولاب) المستندة إلى مجموعة النظراء كأسلوب العبارة-التعدين للحساب الآلي من العبارة-الفئة الرابطة في سياق الطب الحيوي.

منصة كاسيولاب، الذي عرف أولاً في عام 20161، فعالة جداً مقارنة بالأساليب التقليدية لإدارة البيانات وحساب بسبب إدارتها الوثيقة الفنية ودعا النص إلى المكعب2،3، 4، التي توزع الوثائق مع الحفاظ على التسلسل الهرمي والأحياء الأساسية. قد طبقت في البحوث الطبية الحيوية5 دراسة جمعية كيان-الفئة. منصة كاسيولاب يتكون من ست خطوات رئيسية بما في ذلك تحميل واستخراج البيانات وتحليل، والفهرسة، إنشاء المكعب النص، عد الكيان، وحساب نقاط كاسيولاب؛ وهو المحور الرئيسي للبروتوكول (الشكل 1، الشكل 2، الجدول 1).

تنفيذ خوارزمية كاسيولاب، يضع المستخدم فئات الاهتمام (مثل المرض، وعلامات وأعراض، والفئات العمرية، والتشخيص) والكيانات ذات الأهمية (مثل البروتينات، والأدوية). مثال واحد من الفئة المدرجة في هذه المادة هو ‘الفئات العمرية’، الذي ‘الرضع’، ‘الطفل’، ‘المراهقات’، و ‘الكبار’ الفئات الفرعية كخلايا النص إلى المكعب وأسماء البروتين (المترادفات) والمختصرات ككيانات. عناوين المواضيع الطبية (مش) تنفذ إلى استرداد المنشورات المقابلة لفئات محددة (الجدول 2). واصفات مش تنتظم في بنية شجرة هرمية للسماح بالبحث عن المنشورات في مختلف مستويات خصوصية (عينة هو موضح في الشكل 3). ويستخدم النظام الأساسي كاسيولاب بيانات الفهرسة والبحث عن وظيفة curation للوثائق المرتبطة بكيان والتي زيادة تيسير المستند إلى تعيين كيان العد وحساب نقاط كاسيولاب.

تتوفر تفاصيل حساب نقاط كاسيولاب في المنشورات السابقة1،5. هذه النتيجة يتم حسابها باستخدام معايير محددة مرتبة استناداً إلى هيكل وثيقة النص إلى المكعب. والنتيجة النهائية هي نتاج النزاهةو شعبية، و التمايز. ويصف سلامة ما إذا كان كيان ممثل هو وحدة دلالية لا يتجزأ مجتمعة تشير إلى مفهوم ذات مغزى. يتم أخذ سلامة العبارة المعرفة من قبل المستخدم لأن 1.0 أنها تقف كعبارة قياسية في الأدب. يمثل التميز النسبي أهمية العبارة في مجموعة فرعية واحدة من الوثائق مقارنة ببقية الخلايا الأخرى. أول مرة يحسب أهمية كيان في خلية معينة عن طريق مقارنة حدوث اسم البروتين في مجموعة البيانات المستهدفة ويوفر درجة التميز تم تسويتها. يمثل شعبية يظهر حقيقة أن العبارة مع أعلى درجة شعبية أكثر تواترا في مجموعة فرعية واحدة من الوثائق. أسماء البروتين نادرة في خلية مرتبة منخفضة، في حين زيادة في تواتر ذكر عودة تناقص بسبب تنفيذ الدالة اللوغاريتمية للتردد. قياس الكمية هذه المفاهيم الثلاثة يعتمد على التردد (1) مصطلح الكيان على خلية وعبر (2) عدد من الوثائق بعد ذلك الكيان (تردد الوثيقة) داخل الخلية وعبر الخلايا والخلايا.

وقد درسنا سيناريوهين الممثل باستخدام إحدى وحدات dataset PubMed ولدينا الخوارزمية. ونحن مهتمون في البروتينات المتقدرية كيف ترتبط بفئتين فريدة من واصفات مش؛ “الفئات العمرية” و “أمراض التغذية والتمثيل الغذائي”. على وجه التحديد، يمكننا استرداد المنشورات 15,728,250 من منشورات 20 عاماً، جمعتها PubMed (من عام 1998 إلى عام 2018)، فيما بينها، خلاصات فريد 8,123,458 كامل مش واصفات. وبناء على ذلك، 1,842 البروتين المتقدرية البشرية أسماء (بما في ذلك المختصرات ومرادفات)، اكتسب من أونيبروت (uniprot.org) وكذلك من MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)، يتم بشكل منتظم درست. فدرست روابطها مع هذه المنشورات 8,899,019 والكيانات باستخدام لدينا البروتوكول؛ نحن بني نص-مكعب وتحسب كل منها عشرات كاسيولاب.

Protocol

ملاحظة: قمنا بتطوير هذا البروتوكول استناداً إلى لغة البرمجة بايثون. لتشغيل هذا البرنامج، يكون لديك “بيثون أناكوندا” وبوابة مثبتة مسبقاً على الجهاز. تعتمد الأوامر المنصوص عليها في هذا البروتوكول في بيئة Unix. يوفر هذا البروتوكول التفصيل لتحميل البيانات من قاعدة بيانات PubMed (MEDLINE)، وتحليل البيانات، وإعداد سحابة الحوسبة منصة للتعدين العبارة والتحديد الكمي لجمعية كيان-فئة المعرفة من قبل المستخدم. 1. الحصول على إعداد البيئة البرمجية وبايثون تحميل أو استنساخ رمز المستودع من Github (https://github.com/CaseOLAP/caseolap) أو بواسطة كتابة ‘بوابة استنساخ https://github.com/CaseOLAP/caseolap.git’ في إطار المحطة الطرفية. انتقل إلى الدليل ‘كاسيولاب’. وهذا هو الدليل الجذر للمشروع. داخل هذا الدليل، سوف يتم ملؤها دليل ‘البيانات’ مع مجموعات متعددة من البيانات كما تقدم لك من خلال هذه الخطوات في البروتوكول. الدليل ‘المدخلات’ للبيانات المقدمة من قبل المستخدم. وقد الدليل ‘سجل’ ملفات السجل من أجل استكشاف الأخطاء وإصلاحها. الدليل ‘النتيجة’ حيث سيتم تخزين النتائج النهائية. باستخدام إطار المحطة الطرفية، انتقل إلى الدليل حيث يمكنك استنساخ لدينا مستودع GitHub. خلق بيئة كاسيولاب باستخدام الملف ‘environment.yml’ بكتابة ‘env كندا إنشاء environment.yaml–و’ في محطة. قم بتنشيط البيئة بكتابة ‘مصدر تنشيط كاسيولاب’ في المحطة الطرفية. 2-تحميل الوثائق تأكد من أن عنوان FTP في ‘ftp_configuration.json’ في الدليل config هو نفس عنوان الارتباط الأساس السنوي أو ملفات التحديث اليومي، وجدت في الرابط (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) . لتحميل الأساس فقط أو تحديث الملفات فقط، تعيين ‘true’ في ملف ‘download_config.json’ الدليل ‘config’. بشكل افتراضي، التنزيلات، ومقتطفات من الأساس وتحديث الملفات. ويمكن مشاهدة عينة من استخراج بيانات XML في (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) اكتب ‘run_download.py بيثون’ في إطار المحطة الطرفية لتحميل ملخصات من قاعدة بيانات Pubmed. سيقوم هذا بإنشاء دليل يسمى ‘ftp.ncbi.nlm.nih.gov’ في الدليل الحالي. هذه العملية بالتحقق من سلامة البيانات التي تم تنزيلها ومقتطفات من إلى الدليل الهدف. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘download_log.txt’ في حال فشل عملية التحميل. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من عملية التحميل في ملف السجل هذا. عند اكتمال التحميل، والتنقل من خلال ‘ftp.ncbi.nlm.nih.gov’ للتأكد من أن هناك ‘أوبداتيفيليس’ أو ‘باسيفيليس’ أو تحميل كل الدلائل على أساس التكوين في ‘download_config.json’. إحصائيات الملف تصبح متاحة في ‘filestat.txt’ في دليل ‘البيانات’. 3-توزيع الوثائق تأكد من أن البيانات المستخرجة وتحميلها متوفرة في دليل ‘ftp.ncbi.nlm.nih.gov’ من الخطوة 2. هذا الدليل هو دليل إدخال البيانات في هذه الخطوة. لتعديل مخطط توزيع البيانات، حدد المعلمات في ملف ‘parsing_config.json’ الدليل ‘config’ بتعيين هذه القيمة إلى ‘true’. بشكل افتراضي، فإنه يوزع PMID، المؤلفين، مجردة، شبكة، موقع، ودفتر اليومية، وتاريخ النشر. اكتب ‘run_parsing.py بيثون’ في المحطة الطرفية لتحليل الوثائق من الملفات التي تم تنزيلها (أو المستخرج). هذه الخطوة بتوزيع تحميل كافة ملفات XML وإنشاء قاموس بيثون لكل مستند مع مفاتيح (على سبيل المثال.، مش PMID، المؤلفين، مجردة، من الملف استناداً إلى تحليل إعداد مخطط في الخطوة 3، 2). وبمجرد الانتهاء من تحليل البيانات، تأكد من أن يتم حفظ البيانات المحللة في دليل البيانات في ملف يسمى ‘pubmed.json’. عينة بيانات المحللة متاحة في الشكل 3- انتقل إلى الدليل ‘سجل’ لقراءة رسائل سجل في ‘parsing_log.txt’ في حال فشل عملية التحليل. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح في ملف السجل. 4. مش لرسم خرائط PMID تأكد من أن البيانات تم تحليلها (‘pubmed.json’) متوفرة في دليل ‘البيانات’. اكتب ‘run_mesh2pmid.py بيثون’ في المحطة الطرفية لتنفيذ شبكة لرسم خرائط PMID. يؤدي هذا إلى إنشاء جدول تعيين حيث يجمع كل من الشبكة بميدس المرتبطة بها. PMID واحد قد تندرج تحت شروط شبكة متعددة. وبمجرد الانتهاء من رسم الخرائط، تأكد من أن هناك ‘mesh2pmid.json’ في دليل البيانات. عينة من الإحصائيات أعلى 20 رسم الخرائط متاح في الجدول-2 واﻷرقام 4 و 5. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘mesh2pmid_mapping_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح للتعيين في ملف السجل هذا. 5-الوثيقة الفهرسة تحميل التطبيق الاستيكسيرتش من https://www.elastic.co. حاليا، يتوفر التحميل في (https://www.elastic.co/downloads/elasticsearch). لتحميل البرنامج في سحابة البعيد، اكتب ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ في المحطة الطرفية. تأكد من أن يتم استبدال ‘x.x.x’ في الأمر أعلاه حسب رقم الإصدار الصحيح. تأكد من أن الملف الذي تم تنزيله ‘الاستيكسيرتش-x.x.x.tar.gz’ تظهر في الدليل الجذر ثم قم باستخراج الملفات عن طريق كتابة ‘القطران الاستيكسيرتش إكسفزف-x.x.x.tar.gz’ في إطار المحطة الطرفية. فتح محطة جديدة، وانتقل إلى الدليل بن الاستيكسيرتش بكتابة ‘مؤتمر نزع السلاح الاستيكسيرتش/بن’ في المحطة الطرفية من الدليل الجذر. بدء تشغيل ملقم الاستيكسيرتش بكتابة ‘-/الاستيكسيرتش’ في إطار المحطة الطرفية. تأكد من أن يتم تشغيل الملقم دون رسائل إعلام بالخطأ. في حالة حدوث خطأ في بدء تشغيل ملقم الاستيكسيرتش، اتبع الإرشادات التي تظهر في (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html). تعديل المحتويات في ‘index_init_config.json’ في ‘تكوين’ دليل لتعيين بدء مؤشر. بشكل افتراضي، فإنه سيتم تحديد كافة العناصر الحالية. اكتب ‘run_index_init.py بيثون’ في المحطة الطرفية للشروع في فهرس قاعدة بيانات على الملقم الاستيكسيرتش. وهذا تهيئة الفهرس مع مجموعة من المعايير المعروفة باسم فهرس المعلومات (مثلاً، اسم فهرس، اكتب اسماً، عدد القطع، عدد من النسخ المتماثلة). سوف تشاهد رسالة الذكر بنجاح إنشاء الفهرس. حدد العناصر الموجودة في ‘index_populate_config.json’ في الدليل ‘config’ بتعيين هذه القيمة إلى ‘true’. بشكل افتراضي، فإنه سيتم تحديد كافة العناصر الحالية. تأكد من أن البيانات المحللة (‘pubmed.json’) غير موجودة في دليل ‘البيانات’. اكتب ‘run_index_populate.py بيثون’ في محطة لتعبئة الفهرس عن طريق إنشاء البيانات المجمعة مع هذين العنصرين. أول مكون قاموس مع معلومات بيانات التعريف على اسم الفهرس، اكتب اسماً، و معرف الجزء الأكبر (مثل ‘بميد’). ألف والعنصر الثاني قاموس بيانات التي تحتوي على كافة المعلومات المتعلقة بالعلامات (مثل ‘العنوان’، ‘خلاصة’، ‘شبكة’). انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘indexing_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح للفهرسة في ملف السجل. 6-نص مكعب إنشاء تحميل “شجرة مش” آخر متاح في (https://www.nlm.nih.gov/mesh/filelist.html). يتم استخدام الإصدار الحالي من التعليمات البرمجية مش 2018 شجرة ك ‘meshtree2018.bin’ في الدليل الإدخال. تحديد فئات الاهتمام (مثلاً المرض أسماء، والفئات العمرية، والجنس). وقد تشمل فئة واصفات مش واحد أو أكثر (https://meshb-prev.nlm.nih.gov/treeView). جمع “معرفات مش” لفئة. حفظ أسماء الفئات في ملف ‘textcube_config.json’ في دليل التكوين (انظر عينة من هذه الفئة في ‘العمرية’ في الإصدار الذي تم تحميله من الملف ‘textcube_config.json’). وضع الفئات التي تم جمعها من “معرفات مش” خط مفصولة بمسافة. حفظ ملف الفئة ك ‘categories.txt’ في الدليل ‘المدخلات’ (انظر عينة من “معرفات شبكة” ‘العمرية’ في الإصدار الذي تم تحميله من الملف ‘categories.txt’). هذه الخوارزمية تلقائياً بتحديد كافة واصفات مش المتحدرة منه. يتم عرض مثال العقد الجذرية وأحفاد في الشكل 4- تأكد من أن ‘mesh2pmid.json’ في دليل ‘البيانات’. إذا تم تحديث “الشجرة مش” باسم مختلف (مثل ‘meashtree2019.bin’) في الدليل ‘المدخلات’، تأكد من أن هذا يمثل بشكل صحيح في مسار بيانات الإدخال في الملف ‘run_textube.py’. اكتب ‘run_textcube.py بيثون’ في المحطة الطرفية لإنشاء بنية بيانات وثيقة ودعا النص إلى المكعب. يؤدي هذا إلى إنشاء مجموعة من الوثائق (بميدس) لكل فئة. وثيقة واحدة (PMID) قد تندرج في فئات متعددة، (انظر الجدول 3 ألف، الجدول 3، الشكل 6A و الشكل 7A). وبمجرد الانتهاء من الخطوة إنشاء المكعب النص، تأكد من أن يتم حفظ ملفات البيانات التالية في دليل ‘البيانات’: (1) الخلية للجدول PMID ك “textcube_cell2pmid.json”، (2) PMID إلى جدول تعيين الخلية ك “textcube_pmid2cell.json”، (3) مجموعة من الشروط مش كل سليل لخلية كنص إلى المكعب “meshterms_per_cat.json” (4) البيانات والإحصاءات ك “textcube_stat.txt”. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘textcube_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح لإنشاء المكعب النص في ملف السجل. 7-العدد الكيان إنشاء الكيانات المعرفة من قبل المستخدم (على سبيل المثال، أسماء البروتينات، الجينات، المواد الكيميائية). وضع كيان واحد وأن الاختصارات في خط واحد مفصولة “|”. احفظ الملف كيان ك ‘entities.txt’ الدليل ‘المدخلات’. ويمكن الاطلاع على عينة كيانات في الجدول 4- تأكد من تشغيل الملقم الاستيكسيرتش. خلاف ذلك، انتقل إلى الخطوة 5، 2 و 5-3 إعادة تشغيل الملقم الاستيكسيرتش. من المتوقع أن يكون لديك قاعدة بيانات مفهرسة يسمى ‘pubmed’ في الخادم الخاص بك الاستيكسيرتش الذي تم إنشاؤه في الخطوة 5. تأكد من أن ‘textcube_pmid2cell.json’ في دليل ‘البيانات’. اكتب ‘run_entitycount.py بيثون’ في المحطة الطرفية لإجراء عملية العد الكيان. هذا البحث في الوثائق من قاعدة البيانات المفهرسة وحساب الكيان في كل وثيقة، فضلا عن تجمع بميدس الذي عثر على الكيانات. وبمجرد الانتهاء من عد الكيان، تأكد من أن يتم حفظ النتائج النهائية ك ‘entitycount.txt’ و ‘انتيتيفوند_pmid2cell.json’ الدليل ‘البيانات’. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘entitycount_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من العد الكيان في ملف السجل. 8. تحديث بيانات التعريف تأكد من أن يتم إدخال جميع البيانات (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) في الدليل ‘البيانات’. هذه هي إدخال البيانات لتحديث بيانات التعريف. اكتب ‘run_metadata_update.py بيثون’ في المحطة الطرفية لتحديث بيانات التعريف. وهذا يعد مجموعة من البيانات الوصفية (مثلاً، اسم الخلية، مش المرتبطة بها، بميدس) تمثل كل وثيقة النص في الخلية. عينة من بيانات تعريف المكعب نص يرد في الجدول 3 أ و الجدول 3. وبمجرد الانتهاء من تحديث بيانات التعريف، تأكد من أن يتم حفظ ملفات ‘metadata_pmid2pcount.json’ و ‘metadata_cell2pmid.json’ الدليل ‘البيانات’. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘metadata_update_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح لتحديث بيانات التعريف في ملف السجل. 9-حساب نقاط كاسيولاب تأكد من أن ملفات ‘metadata_pmid2pcount.json’ و ‘metadata_cell2pmid.json’ موجودة في دليل ‘البيانات’. هذه هي إدخال البيانات لحساب النتيجة. اكتب ‘run_caseolap_score.py بيثون’ في المحطة الطرفية لإجراء حساب نقاط كاسيولاب. وهذا يحسب نقاط كاسيولاب من الكيانات على أساس فئات المعرفة من قبل المستخدم. نقاط كاسيولاب هو نتاج النزاهةو شعبية، و التمايز. وبمجرد الانتهاء من حساب نقاط، تأكد من أن هذا يوفر النتائج في ملفات متعددة (مثل، شعبية كتميزها كنقاط كاسيولاب ك ‘caseolap.csv’ ‘dist.csv’ ‘pop.csv’)، في الدليل ‘نتيجة’. ويرد موجز لحساب نقاط كاسيولاب أيضا في الجدول 5. انتقل إلى الدليل ‘سجل’ لقراءة الرسائل الموجودة في سجل في ‘caseolap_score_log.txt’ في حال فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح لحساب نقاط كاسيولاب في ملف السجل.

Representative Results

لإنتاج نتائج العينة، قمنا بتنفيذ خوارزمية كاسيولاب في الموضوع هما العناوين/واصفات: “الفئات العمرية” و “التغذية والايض الأمراض” كحالات الاستخدام. الفئات العمرية. نحن نخبة من جميع الفئات الفرعية 4 من “الفئات العمرية” (الرضع والأطفال والمراهقين والكبار) كخلايا في نص-مكعب. وترد في الجدول 3Aإحصاءات وبيانات التعريف التي تم الحصول عليها. يتم عرض مقارنة عدد من الوثائق بين الخلايا النص إلى المكعب في الشكل 6A. الكبار يحتوي على الوثائق 172,394 وهو أعلى رقم عبر كافة الخلايا. الفئات الفرعية الكبار والمراهقين بأعلى عدد من المستندات المشتركة (26,858 الوثائق). جدير بالذكر أن هذه الوثائق تضمنت الكيان لمصلحتنا فقط (أي البروتينات mitochondrial). ويمثل رسم تخطيطي متداخل في الشكل 6B عدد الكيانات (أي البروتينات mitochondrial) الموجودة داخل كل خلية، وداخل عدة أوجه التداخل فيما بين الخلايا. عدد البروتينات المشتركة في إطار جميع الفئات العمرية هو 162. ويصور الفئة الكبار أعلى عدد من البروتينات فريدة من نوعها (151) متبوعاً بالطفل (16) والرضع (8) والمراهقين (1). قمنا بحساب الرابطة مجموعة البروتين-العمر كنقاط كاسيولاب. أعلى 10 البروتينات (استناداً إلى درجة كاسيولاب متوسط) المرتبطة بالفئات الفرعية للرضع والأطفال، والمراهقين والبالغين هي ستيرول 26-hydroxylase، سلسلة ب ألفا كريستالين، ألفا D-1 25 hydroxyvitamin-hydroxylase، سيروترانسفيرين، synthase سيترات، لام-سيريل-الحمض الريبي النووي النقال، أتباسي الصوديوم/البوتاسيوم-نقل وحدة فرعية ألفا-3 الجلوتاثيون S-ترانسفيراز أوميغا-1، أوكسيدوريدوكتاز نادف: أدرينودوكسين والببتيد Mitochondrial الميثيونين سلفوكسيد ريدكتيز (كما هو موضح في الشكل 6). يعرض الفئة البالغين 10 heatmap الخلايا بكثافة أعلى بالمقارنة بالخلايا heatmap من المراهقين والأطفال والرضع فئة فرعية، مشيراً إلى أن المعرض البروتينات المتقدرية أعلى 10 روابط أقوى للفئة الكبار. وقد البروتين المتقدرية ستيرول 26-hydroxylase رابطات عالية في جميع الفئات الفرعية العمر الذي يتضح من الخلايا heatmap مع كثافة أعلى مقارنة بالخلايا heatmap من البروتينات المتقدرية 9 أخرى. ويبين توزيع الفرق المطلق في النتيجة بين الفريقين الإحصائية التالية نطاق الموزون مع فاصل ثقة 99%: (1) يعني الفرق بين ‘أدلت’ و ‘إينفت’ تقع في النطاق (0.029 0.042)، (2) يعني الفرق بين ‘أدلت’ و ‘CHLD’ تقع في النطاق (0.021 0.030)، (3) يعني الفرق بين ‘أدلت’ و ‘ادول’ يكمن في النطاق (0.020 0.029)، (4) يعني الفرق بين الأكاذيب ‘ادول’ و ‘إينفت’ في النطاق (0.015 إلى 0.022)، (5) يعني الفرق بين ‘ادول’ و ‘CHLD’ تقع في النطاق (0.007 إلى 0.010)، (6) يعني الفرق بين الأكاذيب ‘CHLD’ و ‘إينفت’ في النطاق (0.011 إلى 0.016). أمراض التغذية والتمثيل الغذائي. نحن نخبة من الفئات الفرعية 2 “التغذية والايض الأمراض” (أي الأمراض الأيضية واضطرابات التغذية) إنشاء خلايا 2 في نص-مكعب. وترد في الجدول 3إحصاءات وبيانات التعريف التي تم الحصول عليها. يتم عرض مقارنة عدد من الوثائق بين الخلايا النص إلى المكعب في الشكل 7 ألف. الأمراض الأيضية فرعية تتضمن الوثائق 54,762 متبوعاً بالوثائق 19,181 في الاضطرابات الغذائية. الفئات الفرعية للأمراض الأيضية واضطرابات التغذية قد 7,101 المستندات المشتركة. جدير بالذكر أن هذه الوثائق تضمنت الكيان لمصلحتنا فقط (أي البروتينات mitochondrial). ويمثل رسم تخطيطي متداخل في الشكل 7B عدد الكيانات الموجودة داخل كل خلية، وداخل عدة أوجه التداخل بين الخلايا. قمنا بحساب البروتين-“الغذائية والأمراض الأيضية” الرابطة كنقاط كاسيولاب. هي البروتينات أعلى 10 (استناداً إلى درجة كاسيولاب متوسط) المرتبطة بهذه الحالة باستخدام ستيرول 26-hydroxylase، ب ألفا كريستالين سلسلة، L-سيريل-الحمض الريبي النووي النقال، وسترات synthase، الحمض الريبي النووي النقال بسيودوريديني synthase أ، ألفا D-1 25 hydroxyvitamin-hydroxylase، الجلوتاثيون S-ترانسفيراز أوميغا-1، نادف: أوكسيدوريدوكتاز أدرينودوكسين، الببتيد Mitochondrial الميثيونين سلفوكسيد ريدكتيز، مثبط منشط البلاسمينوجين 1 (كما هو موضح في الشكل 7). أكثر من النصف (54%) جميع البروتينات هي مشتركة بين فئات فرعية من الأمراض الأيضية والاضطرابات الغذائية (البروتينات 397). من المثير للاهتمام، ما يقرب من نصف (43%) البروتينات المرتبطة بها جميعا في الفئة الفرعية الأمراض الأيضية فريدة من نوعها (بروتينات 300)، بينما يحمل الاضطرابات الغذائية فقط بعض البروتينات فريدة من نوعها (35). يعرض سلسلة ألفا كريستالين ب رابطة أقوى للأمراض الأيضية فئة فرعية. يعرض المتقدرية 26 ستيرول-hydroxylase، رابطة أقوى في الفئة الاضطرابات الغذائية، مشيراً إلى أن هذا البروتين المتقدرية ارتباطاً وثيقا في دراسات تصف الاضطرابات الغذائية. ويبين توزيع الفرق المطلق في النتيجة بين الفريقين ‘أوبك’ و ‘NTD’ الإحصائية النطاق (0.046 إلى 0.061) للفرق يعني كفاصل ثقة 99%. رقم 1. عرض ديناميكي لسير العمل كاسيولاب. ويمثل هذا الرقم 5 خطوات رئيسية في سير العمل كاسيولاب. في الخطوة 1، يبدأ سير العمل عن طريق تحميل واستخراج الوثائق النصية (على سبيل المثال، من مجلات). في الخطوة 2، يتم تحليل البيانات المستخرجة إنشاء قاموس بيانات لكل وثيقة، فضلا عن شبكة لرسم خرائط PMID. في الخطوة 3، تتم فهرسة البيانات تسهيل البحث عن كيان بسرعة وكفاءة. في الخطوة 4، يجري تنفيذ معلومات الفئة المتوفرة من قبل المستخدم (على سبيل المثال.، الجذر مش لكل خلية) لبناء نص-مكعب. في الخطوة 5، يتم تنفيذ عملية العد الكيان على بيانات مؤشر لحساب عشرات كاسيولاب. وتتكرر هذه الخطوات بطريقة تكرارية لتحديث النظام بأحدث المعلومات المتاحة في قاعدة بيانات عامة (مثلاً: PubMed). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- رقم 2. الهندسة التقنية لسير العمل كاسيولاب. ويمثل هذا الرقم التفاصيل التقنية لسير العمل كاسيولاب. يتم الحصول على البيانات من مستودع PubMed من ملقم PubMed FTP. المستخدم يتصل بملقم سحابة (مثلاً، اتصال أوس) عبر أجهزتهم ويقوم بإنشاء خط “أنابيب تحميل” التنزيلات واستخراج البيانات إلى مستودع محلية في مجموعة النظراء. هيكلة البيانات المستخرجة والتحقق من وتعرض بشكل سليم مع خط “أنابيب تحليل البيانات”. في نفس الوقت، يتم إنشاء شبكة لجدول تعيين PMID أثناء الخطوة التحليل، الذي يستخدم في بناء النص إلى المكعب. يتم تخزين البيانات المحللة JSON مثل تنسيق قيمة مفتاح القاموس مع البيانات الأولية للوثيقة (مثلاً PMID، شبكة، سنة النشر). ويحسن الفهرسة خطوة أخرى البيانات قبل تنفيذ الاستيكسيرتش للتعامل مع البيانات المجمعة. بعد ذلك، يتم إنشاء النص-المكعب مع فئات المعرفة من قبل المستخدم بتنفيذ شبكة لرسم خرائط PMID. عند الانتهاء من تشكيل النص إلى المكعب وخطوات الفهرسة، هو إجراء تعداد لكيان. وتنفذ الكيان عد البيانات الفوقية نص إلى المكعب. وأخيراً، نقاط كاسيولاب يحسب على أساس هيكل مكعب النص الأساسي. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- الشكل 3. عينة وثيقة تم تحليلها. يعرض عينة بيانات المحللة في هذا الشكل. يتم ترتيب البيانات المحللة كزوج قيمة المفتاح ومتوافق مع الفهرسة ووثيقة إنشاء بيانات التعريف. في هذا الشكل، PMID (على سبيل المثال، “25896987”) بمثابة مفتاح وجمع المعلومات المرتبطة بها (مثل العنوان، ودفتر اليومية، نشر التاريخ، مجردة والمواد، وإدارة وشبكة الموقع) كقيمة. التطبيق الأولى لمثل هذه البيانات الأولية للوثيقة هو بناء شبكة ل PMID رسم الخرائط (الشكل 5 و الجدول 2)، الذي يجري تنفيذه في وقت لاحق لإنشاء المكعب-النص وحساب نقاط كاسيولاب مع الكيانات توفيرها بواسطة المستخدم و فئات. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- الشكل 4. عينة شجرة مش. ‘العمر المجموعات مش شجرة مقتبس من شجرة هيكل البيانات المتاحة في قاعدة بيانات المعهد الوطني للصحة (مش شجرة 2018، ). واصفات مش تنفذ مع انتهاء عقده معرفات (مثلاً، الأشخاص [M01]، الفئات العمرية [M01.060]، المراهقين [M01.060.057], بالغ [M01.060.116]، والطفل [M01.060.406]، الرضع [M01.060.703]) جمع الوثائق ذات الصلة إلى واصف مش محددة ( الجدول 3A). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- الرقم 5. شبكة لرسم خرائط PMID في الفئات العمرية. هذا الرقم يمثل عدد المستندات النصية (بعضها مرتبط مع PMID) التي جمعت تحت واصفات مش في “الفئات العمرية” أنها مؤامرة فقاعة. يتم إنشاء الشبكة لرسم خرائط PMID لتوفير العدد الدقيق للوثائق التي تم جمعها ضمن واصفات مش. عدد إجمالي للوثائق فريدة من نوعها 3,062,143 جمعت تحت 18 واصفات مش المتحدرة منه (انظر الجدول 2). ارتفاع عدد بميدس المحدد ضمن واصف مش محددة، أكبر نصف قطر الفقاعة يمثل واصف مش. على سبيل المثال، جمعت أكبر عدد من الوثائق تحت واصف عيون “الكبار” (وثائق 1,786,371)، بينما أقل عدد من الوثائق والنصوص جمعت تحت واصف مش “الرضيع، بوستماتوري” (وثائق 62).يرد مثال إضافي مش PMID إلى تعيين “التغذية والتمثيل الغذائي أمراض” (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). عدد إجمالي للوثائق فريدة من نوعها 422,039 جمعت تحت واصفات مش سليلا 361 في “أمراض التغذية والتمثيل الغذائي”. جمعت أكبر عدد من الوثائق تحت واصف مش “السمنة” (77,881 الوثائق) تليها “السكري، اكتب 2” (61,901 الوثائق)، بينما “مرض تخزين الجليكوجين، اكتب الثامن” عرضت أقل عدد من الوثائق (الوثيقة 1 ). جدول ذات صلة متاحة أيضا على الإنترنت في (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- الشكل 6. “الفئات العمرية” كحالة استخدام. هذا الرقم ويعرض النتائج من حالة استخدام منهاج كاسيولاب. وفي هذه الحالة، تنفذ البروتين الأسماء والمختصرات بهم (انظر النموذج في الجدول 4) ككيانات و “الفئات العمرية” بما في ذلك الخلايا: الرضع (إينفت) والطفل (CHLD) والمراهقين (ادول) والكبار (أدلت)، يتم تطبيقها كفئات فرعية (انظر الجدول 3 أ). (A) عدد من الوثائق في “الفئات العمرية”: تظهر هذه الخريطة الحرارة عدد الوثائق الموزعة عبر الخلايا “الذين تتراوح أعمارهم بين الجماعات” (للحصول على مزيد من التفاصيل انظر إنشاء المكعب نص البروتوكول 4 و الجدول 3 أ). هو عرض عدد أكبر من الوثائق بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). وقد تضمنت وثيقة واحدة في خلية واحدة أو أكثر. Heatmap يعرض عدد الوثائق داخل خلية على طول موقف قطري (مثلاً، أدلت يحتوي على الوثائق 172,394 وهو أعلى رقم عبر كافة الخلايا). ويمثل موقف نوندياجونال عدد الوثائق التي تقع تحت خليتين (مثلاً، أدلت وادول أن المستندات المشتركة 26,858). (ب) . عد الكيان في “الفئات العمرية”: رسم تخطيطي متداخل يمثل عدد البروتينات الموجودة في الخلايا الأربعة الذين يمثلون “الفئات العمرية” (إينفت، CHLD، ادول، وأدلت). عدد البروتينات المشتركة في إطار كافة الخلايا من 162. ويصور العمرية أدلت أكبر عدد من البروتينات فريدة من نوعها (151) تليها CHLD (16)، إينفت (8) وادول (1). (ج) كاسيولاب نقاط العرض في “الفئات العمرية”: يتم عرض البروتينات 10 الأعلى مع كاسيولاب متوسط أعلى الدرجات في كل مجموعة في خريطة حرارة. يقدم أعلى درجة كاسيولاب بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). يتم عرض أسماء البروتين في العمود الأيسر، ويتم عرض الخلايا (إينفت، CHLD، ادول، أدلت) على طول المحور س. وتظهر بعض البروتينات رابطة قوية لفئة عمرية محددة (مثلاً، ستيرول 26-hydroxylase وسلسلة ألفا كريستالين ب ولسيريل-الحمض الريبي النووي النقال لها روابط قوية مع أدلت، بينما ATPase الصوديوم/البوتاسيوم-نقل وحدة فرعية ألفا-3 له ارتباط قوي مع إينفت). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- رقم 7. “الغذائية والأمراض الأيضية” كحالة استخدام: هذا الرقم ويعرض النتائج من آخر حالة استخدام منهاج كاسيولاب. وفي هذه الحالة، تنفذ البروتين الأسماء والمختصرات بهم (انظر النموذج في الجدول 4) ككيانات و “التغذية وأمراض التمثيل الغذائي” بما في ذلك الخلايا اثنين: تنفذ كالأمراض الأيضية (مليون برميل يوميا) والاضطرابات الغذائية (NTD) فئات فرعية (انظر الجدول 3 (ب)). (أ)- عدد من الوثائق في “أمراض التغذية والتمثيل الغذائي”: هذا heatmap يصف العدد الوثائق والنصوص في خلايا “أمراض التغذية والتمثيل الغذائي” (للاطلاع على تفاصيل بشأن إنشاء المكعب النص انظر البروتوكول 4 والجدول 3 ). هو عرض عدد أكبر من الوثائق بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). وقد تضمنت وثيقة واحدة في خلية واحدة أو أكثر. Heatmap ويعرض العدد الإجمالي للوثائق داخل خلية على طول موقف قطري (مثلاً، مليون برميل يوميا يحتوي على الوثائق 54,762 وهو أعلى رقم عبر الخلايا اثنين). ويمثل موقف نوندياجونال عدد مستندات مشتركة من قبل الخلايا اثنين (مثلاً، مليون برميل يوميا والأمراض الاستوائية المهملة قد 7,101 المستندات المشتركة). (ب)- العد الكيان في “أمراض التغذية والتمثيل الغذائي”: رسم تخطيطي متداخل يمثل عدد البروتينات الموجودة في الخليتين تمثل “التغذية والايض الأمراض” (مليون برميل يوميا والأمراض الاستوائية المهملة). عدد البروتينات داخل الخلايا اثنين هو 397. يصور الخلية مليون برميل يوميا 300 البروتينات فريدة من نوعها، والخلية NTD يصور 35 البروتينات فريدة من نوعها. (ج)- كاسيولاب نقاط العرض في “أمراض التغذية والتمثيل الغذائي”: البروتينات أعلى 10 مع كاسيولاب متوسط أعلى الدرجات في “أمراض التغذية والتمثيل الغذائي” ترد في خريطة حرارة. يقدم أعلى درجة كاسيولاب بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). يتم عرض أسماء البروتين في العمود الأيسر، ويتم عرض الخلايا (مليون برميل يوميا والأمراض الاستوائية المهملة) على طول المحور س. إظهار بعض البروتينات رابطة قوية لفئة محددة من أمراض (مثل سلسلة ب ألفا كريستالين له ارتباط عال بالأمراض الأيضية وستيرول 26-hydroxylase له ارتباط عال مع الاضطرابات الغذائية). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم- الوقت المنقضي (بالنسبة المئوية من إجمالي الوقت) الخطوات في منهاج كاسيولاب الخوارزمية وبنية البيانات من النظام الأساسي كاسيولاب تعقيد الخوارزمية وهيكل البيانات تفاصيل الخطوات 40% تحميل وتحليل التكرار وشجرة تحليل الخوارزميات التكرار مع حلقة متداخلة والضرب المستمر: O(n^2)، س (سجل n). حيث ‘n’ هو ليس للتكرار. تنزيل خط الأنابيب تتكرر كل إجراء على ملفات متعددة. التحليل في وثيقة واحدة تدير كل إجراء أكثر من هيكل شجرة XML البيانات الخام. 30% الفهرسة والبحث وإنشاء المكعب النص التكرار، خوارزميات البحث عن طريق الاستيكسيرتش (الفرز، مؤشر لوسين، أولوية قوائم الانتظار، وآلات الدولة المحدودة، بت twiddling الخارقة، استعلامات regex) التعقيد تتصل الاستيكسيرتش (https://www.elastic.co/) يتم فهرسة المستندات بتنفيذ عملية التكرار على قاموس البيانات. وتنفذ إنشاء مكعب نص بيانات التعريف المستند ومعلومات الفئة المتوفرة من قبل المستخدم. 30% الكيان العد والحساب كاسيولاب التكرار في النزاهة، شعبية، تميز الحساب O(1)، O(n^2)، تعقيدات متعددة تتصل كاسيولاب حساب نقاط استناداً إلى أنواع التكرار. يسرد الوثائق عملية العد الكيان وجعل عملية عد أكثر من القائمة. بيانات العد كيان يستخدم لحساب نقاط كاسيولاب. الجدول 1. الخوارزميات والتعقيدات. هذا الجدول ويعرض معلومات عن الوقت الذي تستغرقه (النسبة المئوية من إجمالي الوقت المستغرق) في الإجراءات (مثلاً، تحميل، توزيع)، بنية البيانات والتفاصيل حول خوارزميات المنفذة في منهاج كاسيولاب. كاسيولاب تطبق الفهرسة المهنية وبحث تطبيق يسمى الاستيكسيرتش. يمكن الاطلاع على معلومات إضافية عن التعقيدات المتصلة الاستيكسيرتش والداخلية الخوارزميات في (https://www.elastic.co). مش واصفات تجمع عدد من بميدس الكبار 1,786,371 الأوسط الذين تتراوح أعمارهم بين 1,661,882 الذين تتراوح أعمارهم بين 1,198,778 المراهقين 706,429 الشباب البالغين 486,259 الطفل 480,218 الذين تتراوح أعمارهم بين، 80 وأكثر 453,348 الطفل، والتعليم ما قبل المدرسي 285,183 الرضع 218,242 الرضع وحديثي الولادة 160,702 الرضع، من السابق لأوانه 17,701 وزن المواليد الرضع، وانخفاض 5,707 المسنين الضعفاء 4,811 وزن المواليد الرضع، منخفضة جداً 4,458 الرضع، والصغيرة للعمر الحملي 3,168 الرضع، من السابق لأوانه جداً 1,171 وزن المواليد الرضع، منخفضة للغاية 1,003 الرضع، بوستماتوري 62 الجدول 2. مش إلى PMID الخرائط الإحصائية. يقدم هذا الجدول كافة واصفات مش سليل من “الفئات العمرية”، والعدد من بميدس التي تم جمعها (الوثائق والنصوص). ويرد في الشكل 5التصور من هذه الإحصاءات. A الرضع (إينفت) الطفل (CHLD) المراهق (ادول) الكبار (أدلت) مش معرف الجذر M01.060.703 M01.060.406 M01.060.057 M01.060.116 عدد سليل مش واصفات 9 2 1 6 عدد من بميدس المحدد 16,466 26,907 35,158 172,394 عدد الكيانات التي وجدت 233 297 257 443 ب الأمراض الأيضية (مليون برميل يوميا) الاضطرابات الغذائية (NTD) مش معرف الجذر C18.452 C18.654 عدد مش سليلواصفات 308 53 تجمع عدد من بميدس 54,762 19,181 عدد الكيانات التي وجدت 697 432 الجدول 3. بيانات تعريف المكعب النص. هو عرض طريقة عرض جدولية من بيانات تعريف المكعب النص. توفير معلومات حول الفئات الجداول ومش جذور واصف وذرياتهم، التي تنفذ لجمع الوثائق في كل خلية. ويقدم الجدول أيضا أن الإحصاءات والوثائق التي تم جمعها والكيانات. (A) “الفئات العمرية”: هذا عرض جدولي “الفئات العمرية” بما في ذلك الرضع (إينفت) والطفل (CHLD) والمراهقين (ادول) والكبار (أدلت)، ووجدت الجذرية مش معرفات، عدد سليل واصفات مش، وعدد من بميدس المحدد وعدد من الكيانات. (ب) “التغذية والأمراض الأيضية”: هذا عرض جدولي “التغذية والتمثيل الغذائي الأمراض” بما في ذلك الأمراض الأيضية (مليون برميل يوميا) والاضطرابات الغذائية (NTD) مع شبكة الجذرية معرفات، عدد واصفي مش سليل، عدد من بميدس مختارة وعدد الكيانات تم العثور عليها. البروتين الأسماء والمرادفات الاختصارات ن-أسيتيلجلوتاماتي synthase، الميتوكوندريا، الأحماض الأمينية أسيتيلترانسفيراسي، N-أسيتيلجلوتاماتي synthase النموذج الطويل؛ ن-أسيتيلجلوتاماتي synthase النموذج القصير؛ ن-أسيتيلجلوتاماتي synthase يحافظ النموذج المجال] (EC 2.3.1.1) النووية/البروتين حمض ديجليكاسي دي جي–1 (ميلارد ديجليكاسي) (DJ1 السرطاني) (بروتين مرض باركنسون 7) (باركينسون المرتبطة ديجليكاسي) (بروتين دي جي-1) (المفوضية الأوروبية 3.1.2.-) (المفوضية الأوروبية 3.5.1.-) (المفوضية الأوروبية 3.5.1.124) (دي جي-1) بيروفات carboxylase، الميتوكوندريا (بيروفك carboxylase) (المفوضية الأوروبية 6.4.1.1) (PCB) Bcl-2-ربط العنصر 3 (p53 حتى ينظم المغير للمبرمج) (جفي-1) التفاعل BH3 مؤثر وفاة الملك [التفاعل BH3 المجال الموت مؤثر p15 (محاولة p15)؛ التفاعل BH3 المجال الموت مؤثر p13؛ التفاعل BH3 المجال الموت مؤثر p11] (محاولة p22) (السعر) (محاولة p13) (محاولة p11) ATP synthase الوحيدات ألفا، الميتوكوندريا (ATP synthase F1 الوحيدات ألفا) السيتوكروم P450 11B2, الميتوكوندريا (الدوستيرون synthase) (الدوستيرون-توليف إنزيم) (CYPXIB2) (الفسفرة ف-450Aldo) (السيتوكروم P-450_C_18) (ستيرويد 18-hydroxylase) (الدوس) (المفوضية الأوروبية 1.14.15.4) (المفوضية الأوروبية 1.14.15.5) 60 كاتشين الحرارة صدمة البروتين، الميتوكوندريا (chaperonin كاتشين 60) (60 تشابيرونين) (CPN60) (الحرارة بروتين الصدمة 60) (Mitochondrial مصفوفة البروتين P1) (بروتين P60 اللمفاويات) (HSP-60) (Hsp60) (HuCHA60) (المفوضية الأوروبية 3.6.4.9) كاسباسي-4 (homolog الجليد والتبخر-3 2) (مبطلات تكساس) [المشقوق إلى: Caspase-4 وحدة فرعية 1؛ Caspase-4 وحدة فرعية 2] (الصعيد الأهلي-4) (المفوضية الأوروبية 3.4.22.57) (معنوي-2) (ICE(rel)-II) (Mih1) الجدول 4. نموذج الجدول الكيان. يعرض هذا الجدول عينة الكيانات التي تنفذ في حالات استخدام اثنين لدينا: “الفئات العمرية” و “أمراض التغذية والتمثيل الغذائي” (الشكل 6 و 7 الشكل، الجدول 3 أ،ب). وتشمل الكيانات البروتين الأسماء والمرادفات والمختصرات. كل كيان (مع المرادفات والمختصرات) واحدة المحدد ويتم تمريرها من خلال عملية البحث عن الكيان عبر البيانات المفهرسة (انظر البروتوكول 3 و 5). وتنتج عملية البحث قائمة بالوثائق التي تزيد من تيسير عملية العد الكيان. كميات المعرفة من قبل المستخدم حساب معادلة للكمية معنى الكمية سلامة نعم لا سلامة المستخدم تعريف الكيانات تعتبر 1.0. وتمثل عبارة ذات معنى. القيمة العددية هي 1.0 عندما يكون الفعل عبارة ثابتة. شعبية لا نعم المعادلة شعبية في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم ‘المواد والأساليب’. استناداً إلى تكرار المصطلح عبارة ضمن خلية. وطبعت بتواتر المدة الإجمالية للخلية. زيادة في تواتر مصطلح قد تناقص نتيجة. التميز لا نعم معادلة التميز في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم ‘المواد والأساليب’. استناداً إلى مصطلح التردد والتردد الوثيقة داخل خلية وعبر الخلايا المجاورة. وطبعت بتواتر المدة الإجمالية وتردد الوثيقة. من الناحية الكمية، وهو احتمال أن عبارة فريدة من نوعها في خلية محددة. درجة كاسيولاب لا نعم معادلة نقاط كاسيولاب في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم ‘المواد والأساليب’. استناداً إلى النزاهة وشعبية، والتميز. القيمة العددية دائماً يندرج ضمن 0 إلى 1. الكمية تمثل نقاط كاسيولاب الرابطة عبارة-الفئة الجدول 5. المعادلات كاسيولاب: تم تطوير خوارزمية “كاسيولاب” فانجبو تاو وأمام هان et al. في عام 20161. باختصار، يقدم هذا الجدول حساب نقاط كاسيولاب تتألف من ثلاثة مكونات: النزاهة وشعبية، والتمايز، ومعناها الرياضية المرتبطة بها. لدينا حالات استخدام نقاط السلامة للبروتينات هو 1.0 (الدرجة القصوى) لأنها تقف كأسماء الكيانات المنشأة. يمكن تبينه عشرات كاسيولاب في حالات الاستخدام لدينا رقم 6 و رقم 7.

Discussion

لقد أظهرنا أن الخوارزمية كاسيولاب يمكن إنشاء اقتران عبارة على أساس كمية إلى فئة القائم على المعرفة على كميات كبيرة من البيانات النصية لاستخراج أفكار ذات معنى. بعد أن البروتوكول، يمكن للمرء بناء إطار كاسيولاب لإنشاء مكعب-نص المطلوب وتحديد الكيان-فئة الجمعيات من خلال حساب درجة كاسيولاب. يمكن أن تؤخذ عشرات كاسيولاب الخام التي يتم الحصول عليها للتحليلات التكاملية بما في ذلك الحد من أبعاد، والتجميع، التحليل الزمني والجغرافي، فضلا عن إنشاء قاعدة بيانات رسومية مما يتيح رسم الخرائط الدلالية للوثائق.

تطبيق الخوارزمية. يمكن أن تكون أمثلة الكيانات المعرفة من قبل المستخدم، بخلاف البروتينات، قائمة بأسماء الجينات، والمخدرات وعلامات محددة وأعراض بما في ذلك المختصرات، والمرادفات. وعلاوة على ذلك، هناك العديد من الخيارات لاختيار الفئة لتيسير المعرفة الطبية تحليلات محددة (مثلاً، التشريح [A]، والانضباط والاحتلال [ح] والظواهر والعمليات [ز]). في أن اثنين من حالات الاستخدام، جميع المنشورات العلمية والبيانات النصية الخاصة بهم يتم استردادها من قاعدة بيانات MEDLINE باستخدام ال PubMed كمحرك البحث، وكلاهما يدير “المكتبة الوطنية للطب”. ومع ذلك، يجوز تطبيق منهاج كاسيولاب لقواعد البيانات الأخرى للاهتمام الذي يحتوي على الوثائق الطبية الحيوية مع بيانات نصية مثل إدارة الأغذية والعقاقير الضارة الحدث الإبلاغ عن نظام (فارس). وهذا فتح قاعدة بيانات تحتوي على معلومات عن الأحداث الضائرة الطبية والدواء الخطأ التقارير المقدمة إلى إدارة الأغذية والعقاقير. وعلى النقيض من MEDLINE وفارس، قواعد البيانات في المستشفيات التي تحتوي على السجلات الصحية الإلكترونية من المرضى هي ليست مفتوحة للجمهور ومقيدة بموجب قانون المساءلة المعروفة باسم HIPAA وقابلية التأمين الصحي.

خوارزمية كاسيولاب قد طبقت بنجاح إلى أنواع مختلفة من البيانات (على سبيل المثال، المقالات الإخبارية)1. أحرز تنفيذ هذه الخوارزمية في الوثائق الطبية في عام 20185. المتطلبات لتطبيق خوارزمية كاسيولاب أنه يجب تعيين كل من الوثائق مع الكلمات الرئيسية المرتبطة بالمفاهيم (مثل واصفات مش في المنشورات الطبية الحيوية، والكلمات الرئيسية في الأخبار). إذا لم يتم العثور على كلمات رئيسية، واحدة يمكن تطبيقها أوتوفراسي6،7 جمع العبارات الممثل الأعلى وبناء قائمة الكيانات قبل تنفيذ بروتوكول لدينا. لا توفر لنا البروتوكول خطوة لتنفيذ أوتوفراسي.

مقارنة مع خوارزميات أخرى. ما فتئ يتطور مفهوم استخدام بيانات مكعب8،،من910 ونص مكعب2،3،4 منذ عام 2005 مع التطورات الجديدة لجعل استخراج البيانات أكثر قابلية للتطبيق. مفهوم المعالجة التحليلية عبر الإنترنت (OLAP)11،،من1213،14،15 في استخراج البيانات والمعلومات التجارية يعود إلى عام 1993. وبصفة عامة، OLAP، تجمع المعلومات من أنظمة متعددة، ويخزنها في تنسيق متعدد الأبعاد. وهناك أنواع مختلفة من نظم OLAP المنفذة في التنقيب عن البيانات. على سبيل المثال تجهيز المعاملات/التحليلي (1) الهجين (حطاب)16،17،18،OLAP المتعددة الأبعاد (MOLAP) (2)19-مكعب OLAP العلائقية (ROLAP) يستند إلى، و (3)20.

على وجه التحديد، خوارزمية كاسيولاب قد تم مقارنة مع خوارزميات القائمة العديدة، على وجه التحديد، مع هذه التحسينات تجزئة العبارة، بما في ذلك فريق العمل-جيش الدفاع الإسرائيلي + Seg و MCX + Seg MCX سيجفراسي. علاوة على ذلك، تم مقارنة مع ريبفراسي (RP، يعرف أيضا باسم سيجفراسي +) مع اختلافات الاجتثاث الخاصة به، بما في ذلك (1) البرنامج العادي دون سلامة التدبير أدرجت (RP لا INT) و (2) البرنامج العادي دون قياس شعبية تدرج (RP لا POP) روبية (3) دون إدراج مقياس التمايز (RP لا ديس). وترد نتائج قياس الأداء في الدراسة فانجبو تاو et al.1.

لا تزال هناك تحديات في استخراج البيانات التي يمكن إضافة وظائف إضافية أكثر من حفظ واسترجاع البيانات من قاعدة البيانات. سياق علم دلالية “تحليلية معالجة” (كاسيولاب) بشكل منهجي وتنفذ الاستيكسيرتش لبناء قاعدة بيانات فهرسة الملايين من الوثائق (بروتوكول 5). النص-المكعب بنية مستند بناء على البيانات المفهرسة مع الفئات المتوفرة من قبل المستخدم (بروتوكول 6). وهذا يعزز الأداء الوظيفي للوثائق داخل وعبر الخلية من المكعب بالنص وتسمح لنا بحساب تردد مصطلح الكيانات أكثر من وثيقة والوثيقة التردد على خلية محددة (بروتوكول 8). النتيجة النهائية كاسيولاب وتستخدم هذه الحسابات التردد لإخراج النتيجة نهائية (9 البروتوكول). في عام 2018، قمنا بتنفيذ هذه الخوارزمية لدراسة البروتينات إدارة المحتوى في المؤسسة وستة أمراض القلب لتحليل البروتين-المرض الجمعيات. يمكن الاطلاع على تفاصيل هذه الدراسة في الدراسة قبل لييم، دا et al.5. مشيراً إلى أن كاسيولاب يمكن أن تستخدم على نطاق واسع في أوساط الطب الحيوي استكشاف مجموعة متنوعة من الأمراض والآليات.

قيود الخوارزمية. التعدين العبارة نفسها أسلوب لإدارة واسترداد المفاهيم الهامة من البيانات النصية. حين اكتشاف جمعية كيان-الفئة ككمية رياضية (ناقلات)، هذا الأسلوب غير قادر على معرفة الأقطاب (مثلاً، الميل الإيجابي أو السلبي) للرابطة. يمكن للمرء بناء تلخيص كمية من البيانات استخدام هيكل الوثيقة Cude النص مع الكيانات المخصصة والفئات، ولكن لا يمكن التوصل إلى مفهوم نوعية مع جرانولاريتيس المجهري. بعض المفاهيم تتطور بشكل مستمر من الماضي حتى الآن. تلخيص المقدمة لارتباط فئة كيان محدد يشمل جميع حالات في جميع أنحاء الأدب. وهذا قد تفتقر إلى نشر الزمانية للابتكار. في المستقبل، ونخطط لمعالجة أوجه القصور هذه.

تطبيقات في المستقبل- حوالي 90% البيانات المتراكمة في العالم موجود في بيانات النص غير منظم. العثور على عبارة الممثل وفيما يتعلق بالكيانات جزءا لا يتجزأ من النص مهمة هامة جداً لتنفيذ التكنولوجيات الجديدة (مثلاً، “آلة التعلم”، استخراج المعلومات، الذكاء الاصطناعي). لجعل البيانات النصية آلة للقراءة، تحتاج البيانات التي سيتم تنظيمها في قاعدة البيانات التي يمكن تنفيذها في الطبقة التالية من الأدوات. في المستقبل، يمكن أن تكون هذه الخوارزمية خطوة حاسمة في جعل استخراج البيانات أكثر وظيفية لاسترجاع المعلومات والتحديد الكمي للجمعيات كيان-الفئة.

Disclosures

The authors have nothing to disclose.

Acknowledgements

هذا العمل كان يدعمها في الجزء الوطني للقلب والرئة والدم المعهد: HL135772 R35 (إلى ص Ping)؛ المعهد الوطني للعلوم الطبية العامة: GM114833 U54 (إلى Ping ص ك. واتسون وجورج وانغ)؛ U54 GM114838 (لهان J.)؛ هدية من هلن & مؤسسة هوغ لاري والدكتور س. سيتي؛ والهبة لوبيش T.C. في جامعة كاليفورنيا (إلى Ping ص).

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

Cite This Article
Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

View Video