Biyomedikal raporlarda açıklandığı gibi mitokondriyal proteinleri ve bunların kardiyovasküler hastalıklarla ilişkilerini araştırmak için bir hesaplama protokolü olan CaseOLAP LIFT ve bir kullanım senaryosu sunulmaktadır. Bu protokol, kullanıcı tarafından seçilen hücresel bileşenleri ve hastalıkları incelemek için kolayca uyarlanabilir.
Her biri çok sayıda varlık ve zengin bilgi içeren, hızla artan ve çok sayıda biyomedikal rapor, biyomedikal metin madenciliği uygulamaları için zengin bir kaynak oluşturmaktadır. Bu araçlar, araştırmacıların hastalık patolojisi ve terapötiklerine ilişkin yeni içgörüleri ortaya çıkarmak için bu keşifleri entegre etmelerini, kavramsallaştırmalarını ve tercüme etmelerini sağlar. Bu protokolde, metin veri kümelerinden (örneğin, biyomedikal literatür) kullanıcı tarafından seçilen bilgileri çıkararak hücresel bileşenleri ve bunların hastalık ilişkilerini araştırmak için yeni bir hesaplama hattı olan CaseOLAP LIFT’i sunuyoruz. Yazılım, hastalıkla ilgili belgelerde hücre altı proteinleri ve bunların fonksiyonel ortaklarını tanımlar. Hastalıkla ilgili ek belgeler, yazılımın etiket atama yöntemiyle tanımlanır. Ortaya çıkan protein-hastalık ilişkilerini bağlamsallaştırmak ve birden fazla ilgili biyomedikal kaynaktan gelen bilgileri entegre etmek için, daha fazla analiz için otomatik olarak bir bilgi grafiği oluşturulur. Bu yöntemi kullanarak farklı kardiyovasküler hastalık fenotiplerinde mitokondriyal proteinlerin rolünü aydınlatmaya bir örnek sağlamak için çevrimiçi olarak indirilen ~34 milyon metin belgesinden oluşan bir derlem içeren bir kullanım durumu sunuyoruz. Ayrıca, proteinler ve hastalık arasında daha önce bildirilmemiş ilişkileri tahmin etmek için ortaya çıkan bilgi grafiğine bir derin öğrenme modeli uygulandı ve bu, tahmin edilen olasılıklarla >0.90 ve test setinde 0.91’lik alıcı işletim karakteristik eğrisinin (AUROC) altındaki bir alanla 1.583 ilişki ile sonuçlandı. Bu yazılım, analiz için geniş bir ham veri kapsamı ile son derece özelleştirilebilir ve otomatikleştirilmiş bir iş akışına sahiptir; Bu nedenle, bu yöntem kullanılarak, protein-hastalık ilişkileri, bir metin derlemi içinde gelişmiş güvenilirlikle tanımlanabilir.
Hastalıkla ilişkili proteinlerin incelenmesi, patogenezin bilimsel bilgisini geliştirir ve potansiyel terapötiklerin belirlenmesine yardımcı olur. PubMed’in yayın başlıkları, özetler ve tam metin belgeler içeren 34 milyon makalesi gibi biyomedikal yayınların birkaç büyük metin külliyatı, proteinleri hastalıklarla ilişkilendiren yeni bulgular bildirmektedir. Bununla birlikte, bu bulgular çeşitli kaynaklar arasında parçalanmıştır ve yeni biyomedikal anlayışlar oluşturmak için entegre edilmelidir. Protein-hastalık ilişkilerinientegre etmek için çeşitli biyomedikal kaynaklar mevcuttur 1,2,3,4,5,6,7. Bununla birlikte, bu küratörlü kaynaklar genellikle eksiktir ve en son araştırma bulgularını kapsamayabilir. Metin madenciliği yaklaşımları, büyük metin külliyatındaki protein-hastalık ilişkilerini çıkarmak ve sentezlemek için gereklidir, bu da bilimsel literatürde bu biyomedikal kavramların daha kapsamlı bir şekilde anlaşılmasına neden olacaktır.
Protein-hastalık ilişkilerini ortaya çıkarmak için çoklu biyomedikal metin madenciliği yaklaşımları mevcuttur 8,9,10,11,12,13,14 ve diğerleri, metin 13,15,16,17’de belirtilen proteinleri, hastalıkları veya diğer biyomedikal varlıkları tanımlayarak bu ilişkilerin belirlenmesine kısmen katkıda bulunur. 18,19. Bununla birlikte, bu araçların çoğu, periyodik olarak güncellenen birkaçı dışında, en güncel literatüre erişimden yoksundur 8,11,13,15. Benzer şekilde, birçok araç da önceden tanımlanmış geniş hastalıklar veya proteinlerle sınırlı oldukları için sınırlı bir çalışma alanına sahiptir 9,13. Metin içindeki yanlış pozitiflerin tanımlanmasına çeşitli yaklaşımlar da eğilimlidir; Diğerleri, bu sorunları yorumlanabilir ve küresel bir protein isimlerikara listesi 9,11 veya daha az yorumlanabilir isim varlığı tanıma teknikleri15,20 ile ele almıştır. Çoğu kaynak yalnızca önceden hesaplanmış sonuçlar sunarken, bazı araçlar web uygulamaları veya erişilebilir yazılım kodu 8,9,11 aracılığıyla etkileşim sunar.
Yukarıdaki sınırlamaları ele almak için, metin veri kümelerinden proteinler (örneğin, hücresel bir bileşenle ilişkili proteinler) ve hastalıklar arasındaki ilişkileri araştırmak için esnek ve özelleştirilebilir bir platform olarak etiket atama ve tam metin (CaseOLAP LIFT) ile CaseOLAP protokolünü sunuyoruz. Bu platform, gen ontolojisi (GO) terime özgü proteinlerin (örneğin, organele özgü proteinler) otomatik küratörlüğünü, eksik belge konu etiketlerinin atanmasını, tam metin belgelerin analizini, ayrıca analiz araçlarını ve tahmin araçlarını içerir (Şekil 1, Şekil 2 ve Tablo 1). CaseOLAP LIFT, kullanıcı tarafından sağlanan GO terimlerini (örneğin, organel bölmesi) ve STRING 21, Reactome22 ve GRNdb23’ü kullanarak işlevsel olarak ilişkili proteinleri kullanarak organele özgü proteinleri düzenler. Hastalık inceleme belgeleri, PubMed açıklamalı tıbbi konu başlığı (MeSH) etiketleriyle tanımlanır. Etiketlenmemiş belgelerin ~%15,1’i için, başlıkta en az bir MeSH terim eşanlamlısı bulunursa veya özette en az iki tane bulunursa etiketler atfedilir. Bu, daha önce kategorize edilmemiş yayınların metin madenciliği analizinde dikkate alınmasını sağlar. CaseOLAP LIFT ayrıca kullanıcının belirli bir zaman dilimi içinde (örneğin, 2012-2022) yayınların bölümlerini (örneğin, yalnızca başlıklar ve özetler, tam metin veya yöntemler hariç tam metin) seçmesine olanak tanır. Yazılım ayrıca, diğer yaklaşımlarda bulunan yanlış pozitif protein-hastalık ilişkilerini hayati derecede azaltarak, kullanım durumuna özgü protein adlarının kara listesini yarı otomatik olarak düzenler. Genel olarak, bu iyileştirmeler daha fazla özelleştirilebilirlik ve otomasyon sağlar, analiz için mevcut veri miktarını genişletir ve büyük biyomedikal metin külliyatından daha güvenli protein-hastalık ilişkileri sağlar.
CaseOLAP LIFT, biyomedikal bilgiyi içerir ve grafikteki gizli ilişkileri tahmin etmek için kullanılan bir bilgi grafiği kullanarak çeşitli biyomedikal kavramların ilişkisini temsil eder. Son zamanlarda, biyomedikal kavramların entegrasyonu ve düzenlenmesi 24,25, ilacın yeniden kullanımı ve geliştirilmesi 26,27,28 ve proteomik verilerden klinik karar verme 29 dahil olmak üzere biyolojik ortamlara grafik tabanlı hesaplama yöntemleri uygulanmıştır.
Bir bilgi grafiği oluşturma ortamında CaseOLAP LIFT’in faydalarını göstermek için, mitokondriyal proteinler ile sekiz kardiyovasküler hastalık kategorisi arasındaki ilişkilerin araştırılmasına ilişkin bir kullanım örneğini vurguluyoruz. Hastalıklarla ilişkili en iyi mitokondriyal proteinleri ve yolları belirlemek için ~ 362.000 hastalıkla ilgili belgeden elde edilen kanıtlar analiz edildi. Daha sonra, bu proteinler, işlevsel olarak ilişkili proteinleri ve metin madenciliği sonuçları bir bilgi grafiğine dahil edildi. Bu grafik, biyomedikal yayınlarda şimdiye kadar bildirilmemiş protein-hastalık ilişkilerini tahmin etmek için derin öğrenme tabanlı bir bağlantı tahmin analizinde kullanıldı.
Giriş bölümü, protokolümüzün arka plan bilgilerini ve hedeflerini açıklamaktadır. Aşağıdaki bölümde, hesaplama protokolünün adımları açıklanmaktadır. Daha sonra, bu protokolün temsili sonuçları açıklanmaktadır. Son olarak, hesaplama protokolü kullanım durumlarını, avantajlarını, dezavantajlarını ve gelecekteki uygulamalarını kısaca tartışıyoruz.
CaseOLAP LIFT, araştırmacılara fonksiyonel proteinler (örneğin, hücresel bir bileşen, biyolojik süreç veya moleküler işlevle ilişkili proteinler) ve biyolojik kategoriler (örneğin, hastalıklar) arasındaki ilişkileri araştırmaları için yetki verir. Protokol bölüm 4 ve protokol bölüm 5 sonuçlarına bağlı olduğundan, protokol bölüm 2 ve protokol bölüm 3 en kritik adımlar olmak üzere açıklanan protokol belirtilen sırayla yürütülmelidir. Protokol bölüm 1’e alternatif olarak, CaseOLAP LIFT kodu kopyalanabilir ve GitHub deposundan (https://github.com/CaseOLAP/caseolap_lift) erişilebilir. Yazılım geliştirme sırasında yapılan testlere rağmen hataların meydana gelebileceği unutulmamalıdır. Bu durumda, başarısız olan adım tekrarlanmalıdır. Sorun devam ederse, docker kapsayıcısının en son sürümünün kullanıldığından emin olmak için protokol bölüm 1’i tekrarlamanız önerilir. Ek destek için GitHub deposunda bir sorun oluşturarak daha fazla yardım alabilirsiniz.
Bu yöntem, araştırmacıların ilgilenilen varlıkları belirlemelerini ve mevcut biyomedikal kaynaklarda kolayca erişilemeyebilecek aralarındaki potansiyel ilişkileri ortaya çıkarmalarını sağlayarak hipotez üretimini destekler. Ortaya çıkan protein-hastalık ilişkileri, araştırmacıların puanların yorumlanabilir metrikleri aracılığıyla yeni bilgiler edinmelerini sağlar: popülerlik puanları, bir hastalıkla ilgili olarak en çok çalışılan proteinleri gösterir, ayırt edicilik puanları, bir proteine en özgü hastalıkları gösterir ve birleşik CaseOLAP skoru, ikisinin bir kombinasyonudur. Yanlış pozitif tanımlamaları önlemek için (örneğin, eş anlamlılar nedeniyle), bazı metin madenciliği araçları 9,11’den kaçınmak için bir kara terim listesi kullanır. Benzer şekilde, CaseOLAP LIFT de bir kara liste kullanır ancak kullanıcının kara listeyi kendi kullanım durumuna göre uyarlamasına olanak tanır. Örneğin, koroner arter hastalığı (CAD) incelenirken, “CAD”, “kaspazla aktive olan deoksiribonükleaz” proteini için bir isim olarak düşünülmemelidir. Bununla birlikte, diğer konuları incelerken, “CAD” genellikle proteine atıfta bulunabilir.
CaseOLAP LIFT, metin madenciliği için mevcut veri miktarına uyum sağlar. Tarih aralığı işlevi, hesaplama yükünü hafifletir ve hipotez oluşturma için esneklik yaratır (örneğin, bir protein-hastalık ilişkisi hakkındaki bilimsel bilginin zaman içinde nasıl değiştiğini incelemek). Bu arada, etiket atama ve tam metin bileşenleri, metin madenciliği için mevcut verilerin kapsamını geliştirir. Hesaplama maliyetlerini azaltmak için her iki bileşen de varsayılan olarak devre dışıdır, ancak kullanıcı her iki bileşeni de dahil etmeye karar verebilir. Etiket ataması muhafazakardır ve çoğu yayını doğru bir şekilde kategorize eder (%87 kesinlik) ancak diğer kategori etiketlerini kaçırır (%2 hatırlama). Bu yöntem şu anda hastalık anahtar sözcükleriyle eşleşen kural tabanlı bir buluşsal yönteme dayanmaktadır ve belge konusu modelleme tekniklerinin kullanılmasıyla performansı artırma planları vardır. Kategorize edilmemiş raporların çoğu yeni yayınlar olma eğiliminde olduğundan, yakın bir tarih aralığını (örneğin, son 3 yıldaki tüm yayınlar) araştıran çalışmalar, etiket ataması devre dışı bırakılarak daha iyi sunulur. Tam metin bileşeni, çalışma zamanı ve depolama gereksinimlerini artırır. Özellikle, belgelerin yalnızca küçük bir kısmı tam metne sahiptir (çalışmamızdaki belgelerin ~%14’ü). Yayınların yöntemler bölümünde belirtilen protein isimlerinin hastalık konularıyla ilgili olma olasılığının daha düşük olduğu varsayılarak, yöntemler bölümü hariç tam metin makalelerin sorgulanması önerilir.
Elde edilen protein-hastalık ilişkilendirme puanları, kümeleme, boyutsallık azaltma veya zenginleştirme analizleri (örneğin, GO, yollar) gibi geleneksel analizler için yararlıdır ve bazı uygulamalar bu yazılım paketine dahil edilmiştir. Bu puanları mevcut biyomedikal bilgi içinde bağlamsallaştırmak için, bir bilgi grafiği otomatik olarak oluşturulur ve grafik görselleştirme araçları (örneğin, Neo4j32, Cytoscape33) kullanılarak keşfedilebilir. Bilgi grafiği ayrıca öngörücü analizler için de kullanılabilir (örneğin, bildirilmemiş protein-hastalık ilişkilerinin bağlantı tahmini, protein ağlarının topluluk tespiti, ödül toplama yol yürüme yöntemleri).
Tahmin edilen protein-hastalık ilişkileri için model değerlendirme metriklerini inceledik (Tablo 5). Model, her bir protein-hastalık ilişkisine 0.0 ile 1.0 arasında bir olasılık puanı atar ve 1.0’a yakın puanlar, tahminde daha yüksek bir güven düzeyini gösterir. AUROC, doğruluk, dengeli doğruluk, özgüllük ve hatırlama dahil olmak üzere çeşitli metriklere dayanan model performansının dahili değerlendirmesi, çalışmalarında mükemmel bir genel performans gösterdi. Bununla birlikte, değerlendirme aynı zamanda modelin kesinliği (0.15) için oldukça düşük bir puanı vurguladı ve bu da hem daha düşük bir AUPRC hem de F1 puanıyla sonuçlandı. Bu metriği geliştirmeye yönelik gelecekteki çalışmalar, modelin genel performansını yükseltmeye yardımcı olacaktır. Bunun, daha karmaşık bilgi grafiği yerleştirme ve grafik tahmin modelleri uygulayarak başarılabileceğini öngörüyoruz. Modelin 0.15’lik kesinliğine dayanarak, araştırmacılar yaklaşık% 15 pozitif tanımlama beklemelidir; Özellikle, model tarafından tahmin edilen 12.688 protein-hastalık ilişkisinin yaklaşık% 15’i gerçek pozitif ilişkilerdir. Bu, yalnızca yüksek olasılık puanına sahip protein-hastalık ilişkileri dikkate alınarak hafifletilebilir (örneğin, >0.90); Kullanım örneğimizde, 0,90 olasılık eşiği ile filtreleme, 1.583 ilişkilendirmenin yüksek güvenilirlikli tahminlerine yol açtı. Araştırmacılar, yüksek geçerlilik sağlamak için bu tahminleri manuel olarak incelemeyi de yararlı bulabilirler (örnek olarak Şekil 7’ye bakın). Tahminlerimizin dış değerlendirmesi, kapsamlı bir küratörlü veri tabanı DisGeNet19’dan 310 protein-hastalık ilişkisinden 103’ünün metin madenciliği çalışmamızda tanımlandığını ve 88 ek ilişkinin bilgi grafiği analizimiz tarafından >0.90 olasılık puanıyla tahmin edildiğini belirledi.
Genel olarak, CaseOLAP LIFT, büyük metin derleminde fonksiyonel protein grupları ve çoklu hastalık kategorileri arasındaki ilişkilerin özel analizlerinin tasarlanmasında gelişmiş esneklik ve kullanılabilirlik sunar. Bu paket, yeni bir kullanıcı dostu komut satırı arabiriminde kolaylaştırılmıştır ve bir docker kapsayıcısı olarak yayınlanır, böylece programlama ortamlarının ve yazılım bağımlılıklarının yapılandırılmasıyla ilgili sorunları azaltır. Kardiyovasküler hastalıklarda mitokondriyal proteinleri incelemek için CaseOLAP LIFT boru hattı kolayca uyarlanabilir; örneğin, bu tekniğin gelecekteki uygulamaları, herhangi bir GO terimi ile ilişkili herhangi bir protein ile herhangi bir biyomedikal kategori arasındaki ilişkilerin araştırılmasını içerebilir. Ayrıca, bu metin madenciliği platformu tarafından belirlenen sıralı protein-hastalık ilişkileri, gelişmiş doğal dil tekniklerinin kullanımı için veri setinin hazırlanmasında önemlidir. Ortaya çıkan bilgi grafiği, araştırmacıların bu bulguları biyolojik olarak bilgilendirici bilgilere dönüştürmelerini sağlar ve takip grafiği tabanlı analizler için temel oluşturur.
The authors have nothing to disclose.
Bu çalışma, Ulusal Sağlık Enstitüleri (NIH) R35 HL135772 tarafından P.P.’ye, NIH T32 HL13945 A.R.P. ve DS’ye, NIH T32 EB016640 A.R.P.’ye, Ulusal Bilim Vakfı Araştırma Stajyerliği (NRT) 1829071 tarafından A.R.P. ve DS’ye, I.A., J.R., A.V., K.B. için NIH R01 HL146739 ve UCLA’da PP’ye TC Laubisch Bağışı.