DiCoExpress, kalite kontrolünden ko-ekspresyona kadar bir RNA-Seq analizi gerçekleştirmek için R’de uygulanan komut dosyası tabanlı bir araçtır. DiCoExpress, 2 biyolojik faktöre kadar eksiksiz ve dengesiz tasarımı gerçekleştirir. Bu video eğitimi, kullanıcıyı DiCoExpress’in farklı özellikleri boyunca yönlendirir.
NGS veri analizinde istatistiksel modellemenin doğru kullanımı, ileri düzeyde uzmanlık gerektirir. Son zamanlarda, RNA-Seq verilerinin diferansiyel analizi için genelleştirilmiş doğrusal modellerin kullanılması ve karışım modellerinin birlikte ekspresyon analizi yapmak için avantajı konusunda artan bir fikir birliği olmuştur. Bu modelleme yaklaşımlarını kullanmak üzere yönetilen bir ortam sunmak için, RNA-Seq analizi gerçekleştirmek üzere standartlaştırılmış bir R boru hattı sağlayan DiCoExpress’i geliştirdik. İstatistik veya R programlamada özel bir bilgi olmadan, yeni başlayanlar, genelleştirilmiş bir doğrusal model içindeki kontrastlara dayanan diferansiyel analiz yoluyla kalite kontrollerinden birlikte ifadeye kadar eksiksiz bir RNA-Seq analizi gerçekleştirebilirler. Hem diferansiyel olarak eksprese edilen genlerin listelerinde hem de birlikte eksprese edilen gen kümelerinde bir zenginleştirme analizi önerilmektedir. Bu video eğitimi, kullanıcıların DiCoExpress’ten ve bir RNA-Seq deneyinin biyolojik yorumunu güçlendirme potansiyelinden tam olarak yararlanmalarına yardımcı olacak adım adım bir protokol olarak tasarlanmıştır.
Yeni nesil RNA dizileme (RNA-Seq) teknolojisi artık transkriptom analizinin altın standardıdır1. Teknolojinin ilk günlerinden bu yana, biyoinformatikçilerin ve biyoistatistikçilerin birleşik çabaları, haritalamadan transkript niceliğine kadar transkriptomik analizlerin tüm temel adımlarını ele alan çok sayıda yöntemin geliştirilmesine neden olmuştur2. Günümüzde biyologlar için mevcut olan araçların çoğu, istatistiksel hesaplama ve grafikler3 için R yazılım ortamında geliştirilmiştir ve biyolojik veri analizi için birçok paket Bioconductor deposu4’te mevcuttur. Bu paketler, analizin tam kontrolünü ve özelleştirilmesini sağlar, ancak bir komut satırı arayüzünün kapsamlı kullanımı pahasına gelirler. Birçok biyolog “işaretle ve tıkla” yaklaşımı5 ile daha rahat olduğu için, RNA-Seq analizlerinin demokratikleşmesi daha kullanıcı dostu arayüzlerin veya protokollerin geliştirilmesini gerektirir6. Örneğin, Shiny7 kullanarak R paketlerinin web arayüzlerini oluşturmak mümkündür ve R-studio8 arayüzü ile komut satırı veri analizi daha sezgisel hale getirilir. Özel, adım adım öğreticilerin geliştirilmesi de yeni kullanıcıya yardımcı olabilir. Özellikle, bir video eğitimi klasik bir metni tamamlar ve tüm prosedür adımlarının daha iyi anlaşılmasını sağlar.
Yakın zamanda, nötr karşılaştırma çalışmalarına dayanan en iyi yöntemler olarak kabul edilen yöntemleri kullanarak R’deki çok faktörlü RNA-Seq deneylerini analiz etmek için bir araç olan DiCoExpress9’u geliştirdik10,11,12. Bir sayım tablosundan başlayarak, DiCoExpress bir veri kalitesi kontrol adımı ve ardından genelleştirilmiş bir doğrusal model (GLM) kullanarak bir diferansiyel gen ekspresyon analizi (edgeR paketi13) ve Gauss karışım modellerini (coseq paketi12) kullanarak birlikte ekspresyon kümelerinin oluşturulmasını önermektedir. DiCoExpress, 2 biyolojik faktöre (yani genotip ve tedavi) ve bir teknik faktöre (yani çoğaltma) kadar eksiksiz ve dengesiz tasarımı ele alır. DiCoExpress’in özgünlüğü, verileri, komut dosyalarını ve sonuçları depolayan ve düzenleyen dizin mimarisinde ve kullanıcının aynı istatistiksel model içinde çok sayıda soruyu araştırmasına izin veren kontrastların yazılmasının otomasyonunda yatmaktadır. İstatistiksel sonuçları gösteren grafiksel çıktılar sağlamak için de çaba sarf edildi.
DiCoExpress çalışma alanı https://forgemia.inra.fr/GNet/dicoexpress kullanılabilir. Dört dizin, iki pdf ve iki metin dosyası içerir. Data/ dizini giriş veri kümelerini içerir; Bu protokol için “öğretici” veri kümesini kullanacağız. Sources/dizini, analizi gerçekleştirmek için gerekli yedi R fonksiyonunu içerir ve kullanıcı tarafından değiştirilmemelidir. Analiz, Template_scripts/ dizininde depolanan komut dosyaları kullanılarak çalıştırılır. Bu protokolde kullanılana DiCoExpress_Tutorial_JoVE.R denir ve herhangi bir transkriptomik projeye kolayca uyarlanabilir. Tüm sonuçlar Results/ dizinine yazılır ve projeye göre adlandırılan bir alt dizinde saklanır. README.md dosyası yararlı kurulum bilgileri içerir ve yöntem ve kullanımıyla ilgili tüm özel ayrıntılar DiCoExpress_Reference_Manual.pdf dosyasında bulunabilir.
Bu video eğitimi, komut satırı tabanlı araçlar kullanarak biyologlar tarafından hissedilen isteksizliğin üstesinden gelmek amacıyla kullanıcıyı DiCoExpress’in farklı özellikleri boyunca yönlendirir. Burada, tedavi olsun veya olmasın, dört genotipin üç biyolojik replikasındaki gen ekspresyonunu tanımlayan yapay bir RNA-Seq veri kümesinin analizini sunuyoruz. Şimdi Şekil 1’de gösterilen DiCoExpress iş akışının farklı adımlarından geçeceğiz. Protokol bölümünde açıklanan komut dosyası ve giriş dosyaları sitede mevcuttur: https://forgemia.inra.fr/GNet/dicoexpress
Veri dosyalarını hazırlama
Data/ dizininde depolanan dört csv dosyası proje adına göre adlandırılmalıdır. Örneğimizde, bu nedenle, tüm adlar “Öğretici” ile başlar ve protokolün 4. Adımında Project_Name = “Öğretici” olarak ayarlayacağız. CSV dosyalarında kullanılan ayırıcı, Adım 4’teki Sep değişkeninde belirtilmelidir. “Öğretici” veri kümemizde, ayırıcı bir tablodur. İleri düzey kullanıcılar için tam veri kümesi, Filtre değişkeni aracılığıyla bir yönerge listesi ve yeni bir Project_Name sağlanarak bir alt kümeye indirgenebilir. Bu seçenek, giriş dosyalarının gereksiz kopyalarını önler ve FAIR ilkeleri14’ü doğrular.
Dört csv dosyası arasında yalnızca COUNTS ve TARGET dosyaları zorunludur. Her gen için ham sayıları (burada Tutorial_COUNTS.csv) ve deneysel tasarım tanımını (burada Tutorial_TARGET.csv) içerirler. TARGET.csv dosyası, her biyolojik veya teknik faktör (sütunlarda) için bir yöntemle her örneği (satır başına bir örnek) tanımlar. Modaliteler için seçilen isimlerin bir sayı ile değil, bir harfle başlamasını şiddetle tavsiye ederiz. Son sütunun adı (“Çoğalt”) değiştirilemez. Son olarak, örnek adlar (ilk sütun) COUNTS.csv dosyasının başlıklarındaki adlarla eşleşmelidir (örneğimizde Genotype1_control_rep1). Her satırın bir .csv ve bir ek açıklama terimi içerdiği Zenginleştirme Gene_ID dosyası, yalnızca kullanıcı zenginleştirme analizini çalıştırmayı planlıyorsa gereklidir. Bir genin birkaç ek açıklaması varsa, farklı satırlara yazılmaları gerekecektir. Ek Açıklama.csv dosyası isteğe bağlıdır ve çıktı dosyalarındaki her genin kısa bir açıklamasını eklemek için kullanılır. Ek açıklama dosyası almanın en iyi yolu, bilgileri özel veritabanlarından almaktır (örneğin, Thalemine: Arabidopsis için https://bar.utoronto.ca/thalemine/begin.do).
DiCoExpress Kurulumu
DiCoExpress belirli R paketleri gerektirir. Komut satırı kaynağını kullanın(“.. /Sources/Install_Packages.R”) gerekli paket yükleme durumunu denetlemek için R konsolunda. Linux kullanıcıları için başka bir çözüm, DiCoExpress’e adanmış ve https://forgemia.inra.fr/GNet/dicoexpress/container_registry bulunan konteyneri kurmaktır. Tanım olarak, bu kapsayıcı kitaplıklar ve diğer bağımlılıklar gibi ihtiyaç duyulan tüm parçalarla birlikte DiCoExpress’i içerir.
RNA-Seq, biyolojik çalışmalarda her yerde bulunan bir yöntem haline geldiğinden, çok yönlü ve kullanıcı dostu analitik araçlar geliştirmeye sürekli ihtiyaç vardır. Analitik iş akışlarının çoğunda kritik bir adım, biyolojik koşullar ve / veya tedaviler arasında farklı şekilde ifade edilen genleri güvenle tanımlamaktır15. Güvenilir sonuçların üretilmesi, DiCoExpress’in geliştirilmesinde motivasyon kaynağı olan uygun istatistiksel modellemeyi gerektirir.
<p cl…The authors have nothing to disclose.
Bu çalışma esas olarak ANR PSYCHE (ANR-16-CE20-0009) tarafından desteklenmiştir. Yazarlar, DiCoExpress konteynerinin yapımı için F. Desprez’e teşekkür ediyor. KB çalışmaları Investment for the Future ANR-10-BTBR-01-01 Amaizing programı tarafından desteklenmektedir. GQE ve IPS2 laboratuvarları Saclay Plant Sciences-SPS (ANR-17-EUR-0007) desteğinden yararlanmaktadır.