Summary

CyVerse Kaynaklarını Kaldıracak<emDe Novo</em> Yetersiz Üretilmiş (Model Olmayan) Organizmaların Karşılaştırmalı Transkriptomikleri

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

Bu iş akışı acemi araştırmacıların çift karşılaştırmalı transkriptomiklerini gerçekleştirmek için bulut bilgi işlem gibi gelişmiş hesaplama kaynaklarını kullanmasına olanak tanır. Ayrıca, veri bilimcisi hesaplama becerileri geliştirmek için biyologlar için bir baslık (bash komutlarını çalıştırma, büyük veri kümelerinin görselleştirilmesi ve yönetimi) gibi bir görev de görür. Tüm komut satırı kodu ve her komutun veya adımın daha fazla açıklaması wiki'de bulunabilir ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Çevre ve Atmosfer platformları CyVerse Veri Deposu aracılığıyla birbirine bağlanır. Bu nedenle, başlangıçtaki ham sıralama verileri yüklendikten sonra, büyük veri dosyalarını bir İnternet bağlantısı üzerinden aktarmaya artık gerek kalmaması, analizlerin yapılması için gereken süreyi en aza indirir. Bu protokol, sadece iki deneysel muamele veya durumu analiz etmek üzere tasarlanmıştır. Diferansiyel gen ekspresyon analizi,Ough eşli karşılaştırmalar yapar ve birden fazla faktörü test etmek için uygun olmayacaktır. Bu iş akışı otomatikleştirilmek yerine manuel olarak tasarlanmıştır. Her adım, kullanıcı tarafından yürütülmeli ve araştırılmalı ve verilerin ve analitik çıktıların daha iyi anlaşılması sağlanmalı ve bu nedenle kullanıcı için daha iyi sonuçlar elde edilmelidir. Tamamlandığında, bu protokol daha önce monte edilmiş referans genomlara (genelde yetersiz organizmada bulunmayan) eşlenmeye gerek kalmadan, yetersiz (modelsiz) organizmalar için yeni toplanmış transkriptom (lar) üretir. Bu de novo transkriptomlar ayrıca iki deneysel koşul arasında farklı olan genleri araştırmak için pairwise diferansiyel gen ekspresyon analizinde kullanılır. Farklı olarak ifade edilen genler daha sonra, organizmaların deneysel koşullara sahip oldukları genetik tepkiyi anlamak için işlevsel olarak açıklanmıştır. Toplamda, bu protokolden türetilen veriler, yetersiz organizmaların biyolojik cevapları hakkında hipotezleri test etmek için kullanılır.

Introduction

Homo sapiens ve Drosophila melanogaster , Mus musculus ve Danio rerio gibi birkaç temel model hayvan türü şu andaki ve geçmiş işlevsel genomik çalışmaların çoğunu temsil etmektedir. Bununla birlikte, yüksek verimli sıralama teknolojisinin hızla azalan maliyeti, modeli olmayan ( aka "ihmal edilmiş" veya "yetersiz") hayvan türleri için fonksiyonel genomik için fırsatlar sağlamaktadır 1 . Model dışı organizmalar sık ​​sık ekonomik olarak ilgili türleri ( örneğin istiridye, karides, yengeç) temsil eden ve model türlerinde bulunanların dışında yeni fenotipleri ve biyolojik sistemleri araştırmak için fırsatlar sunduğu için bu, genomikte önemli bir geçiştir.

Yetersiz organizmalar benzersiz biyolojik sistemleri araştırmak için cazip bir fırsat sunmasına rağmen, biyoenformatik analiz sırasında araştırmacılar tarafından karşılaşılan birçok zorluk vardır. BazılarıBir başka deyişle, referans genom, organizmaya özgü ontolojiler gibi yetersiz organizmalarda çalışan araştırmacılar için genetik kaynakların bulunmaması sonucunda ortaya çıkan zorluklar geniş veri setlerini işlemek için doğar. Nükleik asit izolasyonu ve sekanslama zorlukları genellikle rutin olarak bulunur Veri analizininkilerle karşılaştırılması ve bu tür biyoinformatik analizler, genellikle dizinleme projelerinin en hafife alınmış maliyeti olduğu kanıtlanmıştır 2 . Örneğin, basit bir yeni nesil sıralama biyoenformatik analiz, aşağıdaki adımlardan oluşabilir: kaliteli filtreleme ve ham dizileme okumaları düzeltme, kısa okumaları daha büyük bitişik parçalara toplama ve biyolojik anlamayı kazanmak için ek açıklama ve / veya diğer sistemlerle karşılaştırmalar. Görünüşte basit olmakla birlikte, bu örnek iş akışı, laboratuvar tezgahı bilgisayarının ötesinde özel bilgi ve hesaplama kaynakları gerektirir;Model organizmalar.

Doğal zorluklar altyapı veya bilgi temelli olabilir. Klasik bir altyapı zorluğu, uygun hesaplama kaynaklarına erişimdir. Örneğin, montaj ve açıklama işlemi, RAM (256 GB-1 TB) büyüklüğüne ve çalıştırılacak birkaç işlemci / çekirdeğe sahip güçlü bilgisayarlar veya bilgisayar kümeleri gerektiren hesaplama yoğun algoritmalara dayanır. Ne yazık ki, birçok araştırmacı ya bu tür bilgi işlem kaynaklarına erişemiyor ya da bu sistemlerle etkileşime girmek için gerekli bilgiye sahip değil. Diğer araştırmacılar üniversiteleri veya kurumları aracılığıyla yüksek performanslı bilgi işlem kümelerine erişebilir ancak bu kaynaklara erişim sınırlı olabilir ve bazen hesaplama saat başına ücret alınır, yani CPU işlemcilerinin sayısı ile gerçek zamanlı "saat Saatler "içinde çalışıyor. ABD Ulusal Bilim Vakfı tarafından finanse edilen siyasal altyapı sisteminden yararlanmaAmerika Birleşik Devletleri'nde ve dünyanın dört bir yanındaki araştırmacılar için kaynakları hesaplamak için ücretsiz erişim sağlayan Cyverse 3 gibi, burada gösterildiği gibi altyapı sorunlarını hafifletmeye yardımcı olabilir.

Tipik bir bilgi temelli soruna bir örnek, tam analizler için gerekli yazılımı anlamaktır. Sıralamaya dayalı bir projeyi etkin bir şekilde yürütmek için, araştırmacıların biyoinformatik analizler için geliştirilmiş sayısız yazılım araçlarını bilmeleri gerekir. Her bir paketin öğrenilmesi tek başına zor olsa da, paketlerin sürekli yükseltildiği, yeniden yayınlandığı, yeni iş akışlarına dahil edildiği ve bazen yeni lisanslar altında kullanılması kısıtlandığından daha da kötüye gidiyor. Buna ek olarak, bu araçların giriş ve çıkışlarını birbirine bağlamak, bazen bunları uyumlu hale getirmek için veri türlerini dönüştürmeyi ve iş akışına başka bir araç eklemeyi gerektirir. Son olarak, hangi yazılım paketininEn iyi 'bir analiz için ve belirli deneysel koşullar için sıklıkla en iyi yazılımı tanımlamak ince bir farktır. Bazı durumlarda, yazılımın kullanışlı incelemeleri mevcuttur, ancak yeni güncellemelerin ve yazılım seçeneklerinin sürülmesine bağlı olarak, bunlar hızla yenilenmektedir.

Yetersiz organizmaları araştıran araştırmacılar için, doğuştan gelen bu zorluklar, yeni bir organizmada verilerin analiz edilmesiyle ilgili zorlukların yanında ortaya çıkmaktadır. Bu yetersiz organizmaya özgü zorluklar, gen açıklaması sırasında en iyi şekilde gösterilir. Örneğin, yetersiz organizmalar sıklıkla gen ortolojisi ve işlevini belirlemek için makul bir şekilde kullanılabilen yakından ilişkili bir model organizmasına sahip değildirler ( örneğin deniz omurgasızları ve Drosophila ). Birçok biyoinformatik araç aynı zamanda, gen işlevini tanımlamak için kullanılabilen yapısal motifleri tanımlamak için "eğitim" gerektirir. Bununla birlikte, eğitim verileri genellikle mod için geçerlidirEl organizmaları ve eğitimli gizli Markov modelleri (HMM), biyologların ve hatta birçok biyoinformatikçinin dışındadır. Son olarak, model organizmaların verilerini kullanarak ek açıklama yapılabilse bile, model organizmalarla ilişkili bazı gen ontolojileri, yetersiz organizmanın biyolojisi ve doğal tarihi dikkate alındığında ( örneğin , Drosophila'dan karidese bilgi aktarma) mantıklı değil.

Bu güçlüklerin ışığında, özellikle de akılda kalan, yetersiz organizmalar üzerine yeni analizler yapan araştırmacılar ile biyoenformatik kaynakların geliştirilmesi gerekmektedir. Önümüzdeki birkaç yıl sürecek fonksiyonel genomik sıralama projeleri, model ve eksik organizmalar arasındaki boşluğu kapatmaya yardımcı olacaktır ( https://genome10k.soe.ucsc.edu/ ), ancak zorlukları çözmek için geliştirilmesi gereken birçok araç bulunmaktadır Yukarıda düşünülmüş. CyVerse, i ekosistemlerini yaratmaya adamıştırVeri yönetimini, biyoinformatik analiz araçlarını ve veri görselleştirmelerini yaşam bilimcilerine sunmak için varolan siyasal altyapıyı ve üçüncü parti uygulamalarını birbirine bağlayarak kullanılabilirlik. Birlikte çalışabilirlik, ölçeklenebilir hesaplama kaynakları sağlayarak ve dosya biçimi dönüşümlerini ve platformlar arasında aktarılan veri miktarını sınırlayarak biyoinformatik uygulamalar ve platformlar arasındaki geçişlerin düzelmesine yardımcı olur. CyVerse, Discovery Environment (DE 4 , Atmosfer 5 ve Veri Deposu 3 de dahil olmak üzere çeşitli platformlar sunmaktadır. DE, web tabanlı ve kullanıcı dostu "point-and-click" formatlarına ("uygulamalar" olarak adlandırılan birçok biyoinformatik analitik araçlara sahiptir) sahiptir ") Ve büyük veri kümelerinin ( yani, ham dizilim okumaları, bir araya getirilmiş genomların) depolandığı ve yönetildiği Data Store için grafiksel kullanıcı arabirimidir (GUI). Atmosfer, araştırmacılara yüksek esneklik sağlayan bulut bilgi işlem hizmetidir.Önceden kurulmuş geniş bir biyoinformatik araçlara sahip olan Sanal Makine hesaplama kaynakları kullanılarak. Bu platformların her ikisi de Veri Deposu'na bağlıdır ve burada açıklanan gibi iş akışları oluşturmak için birlikte kullanılabilir. Bu rapor de novo transkriptom montajı ve diferansiyel gen ekspresyon analiz çalışma akışları üzerine odaklanır ve ayrıca biyoinformatik analizler geliştirme ve yürütme ile ilgili bazı en iyi uygulamalara değinir. CyVerse'ın daha geniş görevine ( http://www.cyverse.org/about ) ve ayrıntılı platform açıklamalarına ( http://www.cyverse.org/learning-center ) ilişkin açıklama halka açıktır. Burada açıklanan tüm analizler Discovery Environment 4 (DE) ve Atmosfer 5'i kullanır ve araştırmacıların tüm hesaplama düzeyleri için onları erişilebilir kılacak şekilde sunulur. DE iş akışları ve AtmosferUzun vadeli provenance, tekrar kullanılabilirlik ve tekrarlanabilirlik sağlamak için resimlere doğrudan URL'ler kullanılarak başvurulabilir.

Protocol

NOT: Genel protokol, adım 1.2'de oluşturulan ve adlandırılacak klasörlere göre numaralandırılmıştır ( Şekil 1 ve 2 ). Bu protokol standart bir karşılaştırmalı de novo transkriptom analizini temsil eder ve burada ayrıntılandırılan her adım, tüm araştırmacılar için gerekli olmayabilir. Bu iş akışı ayrıca, tüm ek dosyaları ve her bir analiz paketi için üçüncü parti geliştiricilerin belgelerine bağlantılar içeren tamamlayıcı bir öğretici wiki üzerinde kapsamlı olarak belgelenmiştir ( Tablo 1 ). Bu bilgiye kolay erişim için bu materyalin linkleri bu protokol boyunca yer alacaktır. En iyi uygulamalar, görevleri yerine getirmenin en iyi yoludur veya kullanıcıların göz önüne alması için öneriler olarak kullanıcılara sağlanan notlardır ve protokoldeki notlarla iletilir. Örnek veri girişi ve analitik çıktı klasörü kullanıcıların herkese açıktır ve protokolde önerildiği şekilde organize edilmiştir ( de novo </Em> transkriptom montajı ve analizi. 1. Projeyi kurun, Raw Sequencing Okumalarını Yükle ve FastQC'yi Kullanarak Okunan Değerlendirmeleri Değerlendirin Atmosfer ve Keşif Ortamına erişin. Kayıt sayfasına giderek ücretsiz bir CyVerse hesabı isteyin ( örn. Person@institution.edu). Gerekli bilgileri doldurun ve gönderin. Ana web sayfasına gidin (http://www.cyverse.org/) ve en üstteki araç çubuğunda "Oturum Aç" ı seçin. "Cyverse Login" seçeneğini seçin ve CyVerse kimlik bilgilerinizi kullanarak oturum açın. Uygulamalar ve Hizmetler sekmesine gidin ve Atmosfer'e erişim isteğinde bulunun. Discovery Environment'a otomatik olarak erişim sağlanır. Projeyi kurun ve verileri Veri Deposuna taşıyın. Keşif Ortamında oturum açın (https://de.iplantcollaborative.org/de). Veri Deposundaki tüm klasörleri içeren bir menüyü getirmek için "Veri" sekmesini seçin. </li> Projeyle ilişkili tüm verileri barındıracak bir ana proje klasörü oluşturun. Veri penceresinin üst kısmındaki araç çubuğunu bulun ve Dosya | Yeni dosya. Klasör adlarında veya herhangi bir giriş / çıkış dosya adında boşluklar veya özel karakterler kullanmayın, örn. "! @ # () [] {}:; $% ^ & *." Bunun yerine, alt çizgi veya kısa çizgi kullanın, yani uygun olduğunda "-" veya "-". Analizleri organize etmek için ana proje klasörü içinde beş klasör oluşturun ( Şekil 1 ). "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly" gibi virgül veya tırnak işaretleri olmadan aşağıdaki gibi klasörlere ad verin. Alt klasörler bu ana proje klasörlerinin her birine yerleştirilecektir ( Şekil 2 ). şekil1: Proje Klasör Kuruluşu ve De Novo Transcriptome Assembly ve Analiz İş Akışına Genel Bir Bakış. Kullanıcılar, ham dizileme okumalarını Veri Deposu'ndaki ana proje klasörüne yükleyecek ve sonra her adımın sonuçlarını ayrı klasörlere yerleştirilecektir. Bu rakamın daha büyük bir versiyonunu görmek için lütfen tıklayınız. Şekil 2: De Novo Transcriptome Montajı ve CyVerse Siber Altyapısı İçerisinde Oluşan Analiz İş Akışına Ayrıntılı Bir Bakış. Tüm montaj ve analiz iş akışı, her biri kendi klasörünü alan beş basamakta tamamlanacaktır (kalın, numaralı klasör simgeleri). Beş numaralı iş akışı adım klasörünün her birinde, biyoinformatik analizlerden çıkan çıktı dosyalarını içeren alt klasörler bulunur (klasörsimgeler). Analiz girdileri bir alt klasöre gelir ve daha sonra bir analiz programının çıktısıyla (dikdörtgen kutular) başka bir klasöre taşınır. İlk üç basamaktan elde edilen nihai veriler karşılaştırılarak yayınlanmak üzere hazırlanmıştır. Sonuçta, bu düzen, ortak çalışanlar ve / veya el yazması gözden geçirenleri için hızlı bir şekilde iş akışını anlayabilen ve gerekirse her dosyayı kullanarak tekrarlayabilen aşamalı bir analizi olan bir ana proje klasörü üretir. Bu rakamın daha büyük bir versiyonunu görmek için lütfen tıklayınız. Ham FASTQ dizisi dosyalarını "1_Raw_Sequence" klasörüne aşağıdaki üç yöntemden birini kullanarak "A_Raw_Reads" başlıklı bir alt klasöre yükleyin. Ana DE masaüstündeki veri düğmesine tıklayarak Veri penceresi araç çubuğuna gitmek için Veri Deposu basit yükleme özelliğini kullanın ve Yükle | Masaüstünden Basit Yükleme. Gözat düğmesini seçinYerel bilgisayardaki çiğ FASTQ sıralama dosyalarına gidin. Bu yöntem yalnızca 2 GB'ın altındaki dosyalar için uygundur. Yüklemeyi göndermek için ekranın altındaki Yükle düğmesini seçin. Yükleme işleminin gönderildiğini bildiren çan simgesinde DE'nin sağ üst köşesinde bir bildirim kayıt olur. Yükleme tamamlandığında başka bir bildirim kayıt olur. Alternatif olarak, daha büyük dosyalar aktarmak için Cyberduck'u kullanın (https://wiki.cyverse.org/wiki/x/pYcVAQ). Cyberduck'u yükleyin ve sonra yerel bilgisayarın masaüstünde bir program olarak çalıştırın. Son olarak iCommand'ları indirip talimatlara göre yerel bilgisayara kurun (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). DE'de FastQC uygulamasını kullanarak yüklenen, ham sıralamayı değerlendirin. DE'deki mevcut tüm analiz uygulamalarını içeren bir pencere açmak için ana DE masaüstündeki "Uygulamalar" düğmesini seçin. Arayın ve kazanın açınPenceresinin üst kısmındaki arama araç çubuğunda FastQC aracı için tıklayın. Birden fazla FASTQ dosyası varsa, çoklu dosya sürümünü açın. Dosya Seç | Yeni Klasör "B_FastQC_Raw_Reads" adlı bir klasör oluşturmak ve bu klasörü çıktı klasörü olarak seçin. FASTQ okuma dosyalarını "Giriş verisini seç" adlı araç penceresine yükleyin ve "Analiz Başlat" ı seçin. Analiz tamamlandıktan sonra sonuçları görüntülemek için .html veya .pdf dosyasını açın. FastQC, okunan dosyaların farklı yönlerini test eden birkaç analiz yürütür ( Şekil 3 ). 2. Trim ve Quality Filter Raw, Yüksek Kalite Sırasını Veriyor Okur Not: Trimmatik veya Sickle uygulamasını kullanın. DE'de programlanabilir Trimmatic uygulamasını arayın ve daha önce olduğu gibi açın. Ham FASTQ okuma dosyalarının klasörünü "Ayarlar" bölümüne yükleyin. Seçilip seçilmeyeceğini seçinKeşif dosyaları tek veya çift-uçludur. Gözat düğmesini seçerek ve / iplant / home / shared / Trinity_transdecoder_trinotate_databases dosyalarını "Görüntüleme:" kutusuna yapıştırarak standart denetim dosyasını kullanın. Trimmomaticv0.33_control_file adlı dosyayı seçin ve analizin başlatın. Dosya indirilebilir, ayarlar düzenlenebilir ve sonra özel bir düzeltme komut dosyası oluşturmak için ikinci proje klasörüne yüklenebilir. İsteğe bağlı: FastQC analizi bağdaştırıcı dizilerini belirlediyse, Illumina bağdaştırıcılarını kesmek için ILLUMINACLIP ayarını kullanın. Yukarıdaki gibi, / iplant / home / shared / Trinity_transdecoder_trinotate_databases klasöründe uygun bağdaştırıcı dosyasını seçin. Kalite düzeltme sırası Orak kullanarak okur. DE'de orak uygulamasını arayıp açın. Kırpılmış FASTQ okumalarını girdi okumaları olarak seçin ve çıktı dosyalarını yeniden adlandırın. Seçeneklere kalite ayarlarını ekleyin. Tipik ayarlar Kalite formatıdır: illumina, sanger, solexa; Kalite tEşik: 20; Minimum uzunluk: 50 Tüm çıktıyı kesilmiş ve filtrelenmiş klasöre taşıyın (2_High_Quality_Sequence). Son okumaları FastQC kullanarak değerlendirin ve önceki FastQC raporlarıyla karşılaştırın. Tüm sonuçların bir web sayfasını getirmek için .html dosyasını seçin. Görüntülenemiyorsa çıkışta sağlanan resim dosyalarının (.png) klasörünü seçin. 3. De Novo Transcriptome Montajı Atmosferde Trinity Kullanımı Atmosfer örneğinin en güncel sürümünü açın, wiki sayfasına gidin (https://wiki.cyverse.org/wiki/x/dgGtAQ). Trinity ve Trinotate görüntüsünün en son sürümünün bağlantısını seçin. Alternatif olarak, Trinity ve Trinotate görüntülerinin tüm sürümlerini ortaya çıkarmak için Atmosfer görüntüsü arama aracındaki ("Trinotate") arama yapın (https://atmo.iplantcollaborative.org/application/images). "Başlatmak için giriş" düğmesini seçin ve sonra Atmosfer i adını seçin.nstance. "Medium3" (CPU: 4, Mem: 32GB) veya "large3" (CPU: 8, Mem: 64 GB) örnek boyutunu seçin. Örneği başlatın ve oluşturulmasını bekleyin. Bazı nadir durumlarda, CyVerse platformları güncellemek için bakıma tabi tutulur. Mevcut örnekler bu güncellemeler sırasında kullanılabilir, ancak yeni örnekler oluşturmak mümkün olmayabilir. Herhangi bir platformun mevcut durumunu görmek için CyVerse Durumu sayfasını ziyaret edin (http://status.cyverse.org/). Adı hazır hale getirdikten sonra örneği açın ve ardından sağdaki menü altındaki "Uzak Masaüstü" nü seçerek örneği açın. İstenirse, Java ve VNC Görüntüleyiciye izin verin. VNC Görüntüleyici penceresinde "Bağlan" düğmesini seçin ve ardından "Devam" ı seçin. Yeni bulut bilgi işlem örneği olacak ayrı bir pencere açmak için giriş yapın. Kırpılmış ve / veya filtrelenmiş FASTQ okuma dosyalarını, adım 1.3.1 – 1.3.4'te açıklanan üç yöntemden birini kullanarak örneğe taşıyın. BizeE DE'ye erişmek ve daha önce olduğu gibi yerel bilgisayarda dosyaları indirmek için İnternet tarayıcısı. Veya büyük veri setlerini hızlı bir şekilde aktarmak için bu görüntülere yüklenen iCommand'ları kullanın. Yüksek kaliteli okumaları birleştirmek için Trinity'yi çalıştırmak. Atmosfer örneğinde analiz klasörünü kurun. DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) komut dosyasını kullanın veya komutları kopyalayıp wiki sayfasından yapıştırın (https://wiki.cyverse.org/wiki/x/dgGtAQ). Tüm komutların açıklamaları wiki sayfasında bulunabilir. Analiz klasörü ve Trinotate veritabanları kurulduktan sonra, yukarıdaki komutları kullanarak Trinity assembler'ı çalıştırın. Birkaç çıktı dosyası vardır, ancak en önemlisi "Trinity.fasta" başlıklı son montaj dosyasındadır. Bu FASTA dosyasını, olası karışıklığı en aza indirgemek için, Veri Deposuna (klasör 3_Assembly) taşımadan önce, birleştirilmiş okun organizmasına ve tedavisine benzemek üzere yeniden adlandırın. NOT: Çıktı, diferansiyel gen ekspresyon analizi için tabloları bir klasöre sayar (4_Differential_Expression). Montajı rnaQUAST kullanarak değerlendirin ( Şekil 4 ). Trinity çıktı dosyalarını DE'deki "3_Assembly" klasörüne taşıyın ve "A_Trinity_de_novo_assembly" klasörünü etiketleyin. "A_Trinity_de_novo_assembly" klasöründe bir alt klasör oluşturan her bir transkriptoma, her bir transkriptom ile ilişkili organizmaların ve tedavilerin bilimsel adı da dahil olmak üzere benzersiz isimler verin. "3_Assembly klasöründe" "B_rnaQUAST_Output" adlı başka bir alt klasör oluşturun. "RnaQUAST 1.2.0 (denovo based)" başlıklı uygulamayı açın ve analizin adını ve çıktı klasörü olarak "B_rnaQUAST_Output" u seçin. De novo montaj FASTA dosyalarını "Veri Girişi" bölümüne ekleyin. "Veri Çıkışı" bölümünde , de novo için benzersiz bir ad yazın </eM> montajı. Bu, "B_rnaQUAST_Output" klasörü içinde rnaQUAST çıktı dosyaları klasörü oluşturacaktır. "GenemarkS-T Gen Öngörü", "BUSCO" ve "Parametreler" bölümlerinde ek seçenekler seçin. Organizma ökaryotik değilse "GenemarkS-T Gen Öngörü" bölümünde prokaryot seçin. Gözat düğmesini seçmek için BUSCO'yu çalıştırın ve iplant / home / paylaşılan / iplantcollaborative / example_data / BUSCO.sample.data yolunu "Viewing:" kutusuna kopyalayın ve enter tuşuna basın. Organizma için kullanılabilen en spesifik BUSCO klasörünü seçin. NOT: BUSCO, soylara özgü çekirdek genleri için derlemeyi değerlendirecek ve çekirdek genlerin yüzde kaçının çıktı olduğunu çıktı. Ökaryot gibi genel klasörler ve artropod gibi daha spesifik soylar vardır. "Transkript dekoder" araması yapın ve de Transdecoder programını çalıştırınO Keşif Ortamında Trinity derleme çıktısı FASTA dosyası. Çıktı. Pep dosyasını adım 5 Ek Açıklamada kullanmak üzere de novo assembly (3_Assembly) klasörüne taşıyın. 4. DE'de DESeq2'yi kullanarak Eşanlı Diferansiyel Anlatım DESeq2 uygulamasını daha önce açıklandığı gibi DE'de açın. Analizata bir ad verin ve çıktı klasörünü 4_Differential_Expression olarak seçin. "Girişler" bölümünde, Trinity derlemesinin çalıştırılmasından gelen sayımlar tablosu dosyasını ve contig adlarının bu sayımlar tablosunda bulunabileceği sütunu seçin. Hangi sütunların karşılaştırıldığını belirlemek için sayaçlar veri tablosu dosyasından sütun başlıklarını girin. Koşulların her biri arasındaki virgülleri ekleyin. Contig adlarını içeren ilk sütun başlığını eklemeyin. Tekrarlamalar için aynı adı tekrarlayın ( örneğin , Tedavi1rep1, Tedavi1rep2, Tedavi1rep3, Tedavi1, Tedavi1, Tedavi1 olur). InciE ikinci satırda, karşılaştırılacak iki koşulun adlarını belirtin ( ör. , Tedavi1, Tedavi2). İlk satırda sağlanan sütun başlık adlarını eşleştirin. NOT: Bu sütun başlıkları alfanümerik olmalı ve herhangi bir özel karakter içermemelidir. 5. Trinotate'i Kullanarak Ek Açıklama Atmosfer cloud computing örneğinde Trinotate'in her parçasını çalıştırın. Not: Bash komutları, DE (/ iplant / home / paylaşılan / Trinity_transdecoder_trinotate_databases) ya da wiki sayfasında (https://wiki.cyverse.org/) çalıştırılmadan önce kopyalanacak, yapıştırılan ve sonra değiştirilecek bir txt dosyasında sağlanmaktadır. wiki / x / dgGtAQ). Birden çok derlemeye açıklama yapılıyorsa, her derlemeye birer birer açıklama ve daha sonra tamamlanmış ek açıklamalar dosyalarını derleme adıyla ilişkili benzersiz bir klasörle "5_Annotation" klasörüne geri gönderin. Üçleme transkriptlerini aramak için bash komutunu çalıştırın. İş parçacığının sayısını kaç CPU'nun eşleştiğine göre değiştirinÖrneğinde orta, 4 CPU, büyük CPU 8'dir. Daha fazla bilgi için adım 3.1.2'ye bakın. Derleme Trinity.fasta komutu, derleme FASTA dosya adı eşleşecek şekilde değiştirin. NOT: BLAST + aramaları için en fazla zaman gerekir. Tamamlanmadan günler önce olabilir. Bulut bilgisayarının etkinliği Atmosfer'de VNC Görüntüleyici'yi açmaya gerek kalmadan kontrol edilebilir. Transdecoder tarafından tahmin edilen proteinleri aramak için bash komutunu çalıştırın. Daha önce olduğu gibi, 5.2.1'deki koşullarla eşleşecek şekilde ipliklerin sayısını ve dosya adını değiştirin. HMMER için bash komutunu çalıştırın ve iş parçacığı sayısını yukarıdaki gibi değiştirin. Gerekirse signalP ve tmHMM için bash komutunu çalıştırın. SignalP sinyal peptidlerini öngörür ve tmHMM, transmembran protein motiflerini öngörür. Sonuçlar SQLite veritabanına yükleniyor Yukarıdaki analizlerin tamamı tamamlandıktan sonra çıktı dosyalarını son bir SQLite açıklama veritabanına yüklemek için bash komutunu çalıştırın. Komutları kaldırÇalışmayan analizler için. Popüler tablo görüntüleyicilerinde izlemek için SQLite veritabanını bir .xls dosyasına aktarın.

Representative Results

Proje organizasyon dosyaları oluşturulduktan sonra ( Şekil 1 ve 2 ), bu iş akışındaki ilk görev, ham sıralama dosyalarını değerlendirmek ve daha sonra onları kırpma ve kalite filtreleme yoluyla temizlemektir. FastQC, kalite puanları ve dizilerin uzunluğu hakkında FASTQ dosya formatından okunabilir özet istatistikler üretecektir. FastQC rakamları daha sonra nihai okumaların yüksek kalitede olup olmadığını ve bu nedenle montaj için uygun olup olmadığını değerlendirmek için düzeltmeden önce ve sonra karşılaştırılır. "Temel dizi başına kalite", her bir temel sıralama dizisindeki okumaların ortalama kalitesini gösterir. FastQC rakamlarındaki renklerle gösterilen 20-28'in üzerinde bir phred kalitesi skorunun olması en iyisidir. "Sıralı kalite puanı", okumaların kalite filtrelemesinin gerekli olup olmayacağını belirler. Birden çok okuma, 20-25'in altında bir ortalama puana sahipse, ortalama okuma kalitesine göre filtreleme yapmak gerekebilir. "Temel dizi başına içerik" her dört nükleotit baz boyunca eşit bir dağılım göstermelidir. Nükleotid içeriğinde bir önyargı varsa, kesme uçları gerekli olabilir. "Taban bazında GC içeriği aynı zamanda tüm pozisyonlar arasında da olmalıdır. Bir salınım varsa, okunmanın 1.4.4.3'te olduğu gibi düzeltilmesi gerekebilir:" Sekans GC içeriği başına "normal bir dağılım olmalıdır Adaptör veya polimeraz zincir reaksiyonu (PCR ) Ürünleri sıralama kitaplığındaki kontaminasyona neden olabilir ve normal dağılım eğriltir Bu durumda adaptör düzeltme gerekebilir "Sıra uzunluğu dağılımı" tüm okumaların ortalama uzunluklarını verir 35-45 baz çiftinden küçük okunanlar genellikle filtrelenir. "Sıra çoğaltma seviyeleri" belirli bir okunan dizinin kütüphanede kaç kez göründüğünü gösterir.Yüksek derecede çoğaltılmış okuma sırası ve sayısı "Aşırı gösterilen diziler" bölümünde sağlanır.FastQC ayrıca çoğaltılan okunmalarınBağdaştırıcı dizisi veya sıralama platformlarıyla ilişkili bilinen diğer dizilerdir. "Vurma Yok" etiketi, biyolojik açıdan alakalı bir dizi olup olmadığını veya çıkarılması gerekip gerekmediğini belirlemek için dizinin NCBI BLAST 6 kullanılarak daha fazla araştırılması gerektiği anlamına gelir. DE de çeşitli BLAST sürümlerine sahiptir. DE BLASTn uygulaması https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d adresinden edinilebilir . Ham dizilemenin yüksek kaliteli okumalar üretmek üzere taranmasından sonra, bitişik diziler (kontigler) oluşturmak için okunması gerekiyor. Özetle, meclisler benzer kısa dizileri bulmak için kısa dizi okumalarını hizalayarak yaratılır. Benzer sekansın belirli bir uzunluktan daha büyük olduğu alanlar sa olarak kabul edilirÇünkü belirli bir uzunluğa rastgele benzer bir dizi oluşma ihtimali neredeyse sıfırdır. Trinity, montaj işlemindeki her adım için günlük dosyaları, fasta dosyaları çıkartacaktır. Bununla birlikte, en önemli çıktı, "Trinity.fasta" etiketli ve ana klasörde bulunan contigs'leri içeren nihai montaj dosyasıdır. Bu dosya, bütün monte edilmiş kontigleri içeriyor ve kendi içinde "insan tarafından okunabilir" değildir. Bu nedenle, rnaQUAST aracı derlemeyi daha derinde anlamak için kullanılabilir. RnaQUAST aracı, kullanıcıların hangilerinin en eksiksiz olduğunu belirlemek için meclisleri karşılaştırmalarına olanak tanıyan rakamlar çıktılar ( Şekil 4 ). RnaQUAST'tan her bir figür hakkında ek bilgi wiki'de bulunabilir ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). BUSCO 7 çalıştırıldıysa, komple ve p sayısını gösteren specificity.txt dosyası özellikle önemlidir.Artial BUSCO genleri ve bir montajdaki GeneMarkS-T geni tahminlerinin sayısı. BUSCO genleri, bir grup organizmaya özgü kürlenmiş bir gen setidir. Bunlar, bir derlemenin, herhangi bir organizma türünde mevcut olması beklenen, soyoluşsal sınıflamaya dayanan gen setlerini ne kadar iyi yakaladığını değerlendirmek için kullanılabilirler. Bağımsız bir BUSCO uygulaması DE'de de mevcuttur ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). Diferansiyel gen ekspresyon analizi, birleştirilen transkript tablolarına göre basit sayılardan tedaviler arasında farklı ifade şekillerine sahip transkriptleri tanımlar. DESeq2, normalleştirilmiş bir ortalamadan gelen değişimi belirlemek için genelleştirilmiş bir doğrusal modeli (GLM) kullanır. Kopyalama deneyleri tercih edilir, böylece teknik farklılık frOm sıralaması DESeq2 algoritması ile normalize edilebilir. DESeq2 DEG analizi, tüm çıktı rakamlarını ve bir açıklamayı içeren bir .html rapor dosyası ve şekil verir. Alternatif olarak DESeq2 yerine EdgeR kullanılabilir ve aynı .html raporu EdgeR görselleştirme ile oluşturulur. Araştırmacılar, herhangi bir deney için her iki algoritma tarafından tanımlanan farklı olarak eksprese edilen genleri bulmak için hem DESeq2 hem de EdgeR'yi çalıştırmayı isteyebilir. Trinotate, herhangi bir elektronik tablo yazılım programında açılacak bir çıktı .xls dosyası oluşturacaktır. DEG .txt dosyaları ve ek açıklama .xls dosyası, CyVerse platformunun dışında bulunan sayısız aşağı akışlı uygulamalarda analiz edilebilir ve görselleştirilebilir. Şekil 3: Fast Sequencing Reads, Trimmed Reads ve Final Trimmed and Filtered Reads için FastQC Raporları. Sıralı okumanın sistematik karşılaştırmasıHer pre-processing adımından sonra. De novo transkriptomları birleştirmek için yüksek kaliteli okumalar gereklidir. FastQC, araştırmacılara, sıralamadaki verilerin başlangıç ​​kalitesini anlamalarını ve okumaların ne kadar verimli şekilde işlendiğini izlemelerine yardımcı olabilir. FastQC'den elde edilen sonuçlar, organizmaların ve örneklerin dizilenmesine bağlı olacaktır, ancak, aşağı akışla karşılaştırılacak olan tüm örnekler arasındaki tekdüzelik, ön işleme okumalarının ana hedefidir. Bir öğretici video ve dokümantasyon, FastQC yazarları ve geliştiricileri tarafından sağlanmaktadır. Bu rakamın daha büyük bir versiyonunu görmek için lütfen tıklayınız. Şekil 4: Üç Ayrı Meclisin rnaQUAST Raporları. RnaQUAST, aynı derleyiciyi kullanarak birden çok okunan derlemeyi karşılaştırmak için kullanılabilir; Aynı başlangıç ​​okuma kullanan yazarlar. RnaQUAST, taksonomik sınıflarda bulunan bilinen çekirdek genlere dayalı olarak meclisler hakkında özet istatistikleri oluşturmak için BUSCO'yu kullanır. Transkript başına uyuşmazlıkların sayısı ve kaç transkriptin kanonik genlere uyduğu, eşleşen fraksiyon, montajcıların doğruluğuna dair fikir verir. Burada sunulan son dört alt çizim, kontig ve izoform uzunluğunun ve beklenen izoformların kapsamının özet istatistiklerini vermektedir. NAx, y ekseni üzerindeki uzunluğundan (bp) daha uzun olan kontiglerin yüzdesini (x) temsil eder. Birleştirilmiş fraksiyon, uzunluğuna bölünen en uzun en iyi tekli kopyadır. Kapalı fraksiyon, BUSCO'dan çekirdek prokaryotik veya ökaryotik genler tarafından beklendiği gibi, tam monte edilmiş transkriptlerin / izoformların yüzdesidir. RnaQUAST tarafından üretilen tüm grafikler için bir açıklama mevcuttur ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Bu rakamın daha büyük bir versiyonunu görmek için lütfen tıklayınız. Uygulama ismi CyVerse Platformu Üçüncü Taraf Belgeleri CyVerse Belgeleri Örnek Veri Kümesi için Tahmini Çalışma Zamanı Uygulamaya Bağlantı FastQC DE http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 dakika https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 112b9aa8-c4a7-11e5-8209- 5f3310948295 Trimmatik v0.33 DE https://github.com/timflutre/trimmomatic https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33 30 dk https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 9c2a30dc-028d- 11e6-A915-ab4311791e69 Orak DE https://github.com/najoshi/sickle https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 dk https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 68b278f8-d4d6-414d-9a64-b685a7714f7c üçlü Atmosfer https://github.com/trinityrnaseq/trinityrnaseq/wiki https: //pods.iplantcollaborative. org / wiki / ekran / atmman / Trinity + – + Trinotate + Atmosfer + Resim 1 hafta https: //atmo.iplantcollaborative. org / uygulama / images / 1261 DE https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 gün https: // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, Atmosfer http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https: //pods.iplantcollaborative. org / wiki / görüntü / TUT / rnaQUAST + 1.2.0 +% 28denovo + tabanlı +% DE kullanılarak 29 + 30 dk https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 980dd11a-1666- 11e6-9122-930 ba8f23352 Transdecoder DE https://transdecoder.github.io https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 saat https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE https://bioconductor.org/packages/release/bioc/html/DESeq2.html https: //pods.iplantcollaborative. org / wiki / sayfalar /viewpage.action? pageID = 28115142 2-3 saat https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 Edger DE https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 saat https: //de.iplantcollaborative. org / de /? type = uygulamalar ve uygulama kimliği = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 Trinotate Atmosfer https://trinotate.github.io/ https: //pods.iplantcollaborative. org / wiki / ekran / atmman / Trinity + – + Trinotate + Atmosfer + Resim 1 hafta https: //atmo.iplantcollaborative. org / uygulama / images / 1261 Tablo 1: Analiz Programları, Bulundukları Platformlar, aNd İlk Olarak Görünen İş Akışı için Kullanılabilecek Ek Kaynaklar. Tüm Paket sürümleri Nisan 2016 itibarıyla geçerlidir.

Discussion

Protokolde, ana proje klasörü içerisinde kendi ayrı klasörlerini oluşturacak beş önemli adım vardır ( Şekil 1 ve 2 ). Birincil ham sıralama verisinin tümü gizli tutulmuştur: "1_Raw_Sequence" etiketli ilk klasöre yüklenmeli ve tutulmamalı ve hiçbir şekilde değiştirilmemelidir. Veriler üç yoldan biriyle yüklenebilir. DE arabirimi dosyaları doğrudan yüklemek için kullanılabilir. Bu, veri yüklemenin en kolay yoludur, ancak aktarımın en uzun sürer. Cyberduck grafiksel bir arayüze sahiptir ve kullanıcıların DE'ye aktarmak için dosyaları sürükleyip bırakmasına olanak tanır. ICommands, Veri Deposuna ve Veri Deposuna veri aktarmak, dizinleri oluşturmak ve veri kümelerini yönetmek için kullanılabilen ve muhtemelen veri dosyalarını aktarmanın en hızlı yoludur kullanılan bir komut satırı aracıdır. Veri Deposundaki tüm veriler diğer CyVerse kullanıcılarıyla paylaşılabilir (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment) tarafından oluşturulan, oluşturulan bir URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) aracılığıyla kamuya açık veya kamuya açık ve anonim olarak barındırabilir Kullanıcı adı gerekmez) mevcut topluluk verileri (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Bu klasörün içinde, ham sıra okumaları, yüksek kaliteli okumalar üretmek için okumaların nasıl kırpılacağını ve filtrelendiğini değerlendirmek için FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) ile analiz edilir. Kırpma ve kalite filtrelemesinden sonra, bilgi kaybetmeden daha iyi hale geldiğini belirlemek için okuma kalitesinin değişip değişmediğini belirlemek için FastQC çıktılarını karşılaştırmak yararlıdır ( Şekil 3 ). FastQC'nin x ekseni doğrusal değil, sonuçların yanlış yorumlanmasına yol açabilecek çok sayıda çıktı grafiği için binelenmiştir. Ardından, kesilmiş ve filtrelenmiş okumalar, bir Atmosfer cloud computing örneği kullanılarak de novo transkriptomları bir araya getirmek için kullanılır. BuBulut bilgisayarı yerel bilgisayar ekranını, klavyesini ve faresini kullanır, ancak kendi yazılımı (Trinity ve Trinotate) ve donanımları vardır. Bulut bilgisayar örneğinde çalışan programlar yerel bilgisayarı hiçbir şekilde etkilemez. De novo montaj ve aşağı akış notasyonu büyük olasılıkla bu iş akışında en uzun iki adım. Bu nedenle, analizin kesintileri gibi kesintiye uğramasına, geceleri otomatik olarak yapılan güncellemelerden sonra yeniden başlatılmasına veya diğer kullanıcıların neden olduğu çökmelere neden olabilecek ortak laboratuvar paylaşımlı bilgisayar sorunlarından kaçınmak için Atmosphere'de tamamlanmışlardır. Trinotasyon notu, BLAST + 8 , HMMER 9 , tmHMM 10 ve PFAM 11'i kullanır. Ek açıklamanın nihai çıktısı bir SQLite veritabanı ve .xls dosyasıdır. Çıktılar, KEGG 12 , 13 gibi aşağı akış analiz platformlarında CyVerse dışında kullanılabilir.

Bu iş akışıDE ve Atmosfer'de kullanıma hazırdır. Bu, her bir analiz paketini ve her aracın gerektirdiği tüm bağımlılıkları yükleme, yapılandırma ve sorun giderme konularında zaman harcamanıza gerek yoktur. Bu, araştırmacıların analizlerini düzene sokar, boşa harcanmış çabayı en aza indirir ve birçok bilimadamının giriş engeli düşürür. Bu iş akışı, özellikle Illumina sıralama platformundan tek veya çiftli uçları bir araya getirir ancak DE ve Atmosfer'de başka çeşit sıralama teknolojileri ile başa çıkmak için birçok araç bulunmaktadır. Bu iş akışındaki araçlar, her türden gelen sıralama teknolojisini kullanmak için kolayca değiştirilebilen bir alternatif araçla değiştirilebilir. Bu, analiz araçlarının yeni sürümleri veya tamamen yeni araçlar için de geçerlidir.

Bu iş akışı, aynı anda yalnızca birkaç transkriptomu birleştirmek, karşılaştırmak ve açıklama yapmak için özel olarak tasarlanmıştır. Bu nedenle, kullanıcılar, karşılaştırmalı popülasyon genetiği için birden fazla transkriptom takmak zaman alır bulabilir. analizYakın gelecekte nüfus genetiği kullanıcılarına boru hatları hazır olacak ve boru hattına bağlantı wiki sayfasında bulunabilir (https://wiki.cyverse.org/wiki/x/dgGtAQ). Diferansiyel gen ekspresyonu analiz aşaması çoğalmaları işleyebilir, ancak çiftli bir karşılaştırmadır ve birden çok faktörü doğru bir şekilde değerlendirmez ( örn. , Zamanla değişen koşullar, ikiden fazla muamele). Referans genomları olan organizmalar için otomatik iş akışları mevcuttur ( örneğin , TRAPLINE 14 ). Otomatikleştirilmiş iş akışları acemiler için en kolay yöntem olmasına rağmen, yeni kurulumlar burada özetlenen her adım için değerlendirme ve değerlendirme gerektirir. Ek olarak, kullanıcılar otomatik boru hatlarını inşa ettikleri gibi kullanmaları gerekmekte ve bu nedenle kullanıcıların değişen taleplerini karşılamak için esnek değildirler.

Bu protokolün çoğu İnternet üzerinden gerçekleştirildiğinden, kullanıcılar tarayıcı ayarlarında sıkıntı yaşayabilir. Birinci olarak,Açılır pencere engelleyicileri, pencerelerin açılmasını önleyebilir veya tarayıcıda CyVerse'a izin verilene kadar pencerelerin açılmasını engelleyebilir. Atmosfer, uzak masaüstlerine erişmek için VNC'yi kullanır, ancak diğer yazılımlar kullanılabilir. Bu protokolün tamamı Firefox sürüm 45.0.2'de yapıldı ve tüm popüler İnternet tarayıcılarıyla çalışmalıdır, ancak bazı tutarsızlıklar görülebilir. İş akışı, Trinity yeni sürümler yayınladığında güncellenecektir (https://github.com/trinityrnaseq/trinityrnaseq/wiki). İş akışıyla ilgili en yeni sürümler ve güncel bilgiler wiki eğitim sayfasında bulunabilir ( Tablo 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Kullanıcılar iş akışıyla ilgili sorunları çözmek için Ask for CyVerse (ask.cyverse.org/) adresine doğrudan destek başvurusunda bulunabilir veya soru gönderebilir.

DE'de bu protokolün her adımını gerçekleştirmek için birçok uygulama var. Örneğin, kullanıcılar Trimmatic yerine Scythe'i (https://github.com/najoshi/sickle) çalıştırmayı isteyebilirler15 okuma düzeltme veya DESeq 17 , 18 yerine EdgeR 16 çalıştırın. Bu el yazması eserinin dışındaki DE uygulamaları, kullanıcılar tarafından kopyalanabilir, düzenlenebilir ve serbest bırakılabilir (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) veya yeni uygulamalar eklenebilir (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Atmosfer görüntüleri, kullanıcıların ihtiyaçlarına daha özel uyacak şekilde yeni veya değiştirilmiş iş akışları oluşturmak üzere yeniden düzenlenebilir veya yeniden oluşturulabilir (https://wiki.cyverse.org/wiki/x/TwHX). Bu çalışma, verileri taşımak ve analizleri yürütmek için komut satırından yararlanma girişini sağlar. Kullanıcılar, CyVerse uygulama programlama arabirimleri (API) (http://www.cyverse.org/science-apis) gibi daha gelişmiş komut satırı kaynaklarını kullanmayı veya bilgi isteyen kendi DE uygulamalarını tasarlayabilirlerAnaliz aracının komut satırında nasıl çalıştırıldığı hakkında bilgi edinin (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video