This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Bu iş akışı acemi araştırmacıların çift karşılaştırmalı transkriptomiklerini gerçekleştirmek için bulut bilgi işlem gibi gelişmiş hesaplama kaynaklarını kullanmasına olanak tanır. Ayrıca, veri bilimcisi hesaplama becerileri geliştirmek için biyologlar için bir baslık (bash komutlarını çalıştırma, büyük veri kümelerinin görselleştirilmesi ve yönetimi) gibi bir görev de görür. Tüm komut satırı kodu ve her komutun veya adımın daha fazla açıklaması wiki'de bulunabilir ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Discovery Çevre ve Atmosfer platformları CyVerse Veri Deposu aracılığıyla birbirine bağlanır. Bu nedenle, başlangıçtaki ham sıralama verileri yüklendikten sonra, büyük veri dosyalarını bir İnternet bağlantısı üzerinden aktarmaya artık gerek kalmaması, analizlerin yapılması için gereken süreyi en aza indirir. Bu protokol, sadece iki deneysel muamele veya durumu analiz etmek üzere tasarlanmıştır. Diferansiyel gen ekspresyon analizi,Ough eşli karşılaştırmalar yapar ve birden fazla faktörü test etmek için uygun olmayacaktır. Bu iş akışı otomatikleştirilmek yerine manuel olarak tasarlanmıştır. Her adım, kullanıcı tarafından yürütülmeli ve araştırılmalı ve verilerin ve analitik çıktıların daha iyi anlaşılması sağlanmalı ve bu nedenle kullanıcı için daha iyi sonuçlar elde edilmelidir. Tamamlandığında, bu protokol daha önce monte edilmiş referans genomlara (genelde yetersiz organizmada bulunmayan) eşlenmeye gerek kalmadan, yetersiz (modelsiz) organizmalar için yeni toplanmış transkriptom (lar) üretir. Bu de novo transkriptomlar ayrıca iki deneysel koşul arasında farklı olan genleri araştırmak için pairwise diferansiyel gen ekspresyon analizinde kullanılır. Farklı olarak ifade edilen genler daha sonra, organizmaların deneysel koşullara sahip oldukları genetik tepkiyi anlamak için işlevsel olarak açıklanmıştır. Toplamda, bu protokolden türetilen veriler, yetersiz organizmaların biyolojik cevapları hakkında hipotezleri test etmek için kullanılır.
Homo sapiens ve Drosophila melanogaster , Mus musculus ve Danio rerio gibi birkaç temel model hayvan türü şu andaki ve geçmiş işlevsel genomik çalışmaların çoğunu temsil etmektedir. Bununla birlikte, yüksek verimli sıralama teknolojisinin hızla azalan maliyeti, modeli olmayan ( aka "ihmal edilmiş" veya "yetersiz") hayvan türleri için fonksiyonel genomik için fırsatlar sağlamaktadır 1 . Model dışı organizmalar sık sık ekonomik olarak ilgili türleri ( örneğin istiridye, karides, yengeç) temsil eden ve model türlerinde bulunanların dışında yeni fenotipleri ve biyolojik sistemleri araştırmak için fırsatlar sunduğu için bu, genomikte önemli bir geçiştir.
Yetersiz organizmalar benzersiz biyolojik sistemleri araştırmak için cazip bir fırsat sunmasına rağmen, biyoenformatik analiz sırasında araştırmacılar tarafından karşılaşılan birçok zorluk vardır. BazılarıBir başka deyişle, referans genom, organizmaya özgü ontolojiler gibi yetersiz organizmalarda çalışan araştırmacılar için genetik kaynakların bulunmaması sonucunda ortaya çıkan zorluklar geniş veri setlerini işlemek için doğar. Nükleik asit izolasyonu ve sekanslama zorlukları genellikle rutin olarak bulunur Veri analizininkilerle karşılaştırılması ve bu tür biyoinformatik analizler, genellikle dizinleme projelerinin en hafife alınmış maliyeti olduğu kanıtlanmıştır 2 . Örneğin, basit bir yeni nesil sıralama biyoenformatik analiz, aşağıdaki adımlardan oluşabilir: kaliteli filtreleme ve ham dizileme okumaları düzeltme, kısa okumaları daha büyük bitişik parçalara toplama ve biyolojik anlamayı kazanmak için ek açıklama ve / veya diğer sistemlerle karşılaştırmalar. Görünüşte basit olmakla birlikte, bu örnek iş akışı, laboratuvar tezgahı bilgisayarının ötesinde özel bilgi ve hesaplama kaynakları gerektirir;Model organizmalar.
Doğal zorluklar altyapı veya bilgi temelli olabilir. Klasik bir altyapı zorluğu, uygun hesaplama kaynaklarına erişimdir. Örneğin, montaj ve açıklama işlemi, RAM (256 GB-1 TB) büyüklüğüne ve çalıştırılacak birkaç işlemci / çekirdeğe sahip güçlü bilgisayarlar veya bilgisayar kümeleri gerektiren hesaplama yoğun algoritmalara dayanır. Ne yazık ki, birçok araştırmacı ya bu tür bilgi işlem kaynaklarına erişemiyor ya da bu sistemlerle etkileşime girmek için gerekli bilgiye sahip değil. Diğer araştırmacılar üniversiteleri veya kurumları aracılığıyla yüksek performanslı bilgi işlem kümelerine erişebilir ancak bu kaynaklara erişim sınırlı olabilir ve bazen hesaplama saat başına ücret alınır, yani CPU işlemcilerinin sayısı ile gerçek zamanlı "saat Saatler "içinde çalışıyor. ABD Ulusal Bilim Vakfı tarafından finanse edilen siyasal altyapı sisteminden yararlanmaAmerika Birleşik Devletleri'nde ve dünyanın dört bir yanındaki araştırmacılar için kaynakları hesaplamak için ücretsiz erişim sağlayan Cyverse 3 gibi, burada gösterildiği gibi altyapı sorunlarını hafifletmeye yardımcı olabilir.
Tipik bir bilgi temelli soruna bir örnek, tam analizler için gerekli yazılımı anlamaktır. Sıralamaya dayalı bir projeyi etkin bir şekilde yürütmek için, araştırmacıların biyoinformatik analizler için geliştirilmiş sayısız yazılım araçlarını bilmeleri gerekir. Her bir paketin öğrenilmesi tek başına zor olsa da, paketlerin sürekli yükseltildiği, yeniden yayınlandığı, yeni iş akışlarına dahil edildiği ve bazen yeni lisanslar altında kullanılması kısıtlandığından daha da kötüye gidiyor. Buna ek olarak, bu araçların giriş ve çıkışlarını birbirine bağlamak, bazen bunları uyumlu hale getirmek için veri türlerini dönüştürmeyi ve iş akışına başka bir araç eklemeyi gerektirir. Son olarak, hangi yazılım paketininEn iyi 'bir analiz için ve belirli deneysel koşullar için sıklıkla en iyi yazılımı tanımlamak ince bir farktır. Bazı durumlarda, yazılımın kullanışlı incelemeleri mevcuttur, ancak yeni güncellemelerin ve yazılım seçeneklerinin sürülmesine bağlı olarak, bunlar hızla yenilenmektedir.
Yetersiz organizmaları araştıran araştırmacılar için, doğuştan gelen bu zorluklar, yeni bir organizmada verilerin analiz edilmesiyle ilgili zorlukların yanında ortaya çıkmaktadır. Bu yetersiz organizmaya özgü zorluklar, gen açıklaması sırasında en iyi şekilde gösterilir. Örneğin, yetersiz organizmalar sıklıkla gen ortolojisi ve işlevini belirlemek için makul bir şekilde kullanılabilen yakından ilişkili bir model organizmasına sahip değildirler ( örneğin deniz omurgasızları ve Drosophila ). Birçok biyoinformatik araç aynı zamanda, gen işlevini tanımlamak için kullanılabilen yapısal motifleri tanımlamak için "eğitim" gerektirir. Bununla birlikte, eğitim verileri genellikle mod için geçerlidirEl organizmaları ve eğitimli gizli Markov modelleri (HMM), biyologların ve hatta birçok biyoinformatikçinin dışındadır. Son olarak, model organizmaların verilerini kullanarak ek açıklama yapılabilse bile, model organizmalarla ilişkili bazı gen ontolojileri, yetersiz organizmanın biyolojisi ve doğal tarihi dikkate alındığında ( örneğin , Drosophila'dan karidese bilgi aktarma) mantıklı değil.
Bu güçlüklerin ışığında, özellikle de akılda kalan, yetersiz organizmalar üzerine yeni analizler yapan araştırmacılar ile biyoenformatik kaynakların geliştirilmesi gerekmektedir. Önümüzdeki birkaç yıl sürecek fonksiyonel genomik sıralama projeleri, model ve eksik organizmalar arasındaki boşluğu kapatmaya yardımcı olacaktır ( https://genome10k.soe.ucsc.edu/ ), ancak zorlukları çözmek için geliştirilmesi gereken birçok araç bulunmaktadır Yukarıda düşünülmüş. CyVerse, i ekosistemlerini yaratmaya adamıştırVeri yönetimini, biyoinformatik analiz araçlarını ve veri görselleştirmelerini yaşam bilimcilerine sunmak için varolan siyasal altyapıyı ve üçüncü parti uygulamalarını birbirine bağlayarak kullanılabilirlik. Birlikte çalışabilirlik, ölçeklenebilir hesaplama kaynakları sağlayarak ve dosya biçimi dönüşümlerini ve platformlar arasında aktarılan veri miktarını sınırlayarak biyoinformatik uygulamalar ve platformlar arasındaki geçişlerin düzelmesine yardımcı olur. CyVerse, Discovery Environment (DE 4 , Atmosfer 5 ve Veri Deposu 3 de dahil olmak üzere çeşitli platformlar sunmaktadır. DE, web tabanlı ve kullanıcı dostu "point-and-click" formatlarına ("uygulamalar" olarak adlandırılan birçok biyoinformatik analitik araçlara sahiptir) sahiptir ") Ve büyük veri kümelerinin ( yani, ham dizilim okumaları, bir araya getirilmiş genomların) depolandığı ve yönetildiği Data Store için grafiksel kullanıcı arabirimidir (GUI). Atmosfer, araştırmacılara yüksek esneklik sağlayan bulut bilgi işlem hizmetidir.Önceden kurulmuş geniş bir biyoinformatik araçlara sahip olan Sanal Makine hesaplama kaynakları kullanılarak. Bu platformların her ikisi de Veri Deposu'na bağlıdır ve burada açıklanan gibi iş akışları oluşturmak için birlikte kullanılabilir. Bu rapor de novo transkriptom montajı ve diferansiyel gen ekspresyon analiz çalışma akışları üzerine odaklanır ve ayrıca biyoinformatik analizler geliştirme ve yürütme ile ilgili bazı en iyi uygulamalara değinir. CyVerse'ın daha geniş görevine ( http://www.cyverse.org/about ) ve ayrıntılı platform açıklamalarına ( http://www.cyverse.org/learning-center ) ilişkin açıklama halka açıktır. Burada açıklanan tüm analizler Discovery Environment 4 (DE) ve Atmosfer 5'i kullanır ve araştırmacıların tüm hesaplama düzeyleri için onları erişilebilir kılacak şekilde sunulur. DE iş akışları ve AtmosferUzun vadeli provenance, tekrar kullanılabilirlik ve tekrarlanabilirlik sağlamak için resimlere doğrudan URL'ler kullanılarak başvurulabilir.
Protokolde, ana proje klasörü içerisinde kendi ayrı klasörlerini oluşturacak beş önemli adım vardır ( Şekil 1 ve 2 ). Birincil ham sıralama verisinin tümü gizli tutulmuştur: "1_Raw_Sequence" etiketli ilk klasöre yüklenmeli ve tutulmamalı ve hiçbir şekilde değiştirilmemelidir. Veriler üç yoldan biriyle yüklenebilir. DE arabirimi dosyaları doğrudan yüklemek için kullanılabilir. Bu, veri yüklemenin en kolay yoludur, ancak aktarımın en uzun sürer. Cyberduck grafiksel bir arayüze sahiptir ve kullanıcıların DE'ye aktarmak için dosyaları sürükleyip bırakmasına olanak tanır. ICommands, Veri Deposuna ve Veri Deposuna veri aktarmak, dizinleri oluşturmak ve veri kümelerini yönetmek için kullanılabilen ve muhtemelen veri dosyalarını aktarmanın en hızlı yoludur kullanılan bir komut satırı aracıdır. Veri Deposundaki tüm veriler diğer CyVerse kullanıcılarıyla paylaşılabilir (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment) tarafından oluşturulan, oluşturulan bir URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) aracılığıyla kamuya açık veya kamuya açık ve anonim olarak barındırabilir Kullanıcı adı gerekmez) mevcut topluluk verileri (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Bu klasörün içinde, ham sıra okumaları, yüksek kaliteli okumalar üretmek için okumaların nasıl kırpılacağını ve filtrelendiğini değerlendirmek için FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) ile analiz edilir. Kırpma ve kalite filtrelemesinden sonra, bilgi kaybetmeden daha iyi hale geldiğini belirlemek için okuma kalitesinin değişip değişmediğini belirlemek için FastQC çıktılarını karşılaştırmak yararlıdır ( Şekil 3 ). FastQC'nin x ekseni doğrusal değil, sonuçların yanlış yorumlanmasına yol açabilecek çok sayıda çıktı grafiği için binelenmiştir. Ardından, kesilmiş ve filtrelenmiş okumalar, bir Atmosfer cloud computing örneği kullanılarak de novo transkriptomları bir araya getirmek için kullanılır. BuBulut bilgisayarı yerel bilgisayar ekranını, klavyesini ve faresini kullanır, ancak kendi yazılımı (Trinity ve Trinotate) ve donanımları vardır. Bulut bilgisayar örneğinde çalışan programlar yerel bilgisayarı hiçbir şekilde etkilemez. De novo montaj ve aşağı akış notasyonu büyük olasılıkla bu iş akışında en uzun iki adım. Bu nedenle, analizin kesintileri gibi kesintiye uğramasına, geceleri otomatik olarak yapılan güncellemelerden sonra yeniden başlatılmasına veya diğer kullanıcıların neden olduğu çökmelere neden olabilecek ortak laboratuvar paylaşımlı bilgisayar sorunlarından kaçınmak için Atmosphere'de tamamlanmışlardır. Trinotasyon notu, BLAST + 8 , HMMER 9 , tmHMM 10 ve PFAM 11'i kullanır. Ek açıklamanın nihai çıktısı bir SQLite veritabanı ve .xls dosyasıdır. Çıktılar, KEGG 12 , 13 gibi aşağı akış analiz platformlarında CyVerse dışında kullanılabilir.
Bu iş akışıDE ve Atmosfer'de kullanıma hazırdır. Bu, her bir analiz paketini ve her aracın gerektirdiği tüm bağımlılıkları yükleme, yapılandırma ve sorun giderme konularında zaman harcamanıza gerek yoktur. Bu, araştırmacıların analizlerini düzene sokar, boşa harcanmış çabayı en aza indirir ve birçok bilimadamının giriş engeli düşürür. Bu iş akışı, özellikle Illumina sıralama platformundan tek veya çiftli uçları bir araya getirir ancak DE ve Atmosfer'de başka çeşit sıralama teknolojileri ile başa çıkmak için birçok araç bulunmaktadır. Bu iş akışındaki araçlar, her türden gelen sıralama teknolojisini kullanmak için kolayca değiştirilebilen bir alternatif araçla değiştirilebilir. Bu, analiz araçlarının yeni sürümleri veya tamamen yeni araçlar için de geçerlidir.
Bu iş akışı, aynı anda yalnızca birkaç transkriptomu birleştirmek, karşılaştırmak ve açıklama yapmak için özel olarak tasarlanmıştır. Bu nedenle, kullanıcılar, karşılaştırmalı popülasyon genetiği için birden fazla transkriptom takmak zaman alır bulabilir. analizYakın gelecekte nüfus genetiği kullanıcılarına boru hatları hazır olacak ve boru hattına bağlantı wiki sayfasında bulunabilir (https://wiki.cyverse.org/wiki/x/dgGtAQ). Diferansiyel gen ekspresyonu analiz aşaması çoğalmaları işleyebilir, ancak çiftli bir karşılaştırmadır ve birden çok faktörü doğru bir şekilde değerlendirmez ( örn. , Zamanla değişen koşullar, ikiden fazla muamele). Referans genomları olan organizmalar için otomatik iş akışları mevcuttur ( örneğin , TRAPLINE 14 ). Otomatikleştirilmiş iş akışları acemiler için en kolay yöntem olmasına rağmen, yeni kurulumlar burada özetlenen her adım için değerlendirme ve değerlendirme gerektirir. Ek olarak, kullanıcılar otomatik boru hatlarını inşa ettikleri gibi kullanmaları gerekmekte ve bu nedenle kullanıcıların değişen taleplerini karşılamak için esnek değildirler.
Bu protokolün çoğu İnternet üzerinden gerçekleştirildiğinden, kullanıcılar tarayıcı ayarlarında sıkıntı yaşayabilir. Birinci olarak,Açılır pencere engelleyicileri, pencerelerin açılmasını önleyebilir veya tarayıcıda CyVerse'a izin verilene kadar pencerelerin açılmasını engelleyebilir. Atmosfer, uzak masaüstlerine erişmek için VNC'yi kullanır, ancak diğer yazılımlar kullanılabilir. Bu protokolün tamamı Firefox sürüm 45.0.2'de yapıldı ve tüm popüler İnternet tarayıcılarıyla çalışmalıdır, ancak bazı tutarsızlıklar görülebilir. İş akışı, Trinity yeni sürümler yayınladığında güncellenecektir (https://github.com/trinityrnaseq/trinityrnaseq/wiki). İş akışıyla ilgili en yeni sürümler ve güncel bilgiler wiki eğitim sayfasında bulunabilir ( Tablo 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Kullanıcılar iş akışıyla ilgili sorunları çözmek için Ask for CyVerse (ask.cyverse.org/) adresine doğrudan destek başvurusunda bulunabilir veya soru gönderebilir.
DE'de bu protokolün her adımını gerçekleştirmek için birçok uygulama var. Örneğin, kullanıcılar Trimmatic yerine Scythe'i (https://github.com/najoshi/sickle) çalıştırmayı isteyebilirler15 okuma düzeltme veya DESeq 17 , 18 yerine EdgeR 16 çalıştırın. Bu el yazması eserinin dışındaki DE uygulamaları, kullanıcılar tarafından kopyalanabilir, düzenlenebilir ve serbest bırakılabilir (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) veya yeni uygulamalar eklenebilir (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Atmosfer görüntüleri, kullanıcıların ihtiyaçlarına daha özel uyacak şekilde yeni veya değiştirilmiş iş akışları oluşturmak üzere yeniden düzenlenebilir veya yeniden oluşturulabilir (https://wiki.cyverse.org/wiki/x/TwHX). Bu çalışma, verileri taşımak ve analizleri yürütmek için komut satırından yararlanma girişini sağlar. Kullanıcılar, CyVerse uygulama programlama arabirimleri (API) (http://www.cyverse.org/science-apis) gibi daha gelişmiş komut satırı kaynaklarını kullanmayı veya bilgi isteyen kendi DE uygulamalarını tasarlayabilirlerAnaliz aracının komut satırında nasıl çalıştırıldığı hakkında bilgi edinin (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |