Galaxy ve DAVID biyoinformatik eğitim olmadan araştırmacılar analiz etmek ve RNA-Seq verileri yorumlamak için izin popüler araçlar olarak ortaya çıkmıştır. C. elegans araştırmacılar RNA-Seq deneyler, erişimi gerçekleştirmek ve Galaxy kullanarak veri kümesi işlemek ve DAVID kullanarak gen listelerinden anlamlı biyolojik bilgi elde etmek için biz bir protokol açıklar.
Yeni nesil dizileme (NGS) teknolojileri biyolojik soruşturmanın doğası devrim yaratmıştır. Bunlardan, RNA sıralaması (RNA-Seq) gen ekspresyon analizi ve transkriptom eşleme için güçlü bir araç olarak ortaya çıkmıştır. Ancak, RNA-Seq veri setlerini ele sofistike hesaplama uzmanlık gerektirir ve biyoloji araştırmacılar için doğal zorluklar doğurur. Bu darboğaz, bir Gen Ontoloji (GO) vadeli analiz paketi yardımcı olduğunu biyoinformatik becerileri olmayan kullanıcıların RNA-Seq verileri analiz etmeyi sağlar açık erişim Galaxy projesi ve Açıklama, Görselleştirme ve Tümleşik Discovery (DAVID) için Veritabanı yoluyla yumuşatılmıştır büyük veri kümelerinden biyolojik anlam türetmek. Ancak, ilk kez kullananlara ve biyoinformatik amatör, bu platformların ile kendi kendine öğrenme ve alışkanlık kazanma zaman alıcı ve zor olabilir. Biz C. elegans araştırmacılar solucan RNA izole etmek için yardımcı olacak basit bir iş akışını açıklar, bir RNA-Seq deney yapmakve Galaxy ve DAVID platformları kullanarak verileri analiz edin. Bu protokol, zenginleştirilmesi için taranabilir bir gen listesini oluşturmak için her aşamada parametreleri ile kullanıcı, ham NGS verileri, kalite kontrol denetimleri, hizalama ve farklı bir gen ifadesi analizi erişmek yönlendirmek için çeşitli Galaxy modüllerini kullanarak için adım adım yönergeler gen sınıfları veya David kullanmayı biyolojik prosesler. Genel olarak, C. örneklerinin az sayıda çalışan ilk kez RNA-Seq deneyler yanı sıra sık kullanıcı üstlenen araştırmacıları elegans bu makale bilgi verecektir tahmin ediyoruz.
İnsan genom dizilimi gerçekleştirilen ilk, Fred Sanger en dideoksinükleotid-sıralama yöntemi ile gerçekleştirilen 10 yıl sürdü ve tahminen 3 milyar $ 1, 2 mal oldu. Ancak, kurulduğu günden bu yana on az fazla bir süre, Yeni Nesil Sekanslama (NGS) teknolojisi sayesinde iki hafta içinde bütün insan genom diziliminin ve 1.000 $ ABD için kıldı. genom dizileme projeleri hızla olağan hale gelmiştir olarak maliyetinde keskin azalmalar ile birlikte inanılmaz verimlilik ile sıralama-veri toplama hızları artan izin Yeni NGS aletleri, düşünülemez yollarla Modern biyoloji devrim. Buna ek olarak, bu gelişmeler, örneğin RNA-zincirlenmesi (RNA-Seq), genom epigenetik değişiklikler çalışmanın, DNA-protein etkileşimleri yoluyla gen ekspresyon analizi gibi diğer birçok alanda ilerleme harekete geçirdi ve insan ana mikrobik çeşitliliğin taranması için kullanılabilmektedir. RNA Se NGS tabanlıÖzellikle q mümkün kapsamlı doğruluk ve hassasiyetle haritası transcriptomes belirlemek ve kıldı ve ifade profilleme için seçim yöntemi olarak mikro dizi teknolojisi yerini aldı. mikro-dizi teknolojisi kapsamlı kullanılmış olsa da, bu tür çapraz melezleme ve güvenilir bir şekilde ölçülebilen sentezleme değişiklikleri sınırlı aralığı olarak önceden varolan bilinen genomik bilgi dizileri ve diğer sakıncaları dayanmasýna ile sınırlıdır. RNA seq, diğer taraftan, nedeniyle açık DNA eşleme doğaya düşük arka plan gürültüsünü üretirken bilinen ve bilinmeyen transkriptlerini algılamak için kullanılabilir. RNA-Seq, maya gibi model organizmalar tarafından sunulan sayısız genetik araçları, sinekler birlikte, solucan, balık ve fareler, birçok önemli son biyomedikal keşifler temeli olarak hizmet etmiştir. Ancak, depolama sınırlamaları, işleme ve hepsinden önemlisi, m dahil daha geniş bir bilimsel topluluk erişilemez NGS yapmak önemli zorluklar ortadadır, sekanslama verilerine büyük hacimlerde eaningful biyoinformatik analizi.
sekans teknolojilerini ve üstel veri birikimi hızlı ilerlemeler araştırmacıları, erişmek analiz etmek ve bu bilgileri anlamak sağlayacak hesaplama platformları için büyük bir ihtiyaç yaratmıştır. Erken sistemleri bilgisayar programlama bilgisine üzerine ağır bağımlı idi, oysa sigara programcılar erişebilir ve sofistike analizler izin vermedi verileri görselleştirmek için izin Böyle NCBI'da olarak genom tarayıcılar. Web tabanlı, açık erişim platformu, Galaxy ( https://galaxyproject.org/ ), bu boşluğu doldurdu ve NGS verileri işleyebilir ve bir spektrum gerçekleştirmek için araştırmacılar sağlar değerli boru hattı olduğu kanıtlanmıştır basit-to-kompleksi biyoinformatik analiz eder. Galaxy Anton Nekrutenko (Penn State Üniversitesi) ve James Taylor laboratuarları tarafından, başlangıçta kuruldu ve korunur (Johns Hopkins Üniversitesi)f "> 3. Galaxy. Bunu bir RNA-Seq çalışmaya dahil tüm adımları içeren sayısız biyoinformatik ihtiyaçları için bir 'tek adres' yapma hesaplamalı görevleri geniş bir yelpazede sunmaktadır sunucularında veya her iki veri işleme gerçekleştirmek için eriştikleri Itallows yerel olarak kendi makinelerinde. Veriler ve iş akışları çoğaltılabilir ve paylaşılabilir. Çevrimiçi öğreticiler, yardım bölümü ve bir wiki sayfalık ( https://wiki.galaxyproject.org/Support Galaxy Projesi adanmış) tutarlı destek sağlar. Ancak, ilk kez kullananlar için, özellikle hiçbir biyoinformatik eğitimi olanlar, boru hattı zor görünebilir ve kendi kendine öğrenme ve alışma süreci zaman alıcı olabilir. Buna ek olarak, biyolojik sistem inceledi ve deney ve metotların özelliklerini, etkilerini kullanılan bir kaç aşamada analitik kararlar ve bu talimat olmadan gezinmek için zor olabilir.
Genel RN A-Seq Galaxy iş akışı, veri yükleme ve RNA-Seq veri analizi 10 farklı aşamaları için gerekli olan çeşitli araçların bir oluşum Tuxedo Suite 4, 5, 6, 7, 8, 9, kullanılarak analiz sureti ile, ardından kalite kontrol oluşmaktadır 11, 12, 13, 14. Tipik bir RNA Sekans deney, deney bölümünde (örnek hazırlama, mRNA izolasyonu ve cDNA kütüphane hazırlanması) oluşur, NGS ve biyoenformatik veri analizi. Bu bölümlerin ve Galaxy boru hattında yer alan adımların bir bakış, Şekil 1'de gösterilmiştir.
3fig1.jpg"/>
Şekil 1: bir RNA-Seq Workflow'un bakış. Her iki sonsuz suşları (sırasıyla A ve B, turuncu, yeşil hatları ve oklar) gen ekspresyon profillerini karşılaştırmak için bir RNA Sekans deneyde yer alan deney ve bilgisayar adımların Çizim. Galaxy kullanılan farklı modüller kırmızı belirtilen protokolde gelen adımla kutularda gösterilmiştir. Çeşitli işlemlerin çıkışları mavi gösterilen dosya biçimleri ile gri olarak yazılır. Bu rakamın büyük halini görmek için buraya tıklayın.
Smokin Suite ilk aracı 'Tophat' olarak adlandırılan bir hizalama programıdır. Bu NGS giriş küçük parçalara okur ve daha sonra bir referans genom onları eşler ayırır. Bu iki aşamalı işlem olup hizalaması aksi da farklı olabilir intronik bölgeleri kapsayan okur sağlarsrupted veya hesaba ve eşlenir cevapsız. Bu kapsama artırır ve yeni ekleme kavşakları belirlenmesini kolaylaştırır. Tophat çıktı iki dosyadan (genomik konumu içerir ekleme bağlantıları hakkında bilgiler içeren) bir YATAKLI dosyası ve (her okunmuş haritalama detayları ile) bir BAM dosyası olarak bildirilir. Daha sonra, BAM dosyası 'Kol Düğmeleri' denilen Smokin Suite müteakip aracını kullanarak her bir numune içindeki tek tek dökümlerinin bolluğunu tahmin etmek için bir referans genom karşı hizalanır. Tam uzunlukta transkript parçalarını veya her gen için veri girişi mümkün olan tüm bağlantı varyantları yayılan 'transfrags' rapor etmek hizalama tarayarak Kol Düğmeleri işlevlerini. Buna göre, bu dizilenmiş olan, her numune için (her gen için gen başına üretilen tüm transkriptlerin düzeneğini) bir 'transkriptom' oluşturur. Bu kol düğmesi düzenekleri sonra çökmüş veya yeniden ile birlikte bir araya getirilirfark olmamas genom sonraki aracı, 'Cuffmerge' kullanan alt diferansiyel analiz için tek bir açıklama dosyası üretmek için. Son olarak, son Cuffmerge çıktı dosyası (Şekil 1) için numunelerin her birinin TopHat çıkışları karşılaştırarak örnekler arasında 'Cuffdiff' aracı ölçer farklı bir gen ifadesi. Kol Düğmeleri FPKM / RPKM kullanan transkript bolluklarını rapor değerleri (Fragments / eşlenen Milyon başına transkript Başına kilobaz okur okur). ve gen uzunluğu (sayımlar düzeylerini karşılaştırmak için bir genin uzunluğu için normalize edilmesi gerekir, böylece genlerin, farklı uzunluklara sahip (bir referans genom hizalamak numuneden okur ortalama sayısı) Bu değerler derinliği için ham NGS veri normalleþtirilmesi ), genler arasındaki. , FPKM kullanılır ise FPKM ve RPKM, esas olarak her bir okuma tek fragmana karşı gelen tek uçlu RNA SEK için kullanılan RPKM ile aynıdırEşleştirilmiş uç RNA Sekans, iki aynı fragmana karşı gelen okuyan olmaları gerçeğine dayanır olarak. Sonuç olarak, bu analizlerin sonuçları farklı olarak, test edilen koşullar ve / veya suşları arasında eksprese edilen genlerin bir listesidir.
Başarılı Galaxy çalışma tamamlandıktan ve bir 'gen listesi' oluşturulduktan sonra, bir sonraki mantıklı adım veri setlerinden anlamlı bilgiyi anlamak için analizler daha biyoinformatik gerektirir. Birçok yazılım paketleri böyle DAVID 15 (Ek Açıklama, Görselleştirme ve Entegre keşif için Veritabanı) olarak genel kullanıma açık web tabanlı hesaplama paketleri de dahil olmak üzere, bu ihtiyacı karşılamak için ortaya çıkmıştır. DAVID Entegre biyolojik bilgi tabanı yüklenen gen listesini karşılaştırarak ve gen listesiyle ilişkili biyolojik açıklamaları ortaya koyarak yüksek verimli çalışmalar elde büyük gen listelerine biyolojik anlam atama kolaylaştırır. Bu örneğin Zenginleştirme Analizi, ardından bir ide testlerherhangi bir biyolojik işlem ya da gen sınıfı istatistiksel olarak anlamlı bir şekilde gen liste (ler) de daha fazla temsil ise ntify. Çünkü geniş, entegre bilgi-tabanı ve içinde zenginleştirilmiş biyolojik temaları tespit etmek için araştırmacılar sağlayan güçlü analitik algoritmaların birleşiminden popüler bir seçim haline gelmiştir genomik kaynaklı 'gen listeler' 10, 16. Ek avantajlar herhangi sıralama platformu ve son derece kullanıcı dostu bir arayüz üzerinde oluşturulan gen listelerini işlemek için yeteneğini içerir.
Nematod Caenorhabditis elegans da, küçük boyutu, saydam gövdesinin basit, vücut planı, kültür kolaylığı ve genetik ve moleküler diseksiyon büyük amenability gibi birçok avantajlar bilinen genetik bir model sistem vardır. Solucanlar bilinen insan homologları 17,% 40 korunmuş genlerin kadar içeren bir küçük, basit ve iyi açıklamalı genomu. Gerçekten de, C. elegansilk olarak, genom tamamen 18 dizilenmiştir metazoan, ve RNA-Dizi, bir organizmanın transkriptom 19, 20 eşleştirmek üzere kullanılmıştır ilk türün biriydi. Erken solucan çalışmaları teknolojisi 21, 22 gelişmesine katkıda yüksek verimli RNA yakalama, kütüphane hazırlanması ve dizileme yanı sıra biyoinformatik boru hatları için farklı yöntemlerle deney içeriyordu. Son yıllarda, solucanlar RNA-Seq tabanlı deney olağan hale gelmiştir. Ama, geleneksel solucan biyologlar için RNA-Seq verilere ait hesaplama analizinde getirdiği zorluklar tekniğin daha ve daha iyi kullanımı için önemli bir engel teşkil etmektedirler.
Bu makalede, C. elegans üretilen yüksek verimli RNA Seq verileri analiz etmek için Galaxy platformu kullanmak için bir protokol açıklar. Birçok birinci zamanlı ve küçük SCA içinle kullanıcıları, bir RNA-Seq deney üstlenmek en maliyet etkin ve basit yolu laboratuarda RNA izole etmek ve sıralama cDNA kütüphanelerinin hazırlanması ve NGS kendisi için ticari (veya in-house) NGS tesis yararlanmaktır. Dolayısıyla, ilk izole yer adımlar açıklanmaktadır, C. ölçümü ve kalite değerlendirmesi, RNA-Sek için RNA örnekleri elegans. Daha sonra, hizalama, montaj ve gen ekspresyonu ayırıcı miktar belirlemesi yapılmıştır sonrası dizileme kalite kontrolü için kontrol eder testleri ile başlayarak, NGS veri analizi Galaxy arayüzü kullanmak için adım adım talimatlar sağlar. Ayrıca, DAVID kullanılarak biyolojik zenginleştirme çalışmaları için Galaxy kaynaklanan gen listelerini incelemeye yön dahil ettik. Iş akışında bir son adım olarak, böyle NCBI Dizi Oku Arşivi (SRA) (kamu sunucularına üzerinde RNA-Seq verileri yüklemek için talimatlara sağlamak http: // www.ncbi.nlm.nih.gov/sra) bilimsel topluluğun serbestçe erişilebilir hale getirmek için. Genel olarak, bu makale örneklerinin az sayıda çalışan ilk kez RNA-Seq deneyler yanı sıra sık kullanıcı üstlenen solucan biyologlar için kapsamlı ve yeterli bilgi verecektir tahmin ediyoruz.
Modern Biyolojide Galaxy Sıralama Platformu Önemi
Galaxy Projesi işlemek ve hızlı ve verimli bir şekilde yüksek verim sıralama verilerini analiz etmek için biyoinformatik eğitim olmadan biyologları yardımcı etkili olmuştur. Bir kez bu halka mevcut bir platform yalın, güvenli ve kolay bir süreç NGS verilerini analiz etmek için karmaşık biyoinformatik algoritmaları çalıştıran yaptı, bir Herkül görev olarak kabul. Apart biyoinformatik araçları geniş bir yelpazede ev…
The authors have nothing to disclose.
Yazarlar Galaxy ve DAVID geliştirilen ve dolayısıyla bilimsel topluluk için NGS yaygın erişilebilir yaptık laboratuarlar, grup ve bireylere minnettarlıklarını ifade etmek istiyorum. Bizim biyoinformatik eğitim sırasında Pittsburgh Üniversitesi'nde meslektaşları tarafından sağlanan yardım ve öneri kabul edilmektedir. Bu çalışma ödülü (AG-NS-0879-12) ve Ulusal Sağlık Enstitüleri AG'ye (R01AG051659) hibe Yaşlanma bir Ellison Tıp Vakfı Yeni Scholar tarafından desteklendi.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |