OpenProt polycistronic manken ökaryotik genleri zorlar serbestçe erişilebilir bir veritabanıdır. Burada, bir protokol OpenProt veritabanları kullanımı için kütle spektrometresi veri kümeleri sorguya zaman mevcut. OpenProt kullanarak proteomik deneyler çözümleme için veritabanına roman ve önceden belirlenemeyen proteinler için izin verir.
Genom ek açıklama proteomik manzara anahatlarını çizer gibi bugünün proteomik araştırma için merkezi bir noktada bulunuyor. Geleneksel modelleri açık okuma çerçevesi (ORF) ek açıklama empoze iki rasgele ölçüt: minimum uzunluğu 100 kodon ve transkript başına tek bir ORF. Ancak, çalışmalar giderek artan sayıda rapor ifade iddia edilen kodlama üzerinden proteinlerin bölgeler, geçerli genom ek açıklamaları doğruluğunu zorlu. Protein bulundu bu romanı ya içinde kodlamayan RNA’ların, 5′ veya 3′ Çevrilmeyen bölgeler (UTRs) mRNA’ların veya bilinen kodlama dizisi (CD) alternatif ORF örtüşen kodlanmış. OpenProt ökaryotik genleri için polycistronic modeli uygulayan ilk transkript başına birden çok ORFs ek açıklama sağlayan bir veritabanıdır. OpenProt serbestçe erişilebilir ve protein sıralarının özel yüklemeler arasında 10 tür sunuyor. OpenProt kullanarak veritabanı proteomik deneyler için roman proteinler keşif sağlar ve ökaryotik gen polycistronic doğasını vurgular. (Tüm proteinler tahmin) OpenProt veritabanının boyutu önemli olduğunu ve hesap analizi için alınması. Ancak, uygun yanlış bulma oranı (FDR) ayarları veya sınırlı bir OpenProt veritabanı kullanımı ile kullanıcıları proteomik manzara daha gerçekçi bir görünümü elde edecek. Genel olarak, OpenProt proteomik keşifler teşvik edecek serbestçe kullanılabilir bir araçtır.
Geçtiğimiz on yıl içinde kütle spektrometresi (MS-) dayalı proteomik ökaryotik hücreler1,2,3,4,5proteomes deşifre için altın teknik haline gelmiştir. Bu yöntem olanakları6,7,8kapsamını özetliyor bir referans protein sıra veritabanı oluşturmak için geçerli genom ek açıklamaları dayanır. Ancak, genom ek açıklamaları 100 kodon ve transkript9,10başına tek bir ORF uzunluk alt sınırı gibi ORF ek açıklama için rasgele ölçüt tutun. Çalışmalar giderek artan sayıda geçerli ek açıklama modeli meydan ve ökaryot genomlarında8,11,12,13unannotated fonksiyonel ORFs keşifler rapor, 14. Bu roman proteinler kodlanmış iddia edilen kodlamayan RNA’ların bulunur, içinde 5′ veya 3′ bölgeler (UTR) mRNA’ların veya kurallı kodlama dizisi (kendilerini) alternatif bir çerçevede örtüşen çevrilmemiş. Bu keşifler çoğunu serendipitous olmasına rağmen onlar geçerli genom ek açıklamaları uyarılar ve ökaryotik gen8polycistronic niteliği göstermektedir.
Burada, biz OpenProt veritabanlarının kullanımını MS tabanlı proteomik için vurgulayın. OpenProt polycistronic ek açıklama manken ökaryotik transcriptomes için tutmak için ilk veritabanıdır. Www.openprot.org15, serbestçe kullanılabilir. Bunlar bir kısmı OpenProt güven artırmak için deneysel ve fonksiyonel delil cumulates bu yüzden ORFs rasgele ve işlevsel olmayan, olacağını öngördü. Deneysel kanıt protein ifade (MS tarafından) ve çeviri (tarafından ribozom profil oluşturma) kanıt15içerir. Fonksiyonel kanıt (ile bir inç-Paranoid yaklaşım gibi) protein orthology ve işlevsel etki alanı tahmin15içerir.
OpenProt sadece iyi desteklenen proteinler ısmarlama veritabanlarına içeren birkaç veritabanı, indirmek için imkanı sunuyor. Burada, OpenProt veritabanları kullanımı için bir boru hattı sunacak ve deneysel amacı dikkate seçmek için hangi veritabanı anlayışlar sunacak. Burada sunulan proteomik analiz boru hattı açık erişim ve kullanımı kolay, ancak veritabanlarının herhangi bir iş akışı16,17,18ile çalışabilirsiniz Galaxy framework tarafından desteklenir. Biz de MS. Using OpenProt veritabanları tarafından algılanan yeni proteinler üzerinde daha fazla bilgi toplama proteomik manzara daha ayrıntılı bir görünümünü sağlar ve proteomik ve biyolojik keşifler teşvik edecek için OpenProt Web sitesini kullanmayı sunacak Geçerli yöntemlerine göre daha sistemli bir şekilde.
Bu iletişim kuralı OpenProt veritabanları15 kullanımı ne zaman MS veri kümeleri sorguya vurgular; Bu tasarımı gözden değil deneme kendisi, iyice olmuştur başka bir yerde20,21,22inceledim. Bir çaba tamamen açık kaynak kalmasını, serbestçe kullanılabilir (Ek malzeme S1–S4) protokolüdür. Daha kolay okunması için Tablo 1‘ de OpenProt ve bu vesile ile bu iletişim kuralı boyunca kullanılan tüm terimler tanımlanır.
Kütle Spektrometreleri verilerini analiz ederken, protein kimlik kalitesini kullanılan veritabanını6,20doğruluğunu kısmen dayanır. Güncel yaklaşımlar, geleneksel olarak UniProtKB veritabanları kullanmak, henüz bunlar transkript başına tek bir ORF genom ek açıklama modeli ve en az uzunluğunu 100 kodon (dışında daha önce gösterdiği örnek)40destekler. İddia edilen kodlamayan üzerinden birden fazla çalışmalar bu tür veritabanları eksiklikleri fonksiyonel ORFs keşfi ile ilgili bölgeler8,11,12,13. Şimdi, OpenProt birden çok transcriptome ek açıklamaları protein sequences çizer gibi daha ayrıntılı protein tanımlama sağlar. OpenProt alır NCBI RefSeq (GRCh38.p7) ve Ensembl (GRCh38.83) transcriptomes ve UniProtKB ek açıklamaları (UniProtKB-SwissProt, 2017-09-27)40,42,43. Küçük örtüşme geçerli ek açıklamalar sunmak, OpenProt böylece bir ek açıklama15için sınırlı zaman daha potansiyel proteomik manzara daha ayrıntılı görünümünü görüntüler.
Ayrıca, OpenProt bir polycistronic modeli zorlar olarak, transkript başına birden fazla protein ek açıklamaları için sağlar. İstatistik ve bilgisayar nedenlerden dolayı OpenProt hala 30 kodon15uzunluk alt sınırı eşiğinde tutar. Henüz, roman protein dizileri, böylece genişletme olanakları kapsam protein tanımlama için binlerce öngörür. Bu yaklaşım ile OpenProt proteomik keşifler daha sistematik bir şekilde destekler.
Protein kimlik kalitesini de kullanılan parametreleri tarafından etkilenebilir. MS tabanlı proteomik analizler genellikle % 1’i protein FDR tutarlar. Ancak, tüm OpenProt veritabanı yaklaşık 6 kat daha fazla girişleri (şekil 1) içerir. Arama alanı bu önemli artış hesaba katan % 0.001 daha sıkı bir FDR kullanmanızı öneririz. Bu parametre kıyaslama çalışmaları ve rasgele seçilen spectra15el ile değerlendirilmesi kullanarak optimize edildi. Yanlış pozitif hala bir olasılık vardır ve ayrıntılı muayene ve destekleyici kanıt roman bir protein için doğrulama öneririz. Arka plan verileri ve yanlış pozitif veri kümeleri15arasında değişir gibi önerilen standart iki farklı MS çalışması, bir protein kimliği olabilir.
Burada sağlanan ve vaka çalışması için kullanılan boru hattı parametreleri ve deneysel tasarım uyacak şekilde memnun değiştirilebilir. Duyarlılık ve peptid kimlik32duyarlılığını arttıkça birden çok arama motorları kullanarak öneriyoruz. Ayrıca, biz en iyi deneysel amacı (şekil 1) karşılık gelen veritabanı kullanarak öneririz. Veritabanı ile sıkı bir FDR gelen tüm OpenProt kullanarak olarak, gerçek kimlikleri kaybolabilir. Böylece, klasik proteomik profil oluşturma (örneğin OpenProt_2pep Yukarıdaki olgu çalışmada kullanılan) daha küçük OpenProt veritabanlarını kullanma iken tüm veritabanını yeni proteinler, keşfi için amaçlanan.
Çeşitli çalışmalarda çeviri başlatma diğer kodon44,45vurgulanmış, ancak OpenProt şu anda bir ATG kodonu ile başlayan diziler öngörür. Roman bir protein tarafından bir veya daha fazla benzersiz peptidler tanımlanınca, gerçek başlama kodonu tahmin ediliyor ATG değil mümkündür. Kullanıcılar çeviri kanıt OpenProt Web sitesinde arayabilirsiniz. Şu anda, tüm tahmin edilen protein dizi (% 100 örtüşme)15ilgiliyse OpenProt sadece çeviri olayları raporlar. Başlama kodonu iddia edilen ATG olmayabilir ama bu böylece, çeviri kanıt yokluğunda protein çevrilmiş değil, önemli değil.
Geçerli sınırlamaları rağmen OpenProt ökaryot genomlarında kodlama potansiyeli daha ayrıntılı bir görünümünü sunar. OpenProt veritabanları proteomik keşifler ve proteomik işlevleri ve etkileşimleri anlayışı geliştirmek. ATG çeviri kanıt başlangıç kodon ve roman proteinler tüm genom exome sıralama çalışmalar içine eklemek için bir boru hattı geliştirilmesi, gelecekteki gelişmeler OpenProt veritabanının diğer türlerin ek açıklama içerecektir.
The authors have nothing to disclose.
Biz Vivian Delcourt onun yardım, tartışmalar ve bu eser tavsiyeler için teşekkür ederiz. X.R. Fonds de Recherche du Québec Santé FRQS tarafından desteklenen Merkezi de Recherche du bir üyesidir Merkezi Hospitalier Universitaire de Sherbrooke. Bu araştırma X.R. ve CIHR grant paspas-137056 Kanada araştırma sandalyede fonksiyonel proteomik ve keşif roman proteinler tarafından desteklenmiştir. Biz takım Calcul Québec ve Compute Kanada süper mp2 Université de Sherbrooke üzerinden kullanımı ile destek için teşekkür ederiz. Mp2 süper bilgisayar işletimi Kanada Vakfı, yenilik (CFI tarafından), le ministère finanse edilen de l’Économie, de la science et de l’innovation du Québec (MESI) ve les Fonds de Recherche du Québec – doğa et teknolojileri (FRQ-NT). Bazı proteomik hesaplamalar için kullanılan Galaxy sunucu kısmen ortak araştırma merkezi 992 tıbbi epigenetik (DFG grant SFB 992/1 2012) ve Alman Federal Bakanlığı Eğitim ve araştırma tarafından finanse edilmektedir (BMBF verir 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. MERDİVEN (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |