This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
このワークフローにより、初心者の研究者は、クラウドコンピューティングのような高度な計算リソースを活用してペアごとに比較するトランスクリプトミックスを実行できます。また、生物学者が、データ科学者の計算能力を開発するためのプライマーとしても役立ちます。 例えば、 bashコマンドの実行、大きなデータセットの視覚化と管理などです。すべてのコマンドラインコードと各コマンドまたはステップの詳細については、wiki( https://wiki.cyverse.org/wiki/x/dgGtAQ )を参照してください。 Discovery EnvironmentとAtmosphereプラットフォームは、CyVerse Data Storeを介して接続されています。このように、最初の生シーケンシングデータがアップロードされると、大規模なデータファイルをインターネット接続経由で転送する必要がなくなり、解析に必要な時間が最小限に抑えられます。このプロトコルは、2つの実験的な処理または条件のみを分析するように設計されている。示差的遺伝子発現解析を行うペアワイズの比較は難しく、複数の要因をテストするのには適していません。このワークフローは、自動化ではなく手動で行うようにも設計されています。各ステップを実行し、ユーザーが調査し、データと分析結果をよりよく理解し、ユーザーにとってより良い結果をもたらす必要があります。完了すると、このプロトコールは、以前に構築された参照ゲノム(通常、不十分な生物では利用不可能である)にマップする必要なく、不十分な(モデルではない)生物のための新たに組み立てられたトランスクリプトームを生じる。これらの新規トランスクリプトームは、2つの実験条件の間で異なる遺伝子を調査するために対の示差的遺伝子発現分析にさらに使用される。次に、示差的に発現された遺伝子は、生物が実験条件に有する遺伝的応答を理解するために、機能的に注釈を付けられる。全体として、このプロトコルから得られたデータは、不十分な生物の生物学的応答に関する仮説を試験するために使用される。
ホモ・サピエンスやショウジョウバエmelanogaster 、 Mus musculus 、 Danio rerioなどのいくつかの重要なモデル動物種は、現在および過去の機能的なゲノミクス研究の大部分を占めています。しかしながら、ハイスループットシークエンシング技術の急速に低下するコストは、非モデル動物( 「無視された」または「不十分」 とも呼ばれる )動物種において機能的ゲノミクスの機会を提供している1 。これは、非モデル生物が経済的に関連性の高い種( 例えば、カキ、エビ、カニ)を頻繁に代表し、モデル種の範囲外の新規表現型および生物学的システムを調査する機会を提供するため、ゲノミクスにおける重要な移行である。
不十分な生物は独特の生物学的システムを調査する魅力的な機会を提供するが、特にバイオインフォマティクス分析の際に研究者に直面するいくつかの課題がある。いくつかの大規模なデータセットを処理するには生得的である一方、参照ゲノム、生物特有のオントロジーなどの不十分な生物で働く研究者が利用できる遺伝資源の不足に起因する課題があります。データ分析と比較して、バイオインフォマティクス分析は、一般に、プロジェクトのシーケンシングの最も過小評価されるコストであることが判明している2 。例えば、基本的な次世代シークエンシング・バイオインフォマティクス分析は、品質のフィルタリングと生シーケンシング・リードのトリミング、より長い連続断片への短い読み取りの組み立て、および/または生物学的理解を得るための注釈および/または他のシステムとの比較からなる。一見シンプルですが、このワークフローの例では、ラボベンチのコンピュータの範囲を超えた専門知識と計算リソースが必要です。モデル生物。
先進的な課題は、インフラストラクチャまたは知識ベースになる可能性があります。古典的なインフラストラクチャの課題は、適切な計算リソースへのアクセスです。たとえば、アセンブリや注釈は、大量のRAM(256 GB-1 TB)と複数のプロセッサ/コアを実行する強力なコンピュータまたはコンピュータクラスタを必要とする計算集約型アルゴリズムに依存しています。残念なことに、多くの研究者は、そのようなコンピューティングリソースへのアクセス権を持たないか、これらのシステムと対話するために必要な知識を持っていません。他の研究者は、大学や機関を通じてハイパフォーマンスコンピューティングクラスターにアクセスできるかもしれませんが、これらのリソースへのアクセスには限界があり、時には計算時間当たりの料金が発生します。 つまり 、CPUプロセッサーの数にリアルタイム "クロックそれらのプロセッサが稼動している時間数を示します。米国国立科学財団が資金を提供するサイバーインフラシステムの活用米国および世界各地の研究者のコンピューティングリソースに自由にアクセスできるCyVerse 3として、ここに示すように、インフラストラクチャの課題を緩和するのに役立ちます。
典型的な知識ベースの課題の例は、完全な分析に必要なソフトウェアを理解することです。シークエンシングベースのプロジェクトを効果的に実施するためには、研究者はバイオインフォマティクス分析のために開発された無数のソフトウェアツールに精通している必要があります。各パッケージを学習すること自体は難しいですが、パッケージが常にアップグレードされ、再リリースされ、新しいワークフローに組み込まれ、新しいライセンスでの使用が制限されるという事実によって悪化します。さらに、これらのツールの入力と出力をリンクするには、ワークフローに別のツールを追加してデータ型を互換性を持たせるために変換する必要があることがあります。最後に、どのソフトウェアパッケージが '分析のための最良のものであり、特定の実験条件のための最良のソフトウェアを頻繁に特定することは微妙な違いの問題である。場合によっては、ソフトウェアの有用なレビューが利用可能ですが、新しいアップデートやソフトウェアオプションの継続的なリリースにより、これらは急速に古くなっています。
不十分な生物を調査している研究者のために、これらの先天的な課題は、新しい生物のデータを分析することに伴う課題に加えて起こります。これらの不十分な生物特有の課題は、遺伝子アノテーション中に最もよく説明されています。例えば、不十分な生物は、遺伝子のオルソロジーおよび機能( 例えば、海洋無脊椎動物およびショウジョウバエ )を同定するために合理的に使用され得る密接に関連したモデル生物をしばしば有さない。多くのバイオインフォマティクスツールはまた、遺伝子機能を同定するために使用することができる構造モチーフを同定するための「訓練」を必要とする。ただし、トレーニングデータは通常、mod(HMM)の訓練は、生物学者、さらには多くの生物情報学者の範囲外である。最後に、たとえモデル生物からのデータを用いて注釈を実行することができたとしても、モデル生物に関連するいくつかの遺伝子オントロジーは、生物学や不十分な生物の自然史を考慮すると意味をなさない( 例えば ショウジョウバエからエビに情報を移す )。
これらの課題に照らして、研究者が特に不安定な生物についてデノボ分析を行うことで、バイオインフォマティクスのリソースを開発する必要があります。今後数年の機能的なゲノミクス配列決定プロジェクトは、モデルと不十分な生物( https://genome10k.soe.ucsc.edu/ )の間のギャップを埋めるのに役立ちますが、課題に対処するために開発する必要がある多くのツールがあります上記で考慮される。 CyVerseは私の生態系の創造に専念していますデータ管理、バイオインフォマティクス分析ツール、およびデータ視覚化をライフサイエンスに提供するために、既存のサイバーインフラストラクチャとサードパーティのアプリケーションを結びつけることによって、ネタオペレーション性を実現します。相互運用性は、スケーラブルなコンピューティングリソースを提供し、ファイル形式の変換とプラットフォーム間で転送されるデータの量を制限することで、バイオインフォマティクスアプリケーションとプラットフォーム間の移行を円滑にします。 CyVerseはDiscovery Environment(DE 4 、Atmosphere 5 、Data Store 3)を含むいくつかのプラットフォームを提供しています.DEはWebベースで、多くの一般的なバイオインフォマティクス分析ツールが使いやすいポイントアンドクリック形式")は、大規模なデータセット(生シーケンシングの読み込み、組み立てられたゲノム)が保存され、管理されるデータストアのグラフィカルユーザーインターフェイス(GUI)です。広範囲のバイオインフォマティクスツールがあらかじめインストールされている仮想マシンの計算リソースを使用します。これらのプラットフォームはどちらもデータストアにリンクされており、ここで説明するワークフローを作成するために一緒に使用できます。このレポートでは、 新規トランスクリプトームアセンブリおよび微分遺伝子発現解析ワークフローに焦点を当て、さらにバイオインフォマティクス解析の開発および実施に関連するいくつかのベストプラクティスに取り組んでいます。 CyVerse( http://www.cyverse.org/about )の幅広い使命と詳細なプラットフォームの説明( http://www.cyverse.org/learning-center )の説明は一般に公開されています。本明細書に記載される全ての分析は、発見環境4 (DE)および雰囲気5を使用し、すべての計算レベルの研究者がそれらを利用できるように提示される。 DEのワークフローとAtmosphere画像は、URLを使用して直接参照することができ、長期的な出所、再利用性、再現性を保証します。
プロトコルには5つの重要なステップがあり、それぞれがメインのプロジェクトフォルダ内に独自の別のフォルダを作成します( 図1と図2 )。プライマリの生シーケンシングデータはすべて無視されます。アップロードされ、 "1_Raw_Sequence"というラベルの付いた最初のフォルダに保存され、変更されてはなりません。データは3つの方法のいずれかでアップロードできます。 DEインターフェイスを使用してファイルを直接アップロードすることができます。これはデータをアップロードする最も簡単な方法ですが、転送に最長の時間を要します。 Cyberduckにはグラフィカルインターフェイスがあり、ユーザーはファイルをドラッグアンドドロップしてDEに転送することができます。 iCommandsは、データストアとの間でデータを転送したり、ディレクトリを作成したり、データセットを管理したりするために使用できるコマンドラインツールであり、おそらくデータファイルを転送する最も早い方法です。データストア内のすべてのデータは、他のCyVerseユーザーと共有できます(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery + Environment)、生成されたURL(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)を介して公開したり、一般公開または匿名でホストすることができますユーザー名は不要)利用可能なコミュニティデータ(http://data.iplantcollaborative.org; http://mirrors.cyverse.org)。そのフォルダの中で、生のシーケンスの読み取りをFastQC(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)で分析して、読み取りをトリミングしてフィルタリングして高品質の読み取りを生成する方法を評価します。トリミングと品質フィルタリングの後、FastQC出力を比較して、情報が失われることなく読み取り品質が変化したかどうかを判断することが有用です( 図3 )。 FastQCのx軸は線形ではなく、むしろ多くの出力グラフに対してビニングされているため、誤った結果が得られることに注意してください。トリムされ、読み込まれた読み込みは、Atmosphereクラウドコンピューティングのインスタンスを使用してde novo transcriptomをアセンブルするために使用されます。このクラウドコンピュータはローカルコンピュータの画面、キーボード、マウスを使用しますが、独自のソフトウェア(TrinityとTrinotate)とハードウェアがインストールされています。クラウドコンピュータインスタンスでプログラムを実行しても、ローカルコンピュータには何も影響しません。 デノボアセンブリとダウンストリームアノテーションは、このワークフローで最も長く実行される2つのステップです。したがって、それらは大気中で完了し、停電、深夜自動更新後の再起動、または他のユーザーによるクラッシュなどの分析を中断させる共通のラボ共有コンピュータの問題を回避します。トリノテート注釈はBLAST + 8 、HMMER 9 、tmHMM 10 、PFAM 11を使用します。注釈の最終出力はSQLiteデータベースと.xlsファイルです。出力は、KEGG 12,13などの下流解析プラットフォームでCyVerse外で使用できます。
このワークフローDEおよび大気中で使用する準備ができています。これにより、各分析パッケージのインストール、構成、およびトラブルシューティングに時間を費やす必要がなくなり、各ツールに必要なすべての依存関係が不要になります。研究者の分析を合理化し、無駄な労力を最小限に抑え、多くの科学者の参入障壁を低下させます。このワークフローでは、イルミナシーケンシングプラットフォームからのシングルエンドリードまたはペアエンドリードの組み立てが具体的に行われますが、DEおよびAtmosphereには他の種類のシーケンシングテクノロジを処理するツールが多数存在します。このワークフローのツールは、対応する代替ツールで簡単に置き換えることができ、あらゆるタイプの入力シーケンシング技術を処理できます。これは、新しいバージョンの解析ツールやまったく新しいツールにも当てはまります。
このワークフローは、一度にいくつかのトランスクリプトームのみを集め、比較し、注釈を付けるように特別に設計されています。したがって、ユーザーは、比較集団遺伝学のために複数のトランスクリプトームを組み立てるのに時間がかかることがあります。分析パイプラインは近い将来、集団遺伝学のユーザーに提供され、パイプラインへのリンクはwikiページ(https://wiki.cyverse.org/wiki/x/dgGtAQ)にあります。微分遺伝子発現解析ステップは反復を扱うことができるが、ペアワイズの比較であり、複数の因子( 例えば 、経時的に変化する条件、2回以上の処置)を正確に評価しない。参照ゲノムを持つ生物( 例: TRAPLINE 14 )の自動ワークフローが存在します。初心者にとって自動化されたワークフローが最も使いやすいものですが、 デノボアセンブリではここで概説した各ステップの評価と検討が必要です。さらに、ユーザーは自動パイプラインを構築する際にそれを使用する必要があり、したがって、ユーザーの変化する要求を満たすために本質的に柔軟性がありません。
このプロトコルのほとんどはインターネット上で実行されるため、ユーザーはブラウザの設定に問題が発生する可能性があります。まず、ポップアップブロッカーは、ウィンドウが開いていないようにしたり、ブラウザー内のCyVerseに許可が与えられるまでウィンドウのオープンを維持することができます。 Atmosphereは、リモートデスクトップにアクセスするためにVNCを使用しますが、他のソフトウェアを使用することもできます。このプロトコル全体は、Firefoxのバージョン45.0.2で実行され、一般的なすべてのインターネットブラウザで動作するはずですが、いくつかの矛盾が現れることがあります。ワークフローはTrinityが新しいバージョン(https://github.com/trinityrnaseq/trinityrnaseq/wiki)をリリースすると更新されます。ワークフローに関する最新バージョンと最新情報は、wikiチュートリアルページ( 表1 、https://wiki.cyverse.org/wiki/x/dgGtAQ)にあります。ユーザーは直接サポートに連絡したり、Ask CyVerse(ask.cyverse.org/)に質問を投稿してワークフローの問題のトラブルシューティングを行うことができます。
DEでは、このプロトコルの各ステップを達成するためにいくつかのアプリケーションが存在します。例えば、ユーザーはTrimmomaticの代わりにScythe(https://github.com/najoshi/sickle)を実行したいかもしれません。15をリードトリミングするか、またはDESeq 17,18の代わりにEdgeR 16を実行します。この原稿の範囲外ではあるが、DEアプリはユーザによってコピー、編集、リリースされることができる(https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps)や新しいアプリを追加することができます(https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment)。 Atmosphere画像は、ユーザーのニーズに合わせた新しいワークフローや変更されたワークフローを作成するために、変更して再イメージ化することもできます(https://wiki.cyverse.org/wiki/x/TwHX)。この作業は、コマンドラインを使用してデータを移動し、分析を実行する方法の紹介として役立ちます。ユーザーは、CyVerseアプリケーションプログラミングインターフェイス(API)(http://www.cyverse.org/science-apis)などのより高度なコマンドラインリソースの利用、または知識を必要とする独自のDEアプリケーションの設計を検討することができます(https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)で分析ツールを実行する方法について説明します。
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |