このプロトコルは、バイオインフォマティクスの初心者に、CUT&RUNシーケンシングデータの初期解析とバリデーションを完了するための入門的なCUT&RUN解析パイプラインをガイドします。ここで説明する分析ステップを完了し、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーはクロマチン制御に関するメカニズムの洞察を引き出すことができます。
CUT&RUN技術は、ゲノム全体にわたるタンパク質-DNA相互作用の検出を容易にします。CUT&RUNの代表的なアプリケーションには、ヒストンテール修飾のプロファイリング変更や、転写因子のクロマチン占有率のマッピングなどがあります。CUT&RUNが広く採用されるようになったのは、従来のChIP-seqに比べて、細胞投入量やシーケンシング深度の要件が低いこと、抗体エピトープをマスクする架橋剤がないためにバックグラウンドシグナルが減少することで感度が向上することなど、技術的な利点が一因となっています。また、ヘニコフ研究室による試薬の寛大な共有や、初心者への普及を加速するための市販キットの開発により、CUT&RUNの普及が進んでいます。CUT&RUNの技術的な採用が進むにつれ、CUT&RUNのシーケンシング解析とバリデーションは、主にウェットラボチームによる完全な採用を可能にするために克服しなければならない重大なボトルネックとなっています。CUT&RUN解析は、通常、生のシーケンシングリードの品質管理チェックから始まり、シーケンシングの深さ、リード品質、潜在的なバイアスを評価します。次に、リードをリファレンスゲノム配列アセンブリにアラインメントし、その後、いくつかのバイオインフォマティクスツールを使用して、タンパク質濃縮のゲノム領域にアノテーションを付け、データの解釈可能性を確認し、生物学的結論を導き出します。CUT&RUNデータ解析をサポートするために、複数の in silico 解析パイプラインが開発されていますが、その複雑なマルチモジュール構造や複数のプログラミング言語の使用により、複数のプログラミング言語に精通していないバイオインフォマティクスの初心者にとっては、CUT&RUNの解析手順を理解し、解析パイプラインをカスタマイズしたいと考えている人にとっては、このプラットフォームは困難です。ここでは、バイオインフォマティクスの経験が豊富なユーザー向けに、単一言語のステップバイステップのCUT&RUN解析パイプラインプロトコルを提供します。このプロトコルには、シーケンシングデータが生物学的解釈に適していることを確認するための重要な品質チェックを完了することが含まれます。本稿で紹介した導入プロトコルに従い、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーは自身のCUT&RUNデータセットから生物学的な知見を引き出すことができると期待しています。
タンパク質とゲノムDNAとの間の相互作用を測定する能力は、クロマチン制御の生物学を理解するための基本です。特定のタンパク質のクロマチン占有率を測定する効果的なアッセイは、少なくとも2つの重要な情報を提供します:i)ゲノム局在とii)特定のゲノム領域におけるタンパク質の存在量。クロマチンに関心のあるタンパク質の動員と局在の変化を追跡することで、タンパク質の直接的な標的遺伝子座を明らかにし、転写の調節、DNA修復、DNA複製などのクロマチンベースの生物学的プロセスにおけるそのタンパク質の機構的役割を明らかにすることができます。現在、タンパク質とDNAの相互作用をプロファイリングする技術が利用可能なため、研究者はこれまでにない解像度で制御を探求することができます。このような技術的進歩は、Henikoff研究室によるCleavage Under Targets and Release Using Nuclease(CUT&RUN)の開発を含む新しいクロマチンプロファイリング技術の導入によって可能になりました。CUT&RUNは、従来のクロマチン免疫沈降法 (ChIP) に比べて、細胞投入量が少なく、シーケンシング深度が不十分で、抗体エピトープを隠す架橋剤がないためバックグラウンドシグナルが減少し感度が向上するなど、いくつかの技術的利点があります。この手法をクロマチン制御の研究に採用するには、この手法の根底にある原理を十分に理解し、CUT&RUNデータの解析、検証、解釈の方法を理解する必要があります。
CUT&RUNの手技は、磁気ビーズに結合したコンカナバリンAに細胞を結合させることから始まり、手技全体を通して低い細胞数を操作できるようになります。単離された細胞は、目的のタンパク質を標的とする抗体の導入を容易にするために、中性界面活性剤を使用して透過処理されます。次に、ミクロコッカスヌクレアーゼ(MNase)は、酵素につながれたプロテインAまたはプロテインA/Gタグを使用して、結合した抗体にリクルートされます。カルシウムは酵素活性を開始するために導入されます。MNase消化は、モノヌクレオソームDNA-タンパク質複合体をもたらします。その後、カルシウムをキレート化して消化反応を終了させ、MNase消化から得られた短いDNA断片を核から放出した後、DNA精製、ライブラリー調製、ハイスループットシーケンシングを行います1 (図1)。
ゲノム全体のタンパク質占有率をマッピングおよび定量化するインシリコアプローチは、DNAとタンパク質の相互作用を濃縮するために使用されるウェットラボアプローチと並行して開発されました。濃縮されたシグナル(ピーク)の領域の同定は、バイオインフォマティクス解析における最も重要なステップの1つです。初期のChIP-seq解析法では、MACS2やSICER3などのアルゴリズムを使用し、統計モデルを用いて真正なタンパク質-DNA結合部位をバックグラウンドノイズから区別しました。しかし、CUT&RUNデータのバックグラウンドノイズが少なく、解像度が高いため、ChIP-seq解析で使用される一部のピークコールプログラムはCUT&RUN解析には適していません4。この課題は、CUT&RUNデータの解析により適した新しいツールの必要性を浮き彫りにしています。SEACR4は、ChIP-seq解析に通常使用されるツールに関連する制限を克服しながら、CUT&RUNデータからのピークコールを可能にするために最近開発されたツールの1つです。
CUT&RUNシーケンシングデータからの生物学的解釈は、解析パイプラインのピークコールの下流の出力から引き出されます。CUT&RUNデータから呼び出されたピークの生物学的関連性を予測するために、いくつかの機能アノテーションプログラムを実装することができます。例えば、Gene Ontology(GO)プロジェクトは、関心のある遺伝子の確立された機能的同定を提供します5,6,7。さまざまなソフトウェアツールやリソースにより、GO解析が容易になり、CUT&RUNピーク8、9、10、11、12、13、14に濃縮された遺伝子や遺伝子セットが明らかになります。さらに、Deeptools15、Integrative genomics viewer(IGV)16、UCSC Genome Browser17などの可視化ソフトウェアにより、ゲノム全体の関心領域におけるシグナル分布とパターンの可視化が可能になります。
CUT&RUNのデータから生物学的な解釈を引き出すことができるかどうかは、データ品質の検証に大きく依存します。バリデーションを行う重要なコンポーネントには、i) CUT&RUNライブラリのシーケンシング品質、ii) 複製類似性、iii) ピークセンターでのシグナル分布の評価が含まれます。3つのコンポーネントすべてのバリデーションを完了することは、CUT&RUNライブラリのサンプルとダウンストリーム解析結果の信頼性を確保するために重要です。そのため、バイオインフォマティクスの初心者やウェットラボの研究者が、標準的なCUT&RUN解析パイプラインの一部としてこのような検証ステップを実施できるように、CUT&RUN解析の入門ガイドを作成することが不可欠です。
ウェットラボでのCUT&RUN実験の開発と並行して、CUT&RUNTools 2.018,19、nf-core/cutandrun20、CnRAP21など、さまざまなin silico CUT&RUN解析パイプラインが開発され、CUT&RUNデータ解析を支援してきました。これらのツールは、シングルセルおよびバルクのCUT&RUNおよびCUT&Tagデータセットを解析するための強力なアプローチを提供します。しかし、比較的複雑なモジュール化されたプログラム構造や、これらの解析パイプラインを実行するために複数のプログラミング言語に精通している必要があるため、CUT&RUNの解析ステップを徹底的に理解し、独自のパイプラインをカスタマイズしようとするバイオインフォマティクスの初心者には採用が妨げられる可能性があります。この障壁を回避するには、シンプルな単一のプログラミング言語を使用してエンコードされたシンプルなステップバイステップのスクリプトで提供される新しい入門的なCUT&RUN解析パイプラインが必要です。
この記事では、新規ユーザーや初心者ユーザーがCUT&RUNシーケンシング解析を実施できるように、ステップバイステップのスクリプトと詳細な説明を提供する、シンプルな単一言語のCUT&RUN解析パイプラインプロトコルについて説明します。このパイプラインで使用されるプログラムは、元の開発者グループによって公開されています。このプロトコルに記載されている主なステップには、リードアライメント、ピークコール、機能解析、そして最も重要なのは、生物学的解釈に対するデータの適合性と信頼性を判断するためのサンプル品質を評価するためのバリデーションステップです(図2)。さらに、このパイプラインにより、ユーザーは公開されているCUT&RUNデータセットに対して解析結果を相互参照することができます。最終的に、このCUT&RUN解析パイプラインプロトコルは、バイオインフォマティクス解析の初心者やウェットラボの研究者にとって、入門ガイドおよびリファレンスとして機能します。
クロマチン上のタンパク質占有率をマッピングする能力は、クロマチン生物学の分野で機構研究を行うための基本です。ラボがクロマチンのプロファイリングに新しいウェットラボ技術を採用するにつれて、ウェットラボ実験からのシーケンシングデータを分析する能力は、ウェットラボの科学者にとって共通のボトルネックになります。そこで、バイオインフォマ…
The authors have nothing to disclose.
イラスト入りのフィギュアはすべて BioRender.com で作成しました。CAIは、Ovarian Cancer Research Alliance Early Career Investigator Award、Forbeck Foundation Accelerator Grant、Minnestoa Ovarian Cancer Alliance National Early Detection Research Awardを通じて提供された支援を認めています。
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation – Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |