概要

CUT&RUNシーケンシングデータの入門解析と検証

Published: December 13, 2024
doi:

概要

このプロトコルは、バイオインフォマティクスの初心者に、CUT&RUNシーケンシングデータの初期解析とバリデーションを完了するための入門的なCUT&RUN解析パイプラインをガイドします。ここで説明する分析ステップを完了し、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーはクロマチン制御に関するメカニズムの洞察を引き出すことができます。

Abstract

CUT&RUN技術は、ゲノム全体にわたるタンパク質-DNA相互作用の検出を容易にします。CUT&RUNの代表的なアプリケーションには、ヒストンテール修飾のプロファイリング変更や、転写因子のクロマチン占有率のマッピングなどがあります。CUT&RUNが広く採用されるようになったのは、従来のChIP-seqに比べて、細胞投入量やシーケンシング深度の要件が低いこと、抗体エピトープをマスクする架橋剤がないためにバックグラウンドシグナルが減少することで感度が向上することなど、技術的な利点が一因となっています。また、ヘニコフ研究室による試薬の寛大な共有や、初心者への普及を加速するための市販キットの開発により、CUT&RUNの普及が進んでいます。CUT&RUNの技術的な採用が進むにつれ、CUT&RUNのシーケンシング解析とバリデーションは、主にウェットラボチームによる完全な採用を可能にするために克服しなければならない重大なボトルネックとなっています。CUT&RUN解析は、通常、生のシーケンシングリードの品質管理チェックから始まり、シーケンシングの深さ、リード品質、潜在的なバイアスを評価します。次に、リードをリファレンスゲノム配列アセンブリにアラインメントし、その後、いくつかのバイオインフォマティクスツールを使用して、タンパク質濃縮のゲノム領域にアノテーションを付け、データの解釈可能性を確認し、生物学的結論を導き出します。CUT&RUNデータ解析をサポートするために、複数の in silico 解析パイプラインが開発されていますが、その複雑なマルチモジュール構造や複数のプログラミング言語の使用により、複数のプログラミング言語に精通していないバイオインフォマティクスの初心者にとっては、CUT&RUNの解析手順を理解し、解析パイプラインをカスタマイズしたいと考えている人にとっては、このプラットフォームは困難です。ここでは、バイオインフォマティクスの経験が豊富なユーザー向けに、単一言語のステップバイステップのCUT&RUN解析パイプラインプロトコルを提供します。このプロトコルには、シーケンシングデータが生物学的解釈に適していることを確認するための重要な品質チェックを完了することが含まれます。本稿で紹介した導入プロトコルに従い、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーは自身のCUT&RUNデータセットから生物学的な知見を引き出すことができると期待しています。

Introduction

タンパク質とゲノムDNAとの間の相互作用を測定する能力は、クロマチン制御の生物学を理解するための基本です。特定のタンパク質のクロマチン占有率を測定する効果的なアッセイは、少なくとも2つの重要な情報を提供します:i)ゲノム局在とii)特定のゲノム領域におけるタンパク質の存在量。クロマチンに関心のあるタンパク質の動員と局在の変化を追跡することで、タンパク質の直接的な標的遺伝子座を明らかにし、転写の調節、DNA修復、DNA複製などのクロマチンベースの生物学的プロセスにおけるそのタンパク質の機構的役割を明らかにすることができます。現在、タンパク質とDNAの相互作用をプロファイリングする技術が利用可能なため、研究者はこれまでにない解像度で制御を探求することができます。このような技術的進歩は、Henikoff研究室によるCleavage Under Targets and Release Using Nuclease(CUT&RUN)の開発を含む新しいクロマチンプロファイリング技術の導入によって可能になりました。CUT&RUNは、従来のクロマチン免疫沈降法 (ChIP) に比べて、細胞投入量が少なく、シーケンシング深度が不十分で、抗体エピトープを隠す架橋剤がないためバックグラウンドシグナルが減少し感度が向上するなど、いくつかの技術的利点があります。この手法をクロマチン制御の研究に採用するには、この手法の根底にある原理を十分に理解し、CUT&RUNデータの解析、検証、解釈の方法を理解する必要があります。

CUT&RUNの手技は、磁気ビーズに結合したコンカナバリンAに細胞を結合させることから始まり、手技全体を通して低い細胞数を操作できるようになります。単離された細胞は、目的のタンパク質を標的とする抗体の導入を容易にするために、中性界面活性剤を使用して透過処理されます。次に、ミクロコッカスヌクレアーゼ(MNase)は、酵素につながれたプロテインAまたはプロテインA/Gタグを使用して、結合した抗体にリクルートされます。カルシウムは酵素活性を開始するために導入されます。MNase消化は、モノヌクレオソームDNA-タンパク質複合体をもたらします。その後、カルシウムをキレート化して消化反応を終了させ、MNase消化から得られた短いDNA断片を核から放出した後、DNA精製、ライブラリー調製、ハイスループットシーケンシングを行います1 (図1)。

ゲノム全体のタンパク質占有率をマッピングおよび定量化するインシリコアプローチは、DNAとタンパク質の相互作用を濃縮するために使用されるウェットラボアプローチと並行して開発されました。濃縮されたシグナル(ピーク)の領域の同定は、バイオインフォマティクス解析における最も重要なステップの1つです。初期のChIP-seq解析法では、MACS2やSICER3などのアルゴリズムを使用し、統計モデルを用いて真正なタンパク質-DNA結合部位をバックグラウンドノイズから区別しました。しかし、CUT&RUNデータのバックグラウンドノイズが少なく、解像度が高いため、ChIP-seq解析で使用される一部のピークコールプログラムはCUT&RUN解析には適していません4。この課題は、CUT&RUNデータの解析により適した新しいツールの必要性を浮き彫りにしています。SEACR4は、ChIP-seq解析に通常使用されるツールに関連する制限を克服しながら、CUT&RUNデータからのピークコールを可能にするために最近開発されたツールの1つです。

CUT&RUNシーケンシングデータからの生物学的解釈は、解析パイプラインのピークコールの下流の出力から引き出されます。CUT&RUNデータから呼び出されたピークの生物学的関連性を予測するために、いくつかの機能アノテーションプログラムを実装することができます。例えば、Gene Ontology(GO)プロジェクトは、関心のある遺伝子の確立された機能的同定を提供します5,6,7。さまざまなソフトウェアツールやリソースにより、GO解析が容易になり、CUT&RUNピーク891011121314に濃縮された遺伝子や遺伝子セットが明らかになります。さらに、Deeptools15、Integrative genomics viewer(IGV)16、UCSC Genome Browser17などの可視化ソフトウェアにより、ゲノム全体の関心領域におけるシグナル分布とパターンの可視化が可能になります。

CUT&RUNのデータから生物学的な解釈を引き出すことができるかどうかは、データ品質の検証に大きく依存します。バリデーションを行う重要なコンポーネントには、i) CUT&RUNライブラリのシーケンシング品質、ii) 複製類似性、iii) ピークセンターでのシグナル分布の評価が含まれます。3つのコンポーネントすべてのバリデーションを完了することは、CUT&RUNライブラリのサンプルとダウンストリーム解析結果の信頼性を確保するために重要です。そのため、バイオインフォマティクスの初心者やウェットラボの研究者が、標準的なCUT&RUN解析パイプラインの一部としてこのような検証ステップを実施できるように、CUT&RUN解析の入門ガイドを作成することが不可欠です。

ウェットラボでのCUT&RUN実験の開発と並行して、CUT&RUNTools 2.018,19、nf-core/cutandrun20、CnRAP21など、さまざまなin silico CUT&RUN解析パイプラインが開発され、CUT&RUNデータ解析を支援してきました。これらのツールは、シングルセルおよびバルクのCUT&RUNおよびCUT&Tagデータセットを解析するための強力なアプローチを提供します。しかし、比較的複雑なモジュール化されたプログラム構造や、これらの解析パイプラインを実行するために複数のプログラミング言語に精通している必要があるため、CUT&RUNの解析ステップを徹底的に理解し、独自のパイプラインをカスタマイズしようとするバイオインフォマティクスの初心者には採用が妨げられる可能性があります。この障壁を回避するには、シンプルな単一のプログラミング言語を使用してエンコードされたシンプルなステップバイステップのスクリプトで提供される新しい入門的なCUT&RUN解析パイプラインが必要です。

この記事では、新規ユーザーや初心者ユーザーがCUT&RUNシーケンシング解析を実施できるように、ステップバイステップのスクリプトと詳細な説明を提供する、シンプルな単一言語のCUT&RUN解析パイプラインプロトコルについて説明します。このパイプラインで使用されるプログラムは、元の開発者グループによって公開されています。このプロトコルに記載されている主なステップには、リードアライメント、ピークコール、機能解析、そして最も重要なのは、生物学的解釈に対するデータの適合性と信頼性を判断するためのサンプル品質を評価するためのバリデーションステップです(図2)。さらに、このパイプラインにより、ユーザーは公開されているCUT&RUNデータセットに対して解析結果を相互参照することができます。最終的に、このCUT&RUN解析パイプラインプロトコルは、バイオインフォマティクス解析の初心者やウェットラボの研究者にとって、入門ガイドおよびリファレンスとして機能します。

Protocol

注意: GSE126612のCUT&RUN高速qファイルに関する情報は 、表1に記載されています。この調査で使用したソフトウェアアプリケーションに関連する情報は、 資料の表に記載されています。 1. GithubページからEasy-Shells_CUTnRUNパイプラインをダウンロードする オペレーティングシステムからターミナルを開きま…

Representative Results

品質とアダプタートリミングにより、高いシーケンシング品質で読み取りを保持ハイスループットシーケンシング技術は、リードの配列「変異」などのシーケンシングエラーを生成する傾向があります。さらに、シーケンシングアダプターダイマーは、ライブラリ調製中のアダプター除去が不十分なため、シーケンシングデータセットで濃縮できます…

Discussion

クロマチン上のタンパク質占有率をマッピングする能力は、クロマチン生物学の分野で機構研究を行うための基本です。ラボがクロマチンのプロファイリングに新しいウェットラボ技術を採用するにつれて、ウェットラボ実験からのシーケンシングデータを分析する能力は、ウェットラボの科学者にとって共通のボトルネックになります。そこで、バイオインフォマ…

開示

The authors have nothing to disclose.

Acknowledgements

イラスト入りのフィギュアはすべて BioRender.com で作成しました。CAIは、Ovarian Cancer Research Alliance Early Career Investigator Award、Forbeck Foundation Accelerator Grant、Minnestoa Ovarian Cancer Alliance National Early Detection Research Awardを通じて提供された支援を認めています。

Materials

bedGraphToBigWig ENCODE https://hgdownload.soe.ucsc.edu/admin/exe/ Software to compress and convert readcounts bedGraph to bigWig
bedtools-2.31.1 The Quinlan Lab @ the U. of Utah https://bedtools.readthedocs.io/en/latest/index.html Software to process bam/bed/bedGraph files
bowtie2 2.5.4 Johns Hopkins University https://bowtie-bio.sourceforge.net/bowtie2/index.shtml Software to build bowtie index and perform alignment
CollectInsertSizeMetrics (Picard) Broad institute https://github.com/broadinstitute/picard Software to perform insert size distribution analysis
Cutadapt NBIS https://cutadapt.readthedocs.io/en/stable/index.html Software to perform adapter trimming
Deeptoolsv3.5.1 Max Planck Institute https://deeptools.readthedocs.io/en/develop/index.html Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis
FastQC Version 0.12.0 Babraham Bioinformatics https://github.com/s-andrews/FastQC Software to check quality of fastq file
Intervenev0.6.1 Computational Biology & Gene regulation – Mathelier group https://intervene.readthedocs.io/en/latest/index.html Software to perform venn diagram analysis using peak files
MACSv2.2.9.1 Chan Zuckerberg initiative https://github.com/macs3-project/MACS/tree/macs_v2 Software to call peaks
MACSv3.0.2 Chan Zuckerberg initiative https://github.com/macs3-project/MACS/tree/master Software to call peaks
Samtools-1.21 Wellcome Sanger Institute https://github.com/samtools/samtools Software to process sam/bam files
SEACRv1.3 Howard Hughes Medial institute https://github.com/FredHutch/SEACR Software to call peaks
SRA Toolkit Release 3.1.1 NCBI https://github.com/ncbi/sra-tools Software to download SRR from GEO
Trim_Galore v0.6.10 Babraham Bioinformatics https://github.com/FelixKrueger/TrimGalore Software to perform quality and atapter trimming

参考文献

  1. Hainer, S. J., Fazzio, T. G. High-resolution chromatin profiling using CUT&RUN. Curr Protoc Mol Biol. 126 (1), e85 (2019).
  2. Zhang, Y., et al. Model-based analysis of ChiP-Seq (MACS). Genome Biology. 9 (9), R137 (2008).
  3. Xu, S., Grullon, S., Ge, K., Peng, W. . Stem cell transcriptional networks: Methods and Protocols. , (2014).
  4. Meers, M. P., Tenenbaum, D., Henikoff, S. Peak calling by sparse enrichment analysis for cut&run chromatin profiling. Epigenetics Chromatin. 12 (1), 42 (2019).
  5. Ashburner, M., et al. Gene ontology: Tool for the unification of biology. The gene ontology consortium. Nat Genet. 25 (1), 25-29 (2000).
  6. Harris, M. A., et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res. 32 (Database issue), D258-D261 (2004).
  7. The Gene Ontology Consortium. The gene ontology resource: 20 years and still going strong. Nucleic Acids Res. 47 (D1), D330-D338 (2019).
  8. Conesa, A., et al. Blast2go: A universal tool for annotation, visualization and analysis in functional genomics research. バイオインフォマティクス. 21 (18), 3674-3676 (2005).
  9. Carbon, S., et al. AmiGO: Online access to ontology and annotation data. バイオインフォマティクス. 25 (2), 288-289 (2009).
  10. Eden, E., Navon, R., Steinfeld, I., Lipson, D., Yakhini, Z. Gorilla: A tool for discovery and visualization of enriched go terms in ranked gene lists. BMC Bioinformatics. 10, 48 (2009).
  11. Huang Da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  12. Huang Da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  13. Ge, S. X., Jung, D., Yao, R. ShinyGO: A graphical gene-set enrichment tool for animals and plants. バイオインフォマティクス. 36 (8), 2628-2629 (2020).
  14. Tang, D., et al. SRplot: A free online platform for data visualization and graphing. PLoS One. 18 (11), e0294236 (2023).
  15. Ramírez, F., et al. Deeptools2: A next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 44 (W1), W160-W165 (2016).
  16. Robinson, J. T., et al. Integrative genomics viewer. Nat Biotechnol. 29 (1), 24-26 (2011).
  17. Kent, W. J., et al. The human genome browser at ucsc. Genome Res. 12 (6), 996-1006 (2002).
  18. Yu, F., Sankaran, V. G., Yuan, G. -. C. CUT&RUNTools 2.0: A pipeline for single-cell and bulk-level CUT&RUN and CUT&Tag data analysis. バイオインフォマティクス. 38 (1), 252-254 (2021).
  19. Zhu, Q., Liu, N., Orkin, S. H., Yuan, G. -. C. CUT&RUNTools: A flexible pipeline for CUT&RUN processing and footprint analysis. Genome Biol. 20 (1), 192 (2019).
  20. . Nf-core/cutandrun: Nf-core/cutandrun v3.2.2 iridium ibis Available from: https://github.com/nf-core/cutandrun/tree/3.2.2 (2024)
  21. Kong, N. R., Chai, L., Tenen, D. G., Bassal, M. A. A modified CUT&RUN protocol and analysis pipeline to identify transcription factor binding sites in human cell lines. STAR Protoc. 2 (3), 100750 (2021).
  22. Meers, M. P., Bryson, T. D., Henikoff, J. G., Henikoff, S. Improved CUT&RUN chromatin profiling tools. eLife. 8, e46314 (2019).
  23. Amemiya, H. M., Kundaje, A., Boyle, A. P. The encode blacklist: Identification of problematic regions of the genome. Sci Rep. 9 (1), 9354 (2019).
  24. Deberardine, M. BRgenomics for analyzing high-resolution genomics data in R. バイオインフォマティクス. 39 (6), btad331 (2023).
  25. Deberardine, M., Booth, G. T., Versluis, P. P., Lis, J. T. The nelf pausing checkpoint mediates the functional divergence of cdk9. Nat Commun. 14 (1), 2762 (2023).
  26. Krueger, F., James, F. O., Ewels, P. A., Afyounian, E., Schuster-Boeckler, B. . FelixKrueger/TrimGalore: v0.6.7 – DOI via Zenodo. , (2021).
  27. . Easy bam downsampling Available from: https://davemcg.github.io/post/easy-bam-downsampling/ (2018)
  28. . Positionbaseddownsamplesam (picard) Available from: https://gatk.broadinstitute.org/hc/en-us/articles/360041850311-PositionBasedDownsampleSam-Picard (2020)

Play Video

記事を引用
Lee, J., Chatterjee, B., Oh, N., Saha, D., Lu, Y., Bartholomew, B., Ishak, C. A. Introductory Analysis and Validation of CUT&RUN Sequencing Data. J. Vis. Exp. (214), e67359, doi:10.3791/67359 (2024).

View Video