Summary

Einführende Analyse und Validierung von CUT&RUN-Sequenzierungsdaten

Published: December 13, 2024
doi:

Summary

Dieses Protokoll führt Bioinformatik-Einsteiger durch eine einführende CUT&RUN-Analysepipeline, die es den Benutzern ermöglicht, eine erste Analyse und Validierung von CUT&RUN-Sequenzierungsdaten durchzuführen. Das Abschließen der hier beschriebenen Analyseschritte in Kombination mit der nachgeschalteten Peak-Annotation ermöglicht es den Benutzern, mechanistische Einblicke in die Chromatinregulation zu gewinnen.

Abstract

Die CUT&RUN-Technik erleichtert den Nachweis von Protein-DNA-Wechselwirkungen im gesamten Genom. Typische Anwendungen von CUT&RUN sind die Profilierung von Änderungen in Histonschwanzmodifikationen oder die Kartierung der Chromatinbelegung des Transkriptionsfaktors. Die weit verbreitete Einführung von CUT&RUN ist zum Teil auf technische Vorteile gegenüber herkömmlichem ChIP-seq zurückzuführen, zu denen geringere Anforderungen an den Zelleinsatz, geringere Anforderungen an die Sequenzierungstiefe und eine erhöhte Empfindlichkeit mit reduziertem Hintergrundsignal gehören, da es an Vernetzungsmitteln mangelt, die sonst Antikörper-Epitope maskieren. Die breite Akzeptanz von CUT&RUN wurde auch durch die großzügige gemeinsame Nutzung von Reagenzien durch das Henikoff-Labor und die Entwicklung kommerzieller Kits erreicht, um die Einführung für Anfänger zu beschleunigen. Mit zunehmender technischer Einführung von CUT&RUN werden die CUT&RUN-Sequenzierungsanalyse und -validierung zu kritischen Engpässen, die überwunden werden müssen, um eine vollständige Einführung durch überwiegend nasse Laborteams zu ermöglichen. Die CUT&RUN-Analyse beginnt in der Regel mit einer Qualitätskontrolle der Rohsequenzierungs-Reads, um die Sequenzierungstiefe, die Read-Qualität und mögliche Verzerrungen zu bewerten. Die Reads werden dann mit einer Referenzgenomsequenz-Assemblierung abgeglichen, und mehrere bioinformatische Werkzeuge werden anschließend eingesetzt, um genomische Regionen der Proteinanreicherung zu annotieren, die Interpretierbarkeit der Daten zu bestätigen und biologische Schlussfolgerungen zu ziehen. Obwohl mehrere In-silico-Analysepipelines entwickelt wurden, um die CUT&RUN-Datenanalyse zu unterstützen, machen ihre komplexe Multi-Modul-Struktur und die Verwendung mehrerer Programmiersprachen die Plattformen für Bioinformatik-Anfänger schwierig, die möglicherweise nicht mit mehreren Programmiersprachen vertraut sind, aber das CUT&RUN-Analyseverfahren verstehen und ihre Analysepipelines anpassen möchten. Hier stellen wir ein einsprachiges Schritt-für-Schritt-Analyse-Pipeline-Protokoll für CUT&RUN zur Verfügung, das für Benutzer mit jeder Erfahrung in der Bioinformatik entwickelt wurde. Dieses Protokoll umfasst die Durchführung kritischer Qualitätsprüfungen, um zu bestätigen, dass die Sequenzierungsdaten für die biologische Interpretation geeignet sind. Wir gehen davon aus, dass das Befolgen des in diesem Artikel vorgestellten Einführungsprotokolls in Kombination mit der Downstream-Peak-Annotation es den Nutzern ermöglicht, biologische Erkenntnisse aus ihren eigenen CUT&RUN-Datensätzen zu gewinnen.

Introduction

Die Fähigkeit, Wechselwirkungen zwischen Proteinen und genomischer DNA zu messen, ist von grundlegender Bedeutung für das Verständnis der Biologie der Chromatinregulation. Effektive Assays, die die Chromatinbelegung für ein bestimmtes Protein messen, liefern mindestens zwei Schlüsselinformationen: i) die genomische Lokalisierung und ii) die Proteinhäufigkeit in einer bestimmten genomischen Region. Die Verfolgung der Rekrutierungs- und Lokalisierungsänderungen eines Proteins von Interesse im Chromatin kann direkte Zielloci des Proteins aufdecken und mechanistische Rollen dieses Proteins in chromatinbasierten biologischen Prozessen wie der Regulation der Transkription, der DNA-Reparatur oder der DNA-Replikation aufdecken. Die heute verfügbaren Techniken zur Profilierung von Protein-DNA-Wechselwirkungen ermöglichen es Forschern, die Regulation mit beispielloser Auflösung zu erforschen. Solche technischen Fortschritte wurden durch die Einführung neuer Chromatin-Profiling-Techniken ermöglicht, zu denen auch die Entwicklung von Cleavage Under Targets und Release Using Nuclease (CUT&RUN) durch das Henikoff-Labor gehört. CUT&RUN bietet mehrere technische Vorteile gegenüber der herkömmlichen Chromatin-Immunpräzipitation (ChIP), darunter geringere Anforderungen an den Zelleinsatz, geringere Anforderungen an die Sequenzierungstiefe und eine erhöhte Empfindlichkeit mit reduziertem Hintergrundsignal aufgrund eines Mangels an Vernetzungsmitteln, die sonst Antikörper-Epitope maskieren. Die Anwendung dieser Technik zur Untersuchung der Chromatinregulation erfordert ein gründliches Verständnis des Prinzips, das der Technik zugrunde liegt, und ein Verständnis dafür, wie CUT&RUN-Daten analysiert, validiert und interpretiert werden.

Das CUT&RUN-Verfahren beginnt mit der Bindung von Zellen an Concanavalin A, das an magnetische Kügelchen konjugiert ist, um eine Manipulation geringer Zellzahlen während des gesamten Verfahrens zu ermöglichen. Isolierte Zellen werden mit einem milden Detergens permeabilisiert, um die Einführung eines Antikörpers zu erleichtern, der auf das gewünschte Protein abzielt. Die Mikrokokken-Nuklease (MNase) wird dann mit Hilfe eines Protein-A- oder Protein-A/G-Tags, das an das Enzym gebunden ist, an den gebundenen Antikörper rekrutiert. Kalzium wird eingeführt, um die enzymatische Aktivität zu initiieren. Der MNase-Verdau führt zu mononukleosomalen DNA-Protein-Komplexen. Anschließend wird Calcium chelatisiert, um die Verdauungsreaktion zu beenden, und kurze DNA-Fragmente aus dem MNase-Verdau werden aus den Zellkernen freigesetzt und dann einer DNA-Reinigung, einer Bibliotheksvorbereitung und einer Hochdurchsatzsequenzierungunterzogen 1 (Abbildung 1).

In-silico-Ansätze zur Kartierung und Quantifizierung der Proteinbelegung im gesamten Genom haben sich parallel zu den Nasslaboransätzen entwickelt, die zur Anreicherung dieser DNA-Protein-Wechselwirkungen verwendet werden. Die Identifizierung von Regionen angereicherter Signale (Peaks) ist einer der wichtigsten Schritte in der bioinformatischen Analyse. Erste ChIP-seq-Analysemethoden verwendeten Algorithmen wie MACS2 und SICER3, die statistische Modelle verwendeten, um Bona-fide-Protein-DNA-Bindungsstellen aus dem Hintergrundrauschen zu unterscheiden. Das geringere Hintergrundrauschen und die höhere Auflösung der CUT&RUN-Daten machen jedoch einige Peak-Calling-Programme, die in der ChIP-seq-Analyse verwendet werden, für die CUT&RUN-Analyse ungeeignet4. Diese Herausforderung unterstreicht den Bedarf an neuen Werkzeugen, die besser für die Analyse von CUT&RUN-Daten geeignet sind. SEACR4 stellt ein solches Tool dar, das kürzlich entwickelt wurde, um Spitzenaufrufe von CUT&RUN-Daten zu ermöglichen und gleichzeitig die Einschränkungen zu überwinden, die mit Tools verbunden sind, die typischerweise für die ChIP-seq-Analyse eingesetzt werden.

Biologische Interpretationen aus CUT&RUN-Sequenzierungsdaten werden aus den Ausgängen nach dem Peak-Aufruf in der Analysepipeline gezogen. Es können verschiedene funktionale Annotationsprogramme implementiert werden, um die potentielle biologische Relevanz der aufgerufenen Peaks aus CUT&RUN-Daten vorherzusagen. Zum Beispiel bietet das Projekt Gene Ontology (GO) eine gut etablierte funktionelle Identifizierung von Genen von Interesse 5,6,7. Verschiedene Software-Tools und Ressourcen erleichtern die GO-Analyse, um Gene und Gensätze aufzudecken, die unter den CUT&RUN-Peaks 8,9,10,11,12,13,14 angereichert sind. Darüber hinaus ermöglichen Visualisierungssoftware wie Deeptools15, Integrative Genomics Viewer (IGV)16 und UCSC Genome Browser17 die Visualisierung von Signalverteilung und -mustern in interessanten Regionen des Genoms.

Die Fähigkeit, biologische Interpretationen aus CUT&RUN-Daten zu ziehen, hängt entscheidend von der Validierung der Datenqualität ab. Zu den kritischen Komponenten, die validiert werden müssen, gehören die Bewertung von: i) der Qualität der CUT&RUN-Bibliothekssequenzierung, ii) der Replikatähnlichkeit und iii) der Signalverteilung in den Peakzentren. Der Abschluss der Validierung aller drei Komponenten ist entscheidend, um die Zuverlässigkeit der CUT&RUN-Bibliotheksproben und der nachgelagerten Analyseergebnisse zu gewährleisten. Daher ist es wichtig, einführende CUT&RUN-Analyseleitfäden zu erstellen, die es Bioinformatik-Anfängern und Nasslaborforschern ermöglichen, solche Validierungsschritte als Teil ihrer Standard-CUT&RUN-Analysepipelines durchzuführen.

Neben der Entwicklung des CUT&RUN-Experiments im Nasslabor wurden verschiedene in silico CUT&RUN-Analysepipelines wie CUT&RUNTools 2.018,19, nf-core/cutandrun 20 und CnRAP21 entwickelt, um die CUT&RUN-Datenanalyse zu unterstützen. Diese Werkzeuge bieten leistungsstarke Ansätze für die Analyse von Einzelzell- und Massen-CUT&RUN- und CUT&Tag-Datensätzen. Die relativ komplexe modulare Programmstruktur und die erforderliche Vertrautheit mit mehreren Programmiersprachen zur Durchführung dieser Analysepipelines können jedoch die Einführung durch Bioinformatik-Anfänger behindern, die die CUT&RUN-Analyseschritte gründlich verstehen und ihre eigenen Pipelines anpassen möchten. Um diese Barriere zu umgehen, ist eine neue einführende CUT&RUN-Analysepipeline erforderlich, die in einfachen Schritt-für-Schritt-Skripten bereitgestellt wird, die mit einer einfachen Programmiersprache codiert sind.

In diesem Artikel beschreiben wir ein einfaches, einsprachiges CUT&RUN-Analyse-Pipeline-Protokoll, das Schritt-für-Schritt-Skripte mit detaillierten Beschreibungen bereitstellt, um neuen und unerfahrenen Benutzern die Durchführung von CUT&RUN-Sequenzierungsanalysen zu ermöglichen. Programme, die in dieser Pipeline verwendet werden, sind von den ursprünglichen Entwicklergruppen öffentlich verfügbar. Zu den wichtigsten Schritten, die in diesem Protokoll beschrieben werden, gehören das Read-Alignment, das Peak-Calling, die Funktionsanalyse und vor allem Validierungsschritte zur Bewertung der Probenqualität, um die Eignung und Zuverlässigkeit der Daten für die biologische Interpretation zu bestimmen (Abbildung 2). Darüber hinaus bietet diese Pipeline den Nutzern die Möglichkeit, Analyseergebnisse mit öffentlich zugänglichen CUT&RUN-Datensätzen zu vergleichen. Letztendlich dient dieses CUT&RUN-Analyse-Pipeline-Protokoll als Einführungsleitfaden und Referenz für Einsteiger in die bioinformatische Analyse und Nasslaborforscher.

Protocol

HINWEIS: Informationen zu CUT&RUN fastq-Dateien in GSE126612 finden Sie in Tabelle 1. Informationen zu den in dieser Studie verwendeten Softwareanwendungen sind in der Materialtabelle aufgeführt. 1. Herunterladen der Easy-Shells_CUTnRUN-Pipeline von der Github-Seite Öffnen Sie das Terminal über das Betriebssystem.HINWEIS: Wenn der Benutzer nicht sicher ist, wie das Terminal unter macOS und Win…

Representative Results

Qualität und Adaptertrimmung behalten Lesevorgänge mit hoher Sequenzierungsqualität beiHochdurchsatz-Sequenzierungstechniken sind anfällig für Sequenzierungsfehler wie Sequenzierungsmutationen in Reads. Darüber hinaus können Sequenzierungsadapter-Dimere in Sequenzierungsdatensätzen angereichert werden, da der Adapter während der Bibliotheksvorbereitung schlecht entfernt wird. Übermäßige Sequenzierungsfehler, wie z. B. Read-Mutationen, die Generierung von …

Discussion

Die Fähigkeit, die Proteinbelegung auf dem Chromatin zu kartieren, ist von grundlegender Bedeutung für die Durchführung mechanistischer Studien auf dem Gebiet der Chromatinbiologie. Da Labore neue Nasslabortechniken zur Profilierung des Chromatins einführen, wird die Fähigkeit, Sequenzierungsdaten aus diesen Nasslaborexperimenten zu analysieren, zu einem häufigen Engpass für Nasslaborwissenschaftler. Daher beschreiben wir ein einführendes Schritt-für-Schritt-Protokoll, das es Bi…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Alle abgebildeten Figuren sind mit BioRender.com entstanden. Das CAI würdigt die Unterstützung durch einen Ovarian Cancer Research Alliance Early Career Investigator Award, einen Forbeck Foundation Accelerator Grant und den Minnestoa Ovarian Cancer Alliance National Early Detection Research Award.

Materials

bedGraphToBigWig ENCODE https://hgdownload.soe.ucsc.edu/admin/exe/ Software to compress and convert readcounts bedGraph to bigWig
bedtools-2.31.1 The Quinlan Lab @ the U. of Utah https://bedtools.readthedocs.io/en/latest/index.html Software to process bam/bed/bedGraph files
bowtie2 2.5.4 Johns Hopkins University https://bowtie-bio.sourceforge.net/bowtie2/index.shtml Software to build bowtie index and perform alignment
CollectInsertSizeMetrics (Picard) Broad institute https://github.com/broadinstitute/picard Software to perform insert size distribution analysis
Cutadapt NBIS https://cutadapt.readthedocs.io/en/stable/index.html Software to perform adapter trimming
Deeptoolsv3.5.1 Max Planck Institute https://deeptools.readthedocs.io/en/develop/index.html Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis
FastQC Version 0.12.0 Babraham Bioinformatics https://github.com/s-andrews/FastQC Software to check quality of fastq file
Intervenev0.6.1 Computational Biology & Gene regulation – Mathelier group https://intervene.readthedocs.io/en/latest/index.html Software to perform venn diagram analysis using peak files
MACSv2.2.9.1 Chan Zuckerberg initiative https://github.com/macs3-project/MACS/tree/macs_v2 Software to call peaks
MACSv3.0.2 Chan Zuckerberg initiative https://github.com/macs3-project/MACS/tree/master Software to call peaks
Samtools-1.21 Wellcome Sanger Institute https://github.com/samtools/samtools Software to process sam/bam files
SEACRv1.3 Howard Hughes Medial institute https://github.com/FredHutch/SEACR Software to call peaks
SRA Toolkit Release 3.1.1 NCBI https://github.com/ncbi/sra-tools Software to download SRR from GEO
Trim_Galore v0.6.10 Babraham Bioinformatics https://github.com/FelixKrueger/TrimGalore Software to perform quality and atapter trimming

Referenzen

  1. Hainer, S. J., Fazzio, T. G. High-resolution chromatin profiling using CUT&RUN. Curr Protoc Mol Biol. 126 (1), e85 (2019).
  2. Zhang, Y., et al. Model-based analysis of ChiP-Seq (MACS). Genome Biology. 9 (9), R137 (2008).
  3. Xu, S., Grullon, S., Ge, K., Peng, W. . Stem cell transcriptional networks: Methods and Protocols. , (2014).
  4. Meers, M. P., Tenenbaum, D., Henikoff, S. Peak calling by sparse enrichment analysis for cut&run chromatin profiling. Epigenetics Chromatin. 12 (1), 42 (2019).
  5. Ashburner, M., et al. Gene ontology: Tool for the unification of biology. The gene ontology consortium. Nat Genet. 25 (1), 25-29 (2000).
  6. Harris, M. A., et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res. 32 (Database issue), D258-D261 (2004).
  7. The Gene Ontology Consortium. The gene ontology resource: 20 years and still going strong. Nucleic Acids Res. 47 (D1), D330-D338 (2019).
  8. Conesa, A., et al. Blast2go: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  9. Carbon, S., et al. AmiGO: Online access to ontology and annotation data. Bioinformatics. 25 (2), 288-289 (2009).
  10. Eden, E., Navon, R., Steinfeld, I., Lipson, D., Yakhini, Z. Gorilla: A tool for discovery and visualization of enriched go terms in ranked gene lists. BMC Bioinformatics. 10, 48 (2009).
  11. Huang Da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  12. Huang Da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  13. Ge, S. X., Jung, D., Yao, R. ShinyGO: A graphical gene-set enrichment tool for animals and plants. Bioinformatics. 36 (8), 2628-2629 (2020).
  14. Tang, D., et al. SRplot: A free online platform for data visualization and graphing. PLoS One. 18 (11), e0294236 (2023).
  15. Ramírez, F., et al. Deeptools2: A next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 44 (W1), W160-W165 (2016).
  16. Robinson, J. T., et al. Integrative genomics viewer. Nat Biotechnol. 29 (1), 24-26 (2011).
  17. Kent, W. J., et al. The human genome browser at ucsc. Genome Res. 12 (6), 996-1006 (2002).
  18. Yu, F., Sankaran, V. G., Yuan, G. -. C. CUT&RUNTools 2.0: A pipeline for single-cell and bulk-level CUT&RUN and CUT&Tag data analysis. Bioinformatics. 38 (1), 252-254 (2021).
  19. Zhu, Q., Liu, N., Orkin, S. H., Yuan, G. -. C. CUT&RUNTools: A flexible pipeline for CUT&RUN processing and footprint analysis. Genome Biol. 20 (1), 192 (2019).
  20. . Nf-core/cutandrun: Nf-core/cutandrun v3.2.2 iridium ibis Available from: https://github.com/nf-core/cutandrun/tree/3.2.2 (2024)
  21. Kong, N. R., Chai, L., Tenen, D. G., Bassal, M. A. A modified CUT&RUN protocol and analysis pipeline to identify transcription factor binding sites in human cell lines. STAR Protoc. 2 (3), 100750 (2021).
  22. Meers, M. P., Bryson, T. D., Henikoff, J. G., Henikoff, S. Improved CUT&RUN chromatin profiling tools. eLife. 8, e46314 (2019).
  23. Amemiya, H. M., Kundaje, A., Boyle, A. P. The encode blacklist: Identification of problematic regions of the genome. Sci Rep. 9 (1), 9354 (2019).
  24. Deberardine, M. BRgenomics for analyzing high-resolution genomics data in R. Bioinformatics. 39 (6), btad331 (2023).
  25. Deberardine, M., Booth, G. T., Versluis, P. P., Lis, J. T. The nelf pausing checkpoint mediates the functional divergence of cdk9. Nat Commun. 14 (1), 2762 (2023).
  26. Krueger, F., James, F. O., Ewels, P. A., Afyounian, E., Schuster-Boeckler, B. . FelixKrueger/TrimGalore: v0.6.7 – DOI via Zenodo. , (2021).
  27. . Easy bam downsampling Available from: https://davemcg.github.io/post/easy-bam-downsampling/ (2018)
  28. . Positionbaseddownsamplesam (picard) Available from: https://gatk.broadinstitute.org/hc/en-us/articles/360041850311-PositionBasedDownsampleSam-Picard (2020)

Play Video

Diesen Artikel zitieren
Lee, J., Chatterjee, B., Oh, N., Saha, D., Lu, Y., Bartholomew, B., Ishak, C. A. Introductory Analysis and Validation of CUT&RUN Sequencing Data. J. Vis. Exp. (214), e67359, doi:10.3791/67359 (2024).

View Video