Dieses Protokoll führt Bioinformatik-Einsteiger durch eine einführende CUT&RUN-Analysepipeline, die es den Benutzern ermöglicht, eine erste Analyse und Validierung von CUT&RUN-Sequenzierungsdaten durchzuführen. Das Abschließen der hier beschriebenen Analyseschritte in Kombination mit der nachgeschalteten Peak-Annotation ermöglicht es den Benutzern, mechanistische Einblicke in die Chromatinregulation zu gewinnen.
Die CUT&RUN-Technik erleichtert den Nachweis von Protein-DNA-Wechselwirkungen im gesamten Genom. Typische Anwendungen von CUT&RUN sind die Profilierung von Änderungen in Histonschwanzmodifikationen oder die Kartierung der Chromatinbelegung des Transkriptionsfaktors. Die weit verbreitete Einführung von CUT&RUN ist zum Teil auf technische Vorteile gegenüber herkömmlichem ChIP-seq zurückzuführen, zu denen geringere Anforderungen an den Zelleinsatz, geringere Anforderungen an die Sequenzierungstiefe und eine erhöhte Empfindlichkeit mit reduziertem Hintergrundsignal gehören, da es an Vernetzungsmitteln mangelt, die sonst Antikörper-Epitope maskieren. Die breite Akzeptanz von CUT&RUN wurde auch durch die großzügige gemeinsame Nutzung von Reagenzien durch das Henikoff-Labor und die Entwicklung kommerzieller Kits erreicht, um die Einführung für Anfänger zu beschleunigen. Mit zunehmender technischer Einführung von CUT&RUN werden die CUT&RUN-Sequenzierungsanalyse und -validierung zu kritischen Engpässen, die überwunden werden müssen, um eine vollständige Einführung durch überwiegend nasse Laborteams zu ermöglichen. Die CUT&RUN-Analyse beginnt in der Regel mit einer Qualitätskontrolle der Rohsequenzierungs-Reads, um die Sequenzierungstiefe, die Read-Qualität und mögliche Verzerrungen zu bewerten. Die Reads werden dann mit einer Referenzgenomsequenz-Assemblierung abgeglichen, und mehrere bioinformatische Werkzeuge werden anschließend eingesetzt, um genomische Regionen der Proteinanreicherung zu annotieren, die Interpretierbarkeit der Daten zu bestätigen und biologische Schlussfolgerungen zu ziehen. Obwohl mehrere In-silico-Analysepipelines entwickelt wurden, um die CUT&RUN-Datenanalyse zu unterstützen, machen ihre komplexe Multi-Modul-Struktur und die Verwendung mehrerer Programmiersprachen die Plattformen für Bioinformatik-Anfänger schwierig, die möglicherweise nicht mit mehreren Programmiersprachen vertraut sind, aber das CUT&RUN-Analyseverfahren verstehen und ihre Analysepipelines anpassen möchten. Hier stellen wir ein einsprachiges Schritt-für-Schritt-Analyse-Pipeline-Protokoll für CUT&RUN zur Verfügung, das für Benutzer mit jeder Erfahrung in der Bioinformatik entwickelt wurde. Dieses Protokoll umfasst die Durchführung kritischer Qualitätsprüfungen, um zu bestätigen, dass die Sequenzierungsdaten für die biologische Interpretation geeignet sind. Wir gehen davon aus, dass das Befolgen des in diesem Artikel vorgestellten Einführungsprotokolls in Kombination mit der Downstream-Peak-Annotation es den Nutzern ermöglicht, biologische Erkenntnisse aus ihren eigenen CUT&RUN-Datensätzen zu gewinnen.
Die Fähigkeit, Wechselwirkungen zwischen Proteinen und genomischer DNA zu messen, ist von grundlegender Bedeutung für das Verständnis der Biologie der Chromatinregulation. Effektive Assays, die die Chromatinbelegung für ein bestimmtes Protein messen, liefern mindestens zwei Schlüsselinformationen: i) die genomische Lokalisierung und ii) die Proteinhäufigkeit in einer bestimmten genomischen Region. Die Verfolgung der Rekrutierungs- und Lokalisierungsänderungen eines Proteins von Interesse im Chromatin kann direkte Zielloci des Proteins aufdecken und mechanistische Rollen dieses Proteins in chromatinbasierten biologischen Prozessen wie der Regulation der Transkription, der DNA-Reparatur oder der DNA-Replikation aufdecken. Die heute verfügbaren Techniken zur Profilierung von Protein-DNA-Wechselwirkungen ermöglichen es Forschern, die Regulation mit beispielloser Auflösung zu erforschen. Solche technischen Fortschritte wurden durch die Einführung neuer Chromatin-Profiling-Techniken ermöglicht, zu denen auch die Entwicklung von Cleavage Under Targets und Release Using Nuclease (CUT&RUN) durch das Henikoff-Labor gehört. CUT&RUN bietet mehrere technische Vorteile gegenüber der herkömmlichen Chromatin-Immunpräzipitation (ChIP), darunter geringere Anforderungen an den Zelleinsatz, geringere Anforderungen an die Sequenzierungstiefe und eine erhöhte Empfindlichkeit mit reduziertem Hintergrundsignal aufgrund eines Mangels an Vernetzungsmitteln, die sonst Antikörper-Epitope maskieren. Die Anwendung dieser Technik zur Untersuchung der Chromatinregulation erfordert ein gründliches Verständnis des Prinzips, das der Technik zugrunde liegt, und ein Verständnis dafür, wie CUT&RUN-Daten analysiert, validiert und interpretiert werden.
Das CUT&RUN-Verfahren beginnt mit der Bindung von Zellen an Concanavalin A, das an magnetische Kügelchen konjugiert ist, um eine Manipulation geringer Zellzahlen während des gesamten Verfahrens zu ermöglichen. Isolierte Zellen werden mit einem milden Detergens permeabilisiert, um die Einführung eines Antikörpers zu erleichtern, der auf das gewünschte Protein abzielt. Die Mikrokokken-Nuklease (MNase) wird dann mit Hilfe eines Protein-A- oder Protein-A/G-Tags, das an das Enzym gebunden ist, an den gebundenen Antikörper rekrutiert. Kalzium wird eingeführt, um die enzymatische Aktivität zu initiieren. Der MNase-Verdau führt zu mononukleosomalen DNA-Protein-Komplexen. Anschließend wird Calcium chelatisiert, um die Verdauungsreaktion zu beenden, und kurze DNA-Fragmente aus dem MNase-Verdau werden aus den Zellkernen freigesetzt und dann einer DNA-Reinigung, einer Bibliotheksvorbereitung und einer Hochdurchsatzsequenzierungunterzogen 1 (Abbildung 1).
In-silico-Ansätze zur Kartierung und Quantifizierung der Proteinbelegung im gesamten Genom haben sich parallel zu den Nasslaboransätzen entwickelt, die zur Anreicherung dieser DNA-Protein-Wechselwirkungen verwendet werden. Die Identifizierung von Regionen angereicherter Signale (Peaks) ist einer der wichtigsten Schritte in der bioinformatischen Analyse. Erste ChIP-seq-Analysemethoden verwendeten Algorithmen wie MACS2 und SICER3, die statistische Modelle verwendeten, um Bona-fide-Protein-DNA-Bindungsstellen aus dem Hintergrundrauschen zu unterscheiden. Das geringere Hintergrundrauschen und die höhere Auflösung der CUT&RUN-Daten machen jedoch einige Peak-Calling-Programme, die in der ChIP-seq-Analyse verwendet werden, für die CUT&RUN-Analyse ungeeignet4. Diese Herausforderung unterstreicht den Bedarf an neuen Werkzeugen, die besser für die Analyse von CUT&RUN-Daten geeignet sind. SEACR4 stellt ein solches Tool dar, das kürzlich entwickelt wurde, um Spitzenaufrufe von CUT&RUN-Daten zu ermöglichen und gleichzeitig die Einschränkungen zu überwinden, die mit Tools verbunden sind, die typischerweise für die ChIP-seq-Analyse eingesetzt werden.
Biologische Interpretationen aus CUT&RUN-Sequenzierungsdaten werden aus den Ausgängen nach dem Peak-Aufruf in der Analysepipeline gezogen. Es können verschiedene funktionale Annotationsprogramme implementiert werden, um die potentielle biologische Relevanz der aufgerufenen Peaks aus CUT&RUN-Daten vorherzusagen. Zum Beispiel bietet das Projekt Gene Ontology (GO) eine gut etablierte funktionelle Identifizierung von Genen von Interesse 5,6,7. Verschiedene Software-Tools und Ressourcen erleichtern die GO-Analyse, um Gene und Gensätze aufzudecken, die unter den CUT&RUN-Peaks 8,9,10,11,12,13,14 angereichert sind. Darüber hinaus ermöglichen Visualisierungssoftware wie Deeptools15, Integrative Genomics Viewer (IGV)16 und UCSC Genome Browser17 die Visualisierung von Signalverteilung und -mustern in interessanten Regionen des Genoms.
Die Fähigkeit, biologische Interpretationen aus CUT&RUN-Daten zu ziehen, hängt entscheidend von der Validierung der Datenqualität ab. Zu den kritischen Komponenten, die validiert werden müssen, gehören die Bewertung von: i) der Qualität der CUT&RUN-Bibliothekssequenzierung, ii) der Replikatähnlichkeit und iii) der Signalverteilung in den Peakzentren. Der Abschluss der Validierung aller drei Komponenten ist entscheidend, um die Zuverlässigkeit der CUT&RUN-Bibliotheksproben und der nachgelagerten Analyseergebnisse zu gewährleisten. Daher ist es wichtig, einführende CUT&RUN-Analyseleitfäden zu erstellen, die es Bioinformatik-Anfängern und Nasslaborforschern ermöglichen, solche Validierungsschritte als Teil ihrer Standard-CUT&RUN-Analysepipelines durchzuführen.
Neben der Entwicklung des CUT&RUN-Experiments im Nasslabor wurden verschiedene in silico CUT&RUN-Analysepipelines wie CUT&RUNTools 2.018,19, nf-core/cutandrun 20 und CnRAP21 entwickelt, um die CUT&RUN-Datenanalyse zu unterstützen. Diese Werkzeuge bieten leistungsstarke Ansätze für die Analyse von Einzelzell- und Massen-CUT&RUN- und CUT&Tag-Datensätzen. Die relativ komplexe modulare Programmstruktur und die erforderliche Vertrautheit mit mehreren Programmiersprachen zur Durchführung dieser Analysepipelines können jedoch die Einführung durch Bioinformatik-Anfänger behindern, die die CUT&RUN-Analyseschritte gründlich verstehen und ihre eigenen Pipelines anpassen möchten. Um diese Barriere zu umgehen, ist eine neue einführende CUT&RUN-Analysepipeline erforderlich, die in einfachen Schritt-für-Schritt-Skripten bereitgestellt wird, die mit einer einfachen Programmiersprache codiert sind.
In diesem Artikel beschreiben wir ein einfaches, einsprachiges CUT&RUN-Analyse-Pipeline-Protokoll, das Schritt-für-Schritt-Skripte mit detaillierten Beschreibungen bereitstellt, um neuen und unerfahrenen Benutzern die Durchführung von CUT&RUN-Sequenzierungsanalysen zu ermöglichen. Programme, die in dieser Pipeline verwendet werden, sind von den ursprünglichen Entwicklergruppen öffentlich verfügbar. Zu den wichtigsten Schritten, die in diesem Protokoll beschrieben werden, gehören das Read-Alignment, das Peak-Calling, die Funktionsanalyse und vor allem Validierungsschritte zur Bewertung der Probenqualität, um die Eignung und Zuverlässigkeit der Daten für die biologische Interpretation zu bestimmen (Abbildung 2). Darüber hinaus bietet diese Pipeline den Nutzern die Möglichkeit, Analyseergebnisse mit öffentlich zugänglichen CUT&RUN-Datensätzen zu vergleichen. Letztendlich dient dieses CUT&RUN-Analyse-Pipeline-Protokoll als Einführungsleitfaden und Referenz für Einsteiger in die bioinformatische Analyse und Nasslaborforscher.
Die Fähigkeit, die Proteinbelegung auf dem Chromatin zu kartieren, ist von grundlegender Bedeutung für die Durchführung mechanistischer Studien auf dem Gebiet der Chromatinbiologie. Da Labore neue Nasslabortechniken zur Profilierung des Chromatins einführen, wird die Fähigkeit, Sequenzierungsdaten aus diesen Nasslaborexperimenten zu analysieren, zu einem häufigen Engpass für Nasslaborwissenschaftler. Daher beschreiben wir ein einführendes Schritt-für-Schritt-Protokoll, das es Bi…
The authors have nothing to disclose.
Alle abgebildeten Figuren sind mit BioRender.com entstanden. Das CAI würdigt die Unterstützung durch einen Ovarian Cancer Research Alliance Early Career Investigator Award, einen Forbeck Foundation Accelerator Grant und den Minnestoa Ovarian Cancer Alliance National Early Detection Research Award.
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation – Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |