Hier stellen wir einen bioinformatischen Ansatz und Analysen vor, um LINE-1-Ausdruck auf der ortsspezifischen Ebene zu identifizieren.
Long INtersed Elements-1 (LINEs/L1s) sind wiederholte Elemente, die sich kopieren und zufällig in das Genom einfügen können, was zu genomischer Instabilität und Mutagenese führt. Das Verständnis der Ausdrucksmuster von L1 loci auf der individuellen Ebene wird das Verständnis der Biologie dieses mutagenischen Elements ermöglichen. Dieses autonome Element macht mit über 500.000 Exemplaren einen erheblichen Teil des menschlichen Genoms aus, obwohl 99% abgeschnitten und defekt sind. Ihre Fülle und die dominante Anzahl an defekten Kopien machen es jedoch schwierig, authentisch ausgesprochene L1s aus L1-bezogenen Sequenzen zu identifizieren, die als Teil anderer Gene ausgedrückt werden. Es ist auch eine Herausforderung, zu erkennen, welcher spezifische L1-Locus aufgrund der sich wiederholenden Natur der Elemente ausgedrückt wird. Um diese Herausforderungen zu bewältigen, stellen wir einen bioinformatischen Ansatz RNA-Seq vor, um den L1-Ausdruck auf der lokalen Ebene zu identifizieren. Zusammenfassend können wir zytoplasmatische RNA sammeln, für polyadenylierte Transkripte auswählen und strand-spezifische RNA-Seq-Analysen nutzen, um die Leselesungen auf L1 loci im menschlichen Referenzgenom eindeutig zu kartieren. Wir kuratieren jeden L1-Locus visuell mit einzigartig abgebilteten Lesezeichen, um die Transkription von seinem eigenen Promoter zu bestätigen und die Abschrift der Transkriptionslesungen anzupassen, um die Abbildung jedes einzelnen L1-Locus zu berücksichtigen. Dieser Ansatz wurde auf eine Prostata-Tumorzelllinie, DU145, angewendet, um die Fähigkeit dieses Protokolls zu demonstrieren, den Ausdruck aus einer kleinen Anzahl von L1-Elementen in voller Länge zu erkennen.
Retrotransposons sind wiederholte DNA-Elemente, die in einem Copy-and-Paste-Mechanismus über RNA-Zwischenprodukte im Genom “springen” können. Ein Teil der Retrotransposons ist als Long INterspersed Elements-1 (LINEs/L1s) bekannt und bildet mit über 500.0000 Exemplaren1ein Sechstel des menschlichen Genoms aus. Trotz ihres Überflusses sind die meisten dieser Exemplare defekt und mit nur geschätzten 80-120 L1-Elementen abgeschnitten, die als aktiv angesehen werden. Ein L1 in voller Länge ist etwa 6 kb lang mit 5 ‘ und 3 ‘ unübersetzten Regionen, einem internen Promoter und dem dazugehörigen Anti-Sinse-Promoter, zwei nicht überlappenden offenen Lesefahmen (ORFs) und einem Signal-und PolyA-Schwanz3,4,5 . Beim Menschen bestehen L1s aus Unterfamilien, die sich durch evolutionäre Zeitalter auszeichnen, wobei die älteren Familien im Laufe der Zeit im Vergleich zur jüngsten Unterfamilie, L1HS 6,7,einzigartigeSequenzmutationen angehäuft haben. L1s sind die einzigen autonomen, menschlichen Retrotransposons und ihre ORFs kodieren eine umgekehrte Transkriptase, Endomuclease und RNPs mit RNA-Bindungs-und Chaperone-Aktivitäten, die erforderlich sind, um das Nachsetzen und Einfügen im Genom in einem Prozess, der als zielgrundiert bezeichnet wird. Rückschrift8,9, 10,11,12.
Es wurde berichtet, dass die RetroUmsetzung von L1s durch eine Vielzahl von Mechanismen, darunter die Einfügung von Mutagenese, die Streichung von Zielvorgaben und die Neuordnungvon13, 14, 15, die durch eine Vielzahl von Mechanismen,darunterdie Einfügung von Mutagenese, die Streichung von Zielvorgaben und die Neuordnung 13,14,15 , 16. In jüngster Zeit wurde vermutet, dass L1s eine Rolle bei der Onkogenese und/oder Tumorfortschritt spielen können, da in einer Vielzahl von epithelialen Krebserkrankungen 17, 18 eineerhöhte Ausdrucks-und Einfügeungsereignisse dieses mutagenischen Elements beobachtet wurden. . Es wird geschätzt, dass es eine neue L1-Einlage in jeder 200 Geburten 19 gibt. Daher ist es unerlässlich, die Biologie des aktiven Ausdrucks L1s besser zu verstehen. Die sich wiederholende Natur und die Fülle an defekten Kopien, die in Transkripten anderer Gene gefunden wurden, haben diese Analyse herausfordernd gemacht.
Glücklicherweise wurden mit dem Aufkommen von Technologien für die Sequenzierung hoher Durchsatzsequenzierungstechnologien Schritte unternommen, um die L1s auf der lokalen Ebene authentisch auszudrücken und zu identifizieren. Es gibt unterschiedliche Philosophien darüber, wie man ausgedrückte L1s am besten identifizieren kann, indem man die Sequenzierung der nächsten Generation der RNA verwendet. Es wurden nur zwei vernünftige Ansätze für die Kartierung von L1-Transkripten auf der locus-spezifischen Ebene vorgeschlagen. Man konzentriert sich nur auf die mögliche Transkription, die sich durch das L1-Polyadenylierungssignalundin Flankierungssequenzen 20 liest. Unser Ansatz nutzt kleine Sequenzunterschiede zwischen den L1-Elementen und bildet nur jene RNA-Seq-Lesungen ab, die eineeinzigartige Karte zu einem Ort 21 führen. Beide Methoden haben Einschränkungen in Bezug auf die Quantifizierung der Transkriptionsstufen. Die Quantitation kann potenziell verbessert werden, indem eine Korrektur für die “einzigartige Abbildung” jedes L1-Locus21 hinzugefügt wird, oder durch die Verwendung komplexerer Algorithmen, die die mehrfach abgebildete Lesezeichen, die nicht eindeutig auf einen bestimmten Locus 22 abgebildet werden konnten, umverteilen. Hier werden wir Schritt für Schritt das RNA-Extraktions-und Sequenzierungs-und Bioinformatikprotokoll detailliert erläutern, um die ausgesprochenen L1-Elemente auf der lokalen Ebene zu identifizieren. Unser Ansatz nutzt unser Wissen über die Biologie funktionaler L1-Elemente. Dazu gehört auch, zu wissen, dass funktionale L1-Elemente aus dem L1-Promoter generiert werden müssen, der zu Beginn des L1-Elements initiiert wurde, in das Zytoplasma übersetzt werden müssen und dass ihre Transkripte mit dem Genom nebeneinander erfolgen sollten. Kurz gesagt, wir sammeln frische, zytoplasmatische RNA, wählen für polyadenylierte Transkripte aus und nutzen stationsspezifische RNA-Seq-Analysen, um die Leselesungen im menschlichen Referenzgenom auf einzigartige Karte zu stellen. Diese ausgerichteten Lesevorgänge erfordern dann noch eine umfangreiche manuelle Kuration, um festzustellen, ob die Transkriptionslesungen vom L1-Promoter stammen, bevor sie einen Locus als authentisch ausdrückte L1 bezeichnen. Wir verwenden diesen Ansatz auf der Prostata-Tumorzellen-Stichprobe von DU145, um zu zeigen, wie sie relativ wenige aktiv transkribierte L1-Mitglieder aus der Masse inaktiver Kopien identifiziert.
Es hat sich gezeigt, dass die Aktivität von L1 genetische Schäden und Instabilität verursacht, die zu Krankheit27,28,29beitragen. Von den rund 5.000 volllangen L1-Kopien machen nur wenige Dutzend evolutionär junge L1-Exemplare den Großteil der Retrotransposition 2 aus. Es gibt jedoch Hinweise darauf, dass auch einige ältere, retrovertranspositionell-unüberzeugte L1snochin der Lage sind, DNA-schädigende Proteine 30 zu produzieren. Um die Rolle der L1s bei der genomischen Instabilität und Krankheit vollständig zu verstehen, muss der L1-Ausdruck auf der lokalen Ebene verstanden werden. Der hohe Hintergrund von L1-bezogenen Sequenzen, die in anderen RNAs enthalten sind, die nichts mit L1-RetrometverUmsetzung zu tun haben, stellt jedoch eine große Herausforderung bei der Interpretation authentischer L1-Ausdruck dar. Eine weitere Herausforderung bei der Identifizierung und damit dem Verständnis von Ausdrucksmustern einzelner L1-Loki tritt auf ihre sich wiederholende Natur, die nicht zulässt, dass viele kurze Lesesequenzen zu einem einzigen einzigartigen Ort abbilden. Um diese Herausforderungen zu meistern, haben wir den oben beschriebenen Ansatz entwickelt, um den Ausdruck einzelner L1-Lok-Daten anhand von RNA-Seq-Daten zu identifizieren.
Unser Ansatz filtert das hohe Niveau (über 99%) Von transkriptionalem Rauschen, das aus L1-Sequenzen erzeugt wird, die mit der RetroUmsetzung von L1 durch eine Reihe von Schritten nichts zu tun haben. Der erste Schritt ist die Vorbereitung von zytoplasmatischen RNA. Durch die Auswahl für zytoplasmatische RNA werden L1-bezogene Lesungen, die in der ausdrücklichen intronischen mRNA im Kern gefunden werden, deutlich erschöpft. Ein weiterer Schritt, um das Transkriptionsgeräusch, das nichts mit L1s zu tun hat, zu reduzieren, ist die Auswahl von polyadenylierten Transkripten. Dadurch wird L1-bezogenes Transkriptionslärm entfernt, das in nicht-mRNA-Arten gefunden wird. Ein weiterer Schritt beinhaltet eine strand-spezifische Sequenzierung, um Antisense L1-bezogene Transkripte zu identifizieren und zu eliminieren. Die Verwendung einer Anmerkung für L1s in voller Länge mit funktionalen Promoter-Regionen bei der Identifizierung der Anzahl der RNA-Seq-Transkripte, die auf L1s abbilden, beseitigt auch Hintergrundgeräusche, die sonst aus abgeschnittenen L1s stammen. Schließlich ist der letzte kritische Schritt zur Beseitigung von transkriptionalen Rauschen von L1-Sequenzen, die nichts mit L1-Retrostumtransposition zu tun haben, die manuelle Kuration von L1s, die identifiziert wurden, um RNA-Seq-Transkripte abzubilden. Die manuelle Kuration beinhaltet die Visualisierung jedes bioinformatisch identifizierbaren L1-Locus im Kontext seiner umgebenden genomischen Umgebung, um zu bestätigen, dass der Ausdruck vom L1-Promoter stammt. Dieser Ansatz wurde bei DU145, einer Prostata-Tumorzelllinie, angewandt. Selbst bei allen vorbereitungsbezogenen Maßnahmen zur Reduzierung des Hintergrundgeräusches wurden etwa 50% der in DU145 identifizierten L1-Loken als L1-Hintergrundgeräusche aus anderen Transkriptionsquellen abgelehnt (Abbildung4), Die Strenge betonen, die erforderlich ist, um zuverlässige Ergebnisse zu erzielen. Dieser Ansatz mit manueller Kuration ist arbeitsintensiv, aber bei der Entwicklung dieser Pipeline notwendig, um die genomische Umgebung rund um eine volle L1 zu bewerten und zu verstehen. Die nächsten Schritte beinhalten die Reduzierung der Menge der notwendigen manuellen Kuration durch die Automatisierung einiger der Kurationsregeln, obwohl aufgrund der noch nicht ganz bekannten Natur des genomischen Ausdrucks, unkommentierte Ausdrucksquellen im Referenzgenom, Regionen von niedrigem Die Ableitungsfähigkeit und sogar die Komplikationsfaktoren, die mit der Konstruktion eines Referenzgenoms verbunden sind, ist es zu diesem Zeitpunkt nicht möglich, die L1-Curation vollständig zu automatisieren.
Die zweite Herausforderung bei der Identifizierung des Ausdrucks einzelner L1-Lci mit Sequenzierung betrifft die Kartierung von wiederholten L1-Transkripten. In dieser Ausrichtungsstrategie ist es erforderlich, dass sich ein Transkript eindeutig und mitreiflich an das Referenzgenom ausrichten muss, um abgebildet zu werden. Durch die Auswahl für gepolsterte Sequenzen, die konkordant abbilden, steigt die Anzahl der Transkripte, die sich eindeutig an L1-Loki des Referenzgenoms angleichen. Diese uniquésie-mapping-Strategie gibt Vertrauen in die Anrufung von Lesekarten speziell an einen einzigen L1-Locus, obwohl sie möglicherweise die Ausdrucksmenge jedes identifizierten, authentisch zum Ausdruck gebrachten, wiederholten L1 unterschätzt. Um diese Unterschätzung annähernd zu korrigieren, wurde für jeden L1-Locus eine “Mappability“-Score entwickelt und auf die Anzahl der eindeutig kartografierten Transkriptionslesungen angewendet (Abbildung 6). Es ist zu beachten, dass im Idealfall die Mappability auf die volle Abdeckung der L1 nach dem passenden WGS-Muster gepunktet werden sollte. Hier verwenden wir WGS von HeLa-Zellen, um die Mappabilitätswerte jedes L1-Lokis zu bestimmen, um die Mapping-Ergebnisse in den DU145-Prostatatumorzelllinien zu entblößen oder zu deflate. Diese Mappabilitätsberechnung ist eine grobe Korrekturpunktzahl, aber die gewählte “vollständige Deckungsmappbarkeit” von 400 Lesezeichen wurde unter Berücksichtigung der Dynamik der Tumorzelllinien ermittelt. In der ergänzenden Abbildung 1ist zu beobachten, dass es ein paar L1-Loki mit HeLa WGS mit extrem hoher Anzahl von gemappten Lesevorgängen gibt. Diese stammen wahrscheinlich von duplizierten Chromosomensequenzen innerhalb von HeLa, die sich nicht innerhalb des Referenzgenoms befinden, weshalb diese Loci nicht ausgewählt wurden, um die vollständige Mappabilitätsabdeckung zu repräsentieren. Stattdessen wurde festgestellt, dass der Durchschnitt der 100-prozentigen Leselaabdeckung nach der ergänzenden Abbildung 1 rund 400 Lesezahlen ergibt und dann davon ausgegangen wurde, dass dieser Durchschnitt auch für die Tumorprostata-Linie DU145 gilt.
Diese Ausrichtungsstrategie mit 100-200 bp liest aus der RNA-Seq-Technologie auch bevorzugt für evolutionär ältere L1s innerhalb des Referenzgenoms, da ältere L1s im Laufe der Zeit einzigartige Mutationen angehäuft haben, die sie mehr mappbar machen. Dieser Ansatz hat daher eine begrenzte Empfindlichkeit, wenn es darum geht, die jüngste der L1s zu identifizieren, sowie nicht-referenzierende, polymorphe L1s. Um die jüngste von L1s zu identifizieren, schlagen wir vor, 5 ‘ RACE-Auswahl an L1-Transkripten und Sequenzierungstechnologie wie PacBio zu verwenden, die von längeren Lesezeichen 21 Gebrauch machen. Dies ermöglicht eine einmaligere Kartierung und damit eine sichere Identifizierung der ausgedrückten, jungen L1s. Durch die gemeinsame Nutzung von RNA-Seq und PacBio-Ansätzen kann dies zu einer umfassenderen Liste authentischer Ausgedrücker L1s führen. Um authentisch ausgesprochene polymorphe L1s zu identifizieren, sind die ersten nächsten Schritte die Konstruktion und das Einfügen polymorphischer Sequenzen in das Referenzgenom.
Die biologischen und technischen Herausforderungen bei der Untersuchung von Wiederholungssequenzen sind groß, obwohl wir mit dem oben genannten rigorosen Verfahren zur Beseitigung von Transkriptionsgeräuschen von L1-Sequenzen, die nicht mit der Retrotransposition in Verbindung stehen, mit der RFA-Sequenzierungstechnologie beginnen, durchzusickern. Die großen Ebenen des transkriptionalen Hintergrundrauschen und das Zumaß an selbstbewusstem und strenger Identifizierung von L1-Expressionsmustern und-Quantität auf der individuellen Locus Ebene.
The authors have nothing to disclose.
Wir danken Dr. Yan Dong für die DU145 Prostata-Tumorzellen. Wir danken Dr. Nathan Ungerleider für seine Beratung und Beratung bei der Erstellung von Supercomputer-Skripten. Ein Teil dieser Arbeit wurde durch NIH-Zuschüsse R01 GM121812 an PD, R01 AG057597 an VPB und 5TL1TR001418 an TK finanziert. Wir möchten auch die Unterstützung der Cancer Crusaders und des Tulane Cancer Center Bioinformatics Core anerkennen.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |