Hier presenteren we een Bioinformatic aanpak en analyses om lijn-1 expressie te identificeren op de Locus specifieke niveau.
Lang gestrooide elementen-1 (lijnen/L1s) zijn repetitieve elementen die kunnen kopiëren en willekeurig invoegen in het genoom resulteert in genomische instabiliteit en mutagenese. Inzicht in de expressie patronen van L1 plaatsen op individueel niveau zal lenen aan het begrijpen van de biologie van dit mutagene element. Dit autonome element maakt een significant deel van het menselijke genoom met meer dan 500.000 exemplaren, hoewel 99% worden afgekapt en gebrekkig. Nochtans, maken hun overvloed en dominant aantal gebrekkige exemplaren het uitdagend om authentiek uitgedrukte L1s van L1-verwante opeenvolgingen te identificeren die als deel van andere genen worden uitgedrukt. Het is ook een uitdaging om te bepalen welke specifieke L1-Locus wordt uitgedrukt als gevolg van het repetitieve karakter van de elementen. Het overwinnen van deze uitdagingen, presenteren we een RNA-volgende Bioinformatic benadering van L1 expressie te identificeren op de Locus specifieke niveau. Samengevat, verzamelen wij cytoplasma RNA, uitgezocht voor polyadenylated transcripten, en gebruik bundel-specifieke RNA-volgende analyses aan uniek kaart leest aan L1 plaatsen in het menselijke verwijzings genoom. We visueel Curate elke L1 Locus met unieke in kaart gebrachte leest om de transcriptie te bevestigen van zijn eigen promotor en aan te passen in kaart gebrachte transcript leest om rekening te houden voor mappability van elke individuele L1 Locus. Deze aanpak werd toegepast op een prostaattumor cel lijn, DU145, aan te tonen het vermogen van dit protocol om de expressie te detecteren van een klein aantal van de full-length L1 elementen.
Retrotransposons zijn repetitieve DNA-elementen die kunnen “springen” in het genoom in een kopie-en-paste mechanisme via RNA tussenproducten. Een subset van retrotransposons is bekend als lange gestrooide elementen-1 (lijnen/L1s) en maakt een zesde van het menselijk genoom met meer dan 500, 0000 exemplaren1. Ondanks hun overvloed, zijn de meeste van deze kopieën defect en afgekapt met slechts een geschatte 80-120 L1 elementen dacht te zijn actief2. Een full-length L1 is ongeveer 6 KB in lengte met 5 ‘ en 3 ‘ onvertaalde regio’s, een interne promotor en de bijbehorende Anti-sense promotor, twee niet-overlappende open-reading frames (ORFS), en een signaal en Polya staart3,4,5 . In de mens, L1s zijn samengesteld uit subfamilies onderscheiden door de evolutionaire leeftijd met de oudere families hebben geaccumuleerde meer unieke sequentie mutaties in de tijd ten opzichte van de jongste onderfamilie, L1HS6,7. L1s zijn de enige autonome, menselijke retrotransposons en hun ORFs coderen een omgekeerde transcriptase, endonuclease, en RNPs met RNA-bindende en chaperonne activiteiten die worden vereist om in het genoom in een proces te retrotranspose en in te voegen dat als target-primed wordt bedoeld omgekeerde transcriptie8,9,10,11,12.
Retrotransposition van L1s is gemeld dat de menselijke germline ziekten veroorzaken door een verscheidenheid van mechanismen, waaronder Insertional mutagenese, target-site schrappingen, en herschikkingen13,14,15, 16. recentelijk is hypothetische dat L1s een rol kan spelen in Oncogenese en/of progressie van tumoren als verhoogde expressie en insertie gebeurtenissen van dit mutagene element zijn waargenomen in een verscheidenheid van epitheel kanker17,18 . Er wordt geschat dat er een nieuwe L1 insertie in elke 200 geboorten19. Daarom is het noodzakelijk om beter inzicht in de biologie van de actief uitdrukken L1s. De repetitieve aard en de overvloed van gebrekkige exemplaren die binnen transcripten van andere genen worden gevonden hebben dit niveau van analyse uitdagend gemaakt.
Gelukkig, met de komst van hoge doorvoersnelheid sequencing technologieën, stappen zijn gemaakt om te ontleden en te identificeren authentiek uiten L1s op de Locus-specifieke niveau. Er zijn verschillende filosofieën op hoe te om het best te identificeren uitgedrukt L1s gebruikend de volgende-generatie van RNA het rangschikken. Er zijn slechts twee redelijke benaderingen voorgesteld voor het in kaart brengen van L1 transcripties op de Locus-specifieke niveau. Men richt zich slechts op de potentiële transcriptie die door het L1 polyadenylation signaal en in het flankeren opeenvolgingen20leest. Onze aanpak maakt gebruik van kleine sequentie verschillen tussen L1 elementen en alleen kaarten die RNA-volgende leest dat uniek kaart om een Locus21. Beide methoden hebben beperkingen in termen van kwantificatie van afschrift niveaus. Kwantificatie kan mogelijk worden verbeterd door het toevoegen van een correctie voor de ‘ unieke mappability ‘ van elke L1 Locus21, of met behulp van meer complexe algoritmen die opnieuw distribueren van de multi-in kaart gebrachte leest die niet konden worden uniek in kaart gebracht om een specifieke locus22. Hier zullen we detail in een stap-voor-stap manier waarop de RNA-extractie en de volgende generatie sequencing en bio-informatica protocol om uitgesproken L1 elementen te identificeren op de Locus-specifieke niveau. Onze aanpak neemt maximaal voordeel van onze kennis van de biologie van functionele L1 elementen. Dit omvat te weten dat de functionele L1-elementen moeten worden gegenereerd uit de L1 promotor, geïnitieerd aan het begin van de L1-element, moet worden vertaald in het cytoplasma en dat hun transcripten moeten worden co-lineair met het genoom. Kort, verzamelen wij vers, cytoplasma RNA, uitgezocht voor polyadenylated transcripten, en gebruiken bundel-specifieke RNA-volgende analyses aan uniek kaart leest aan L1 plaatsen in het menselijke verwijzings genoom. Deze afgestemde leest dan nog vereisen uitgebreide manuele curatie om te bepalen of transcript leest voortkomen uit de L1 promotor vóór de aanwijzing van een Locus als een authentiek uitgedrukt L1. We passen deze aanpak op de DU145 prostaattumor Cell line sample om aan te tonen hoe het identificeert een relatief paar actief getranscribeerd L1 leden uit de massa van inactieve kopieën.
L1 activiteit is aangetoond dat genetische schade en instabiliteit bij te dragen aan de ziekte van27,28,29veroorzaken. Van de ongeveer 5.000 full-length L1 exemplaren, slechts een paar dozijn evolutionair jonge L1s rekening voor de meerderheid van de retrotransposition activiteit2. Er zijn echter aanwijzingen dat zelfs sommige oudere, retrotranspositionally-incompentent L1s nog steeds in staat zijn om DNA-schadelijke eiwitten te produceren30. Om de rol van L1s in genomische instabiliteit en ziekte ten volle te waarderen, moet de L1-expressie op het Locus-specific niveau worden begrepen. Nochtans, vormt de hoge achtergrond van L1-verwante opeenvolgingen die in andere ASE worden opgenomen niet verwant aan L1 retrotransposition een significante uitdaging in het interpreteren van authentieke L1 uitdrukking. Een andere uitdaging in het identificeren van en daarom begrip uitdrukkingspatronen van individuele L1 plaatsen komt wegens hun repetitieve aard voor die vele korte gelezen opeenvolgingen niet toestaat om aan één enkele unieke Locus toe te wijzen. Om deze uitdagingen te overwinnen, ontwikkelden wij de hierboven beschreven benadering in het identificeren van uitdrukking van individuele L1 plaatsen gebruikend RNA-volgende gegevens.
Onze aanpak filtert het hoge niveau (meer dan 99%) van transcriptie geluid gegenereerd uit L1 sequenties die niet verwant zijn aan L1 retrotransposition door het nemen van een aantal stappen. De eerste stap betreft de voorbereiding van het cytoplasma RNA. Door voor cytoplasma RNA te selecteren, zijn de L1-verwante gelezen gevonden binnen uitgedrukt intronic mRNA in de kern beduidend uitgeput. In de sequencing bibliotheek voorbereiding, een andere stap genomen om transcriptie ruis niet verwant aan L1s te verminderen omvatten de selectie van polyadenylated transcripten. Dit verwijdert L1-gerelateerde transcriptie geluid gevonden in niet-mRNA soorten. Een andere stap bevat onderdeel-specifieke sequencing om te identificeren en te elimineren antisense L1-gerelateerde transcripten. Het gebruik van een annotatie voor full-length L1s met functionele promotor regio’s bij het identificeren van het aantal RNA-volgende transcripten die kaart om L1s ook elimineert achtergrondgeluiden die anders afkomstig zijn van afgekapt L1s. Ten slotte is de laatste kritieke stap in het elimineren van transcriptie geluid van L1 sequenties die geen verband houden met L1 retrotransposition is de manuele curatie van full-length L1s geïdentificeerd te hebben in kaart gebracht RNA-volgende transcripten. De manuele curatie impliceert de visualisatie van elke bioinformatically geïdentificeerd-to-be-uitgedrukte L1-Locus in de context van zijn omgeving genomische omgeving om te bevestigen dat expressie afkomstig is van de L1 promotor. Deze aanpak werd toegepast op DU145, een prostaattumor cel lijn. Zelfs met alle voorbereiding-gerelateerde stappen genomen om achtergrondgeluid te verminderen, ongeveer 50% van de L1 plaatsen geïdentificeerd bioinformatically in DU145 werden afgewezen als L1 achtergrondgeluid afkomstig uit andere transcriptie bronnen (Figuur 4), benadrukkend de strengheid die wordt vereist om betrouwbare resultaten te produceren. Deze aanpak met behulp van handmatige curatie is arbeidsintensief, maar noodzakelijk in de ontwikkeling van deze pijplijn te evalueren en begrijpen van de genomische omgeving rond een full-length L1. De volgende stappen zijn het verminderen van de hoeveelheid van de noodzakelijke manuele curatie door het automatiseren van een aantal van de curatie regels, maar als gevolg van de nog niet volledig bekende karakter van de genomische expressie, niet-geannoteerde bronnen van meningsuiting in het referentie genoom, regio’s van lage mappability, en zelfs complicerende factoren die betrokken zijn bij de bouw van een referentie genoom is het niet mogelijk om volledig te automatiseren L1 curatie op dit moment.
De tweede uitdaging in het identificeren van expressie van individuele L1 plaatsen met sequencing heeft betrekking op het in kaart brengen van repetitieve L1 transcripten. In deze uitlijnings strategie is het vereist dat een transcript uniek en co-lineair naar het referentie genoom moet worden uitgelijnd om in kaart te worden gebracht. Door te selecteren voor gepaarde-end sequenties die kaart concordantly, het bedrag van de transcripten die uniek uitlijnen op L1 plaatsen gevonden in het referentie genoom toeneemt. Deze unieke-mapping strategie geeft vertrouwen in de roeping van reads mapping specifiek op een L1-Locus, hoewel het potentieel onderschat de uitdrukking hoeveelheid van elk geïdentificeerd-to-be-authentiek uitgedrukt, repetitieve L1. Aan ongeveer correct voor deze onderschatting, werd een “mappability” score voor elke L1 Locus die op zijn mappability wordt gebaseerd ontwikkeld en toegepast op het aantal uniek in kaart gebracht afschrift leest (Figuur 6). Het is van nota dat idealiter, mappability moet worden gescoord op volledige dekking leest over de full-length L1 volgens de gematched WGS monster. Hier gebruiken we WGS van HeLa cellen om mappability scores van elke L1 plaatsen te bepalen om te blazen of leeglopen leest mapping naar L1 plaatsen in DU145 prostaattumor cellen lijnen. Deze mappability berekening is een ruwe correctie Score, maar de gekozen ‘ complete dekking mappability ‘ van 400 leest werd bepaald met de dynamische aard van de tumorcellen lijnen in het achterhoofd. Het kan worden waargenomen in aanvullende figuur 1, dat er een paar L1 plaatsen met Hela WGS met extreem hoge aantal in kaart gebrachte leest. Deze waarschijnlijk afkomstig zijn van gedupliceerd chromosoom sequenties binnen HeLa die niet binnen de referentie genoom, dat is de reden waarom deze plaatsen werden niet gekozen om representatief zijn voor volledige mappability dekking. In plaats daarvan werd vastgesteld dat het gemiddelde van 100% Lees dekking optreedt rond 400 leest volgens aanvullende figuur 1 en werd vervolgens aangenomen dat dit gemiddelde geldt voor de DU145 tumor prostaat cel lijn ook.
Deze groeperings strategie met 100-200 BP leest van RNA-volgende technologie kiest ook bij voorkeur voor evolutionair oudere L1s binnen het verwijzings genoom aangezien de oudere L1s in tijd unieke veranderingen hebben geaccumuleerd die hen meer mappable maken. Deze benadering, daarom, heeft beperkte gevoeligheid wanneer het over het identificeren van de jongste van L1s evenals niet-verwijzing, polymorfisme L1s komt. Voor het identificeren van de jongste van L1s, raden we u aan 5 ‘ RACE selectie van L1 transcripten en sequencing technologie zoals PacBio die gebruik maken van langere leest21. Dit laat meer unieke mapping toe en daarom vertrouwende identificatie van de uitgedrukte, jonge L1s. met behulp van RNA-volgende en PacBio benaderingen samen kan leiden tot een meer uitgebreide lijst van authentiek uitgedrukte L1s. Om authentiek uitgedrukte polymorphische L1s te identificeren, omvatten de eerste volgende stappen de bouw en het inbrengen van polymorfisme opeenvolgingen in het verwijzings genoom.
De biologische en technische uitdagingen in het bestuderen van herhalings sequenties zijn geweldig, maar met de bovenstaande rigoureuze procedure om transcriptie geluid van L1 sequenties un-gerelateerd aan retrotransposition met behulp van RNA-sequencing-technologie te verwijderen, beginnen we te ziften door middel van de grote mate van transcriptie achtergrondgeluid en het zijn om vol vertrouwen en streng te identificeren L1 expressie patronen en kwantiteit op de individuele Locus niveau.
The authors have nothing to disclose.
Wij willen Dr Yan Dong bedanken voor de DU145 prostaattumor cellen. Wij willen Dr. Nathan Ungerleider bedanken voor zijn begeleiding en advies bij het maken van supercomputer scripts. Sommige van dit werk werd gefinancierd door NIH verleent R01 GM121812 aan PD, R01 AG057597 aan VPB, en 5TL1TR001418 aan TK. We zouden ook graag de steun van de kanker kruisvaarders en de Tulane Cancer Center bioinformatica kern te erkennen.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |