Qui presentiamo un approccio bioinformatico e analisi per identificare l’espressione LINE-1 al livello specifico del locus.
Gli elementi INterspersed lunghi-1 (LINEs/L1s) sono elementi ripetitivi che possono copiare e inserire casualmente nel genoma con conseguente instabilità genomica e mutagenesi. Comprendere i modelli di espressione di L1 loci a livello individuale presterà alla comprensione della biologia di questo elemento mutageno. Questo elemento autonomo costituisce una porzione significativa del genoma umano con oltre 500.000 copie, anche se il 99% è troncato e difettoso. Tuttavia, la loro abbondanza e il numero dominante di copie difettose rendono difficile identificare L1s espressi in modo autentico da sequenze correlate a L1 espresse come parte di altri geni. È anche difficile identificare quale specifico locus L1 è espresso a causa della natura ripetitiva degli elementi. Superando queste sfide, presentiamo un approccio bioinformatico RNA-seq per identificare l’espressione L1 a livello specifico del locus. In sintesi, raccogliamo RNA citoplasmatico, selezioniamo per le trascrizioni poliadenilate e utilizziamo analisi di RNA-seq specifiche per la mappatura univoca delle letture ai loci L1 nel genoma umano di riferimento. Curiamo visivamente ogni locus L1 con letture mappate univocamente per confermare la trascrizione dal proprio promotore e regolare la trascrizione mappata letture per tenere conto della mappabilità di ogni singolo locus L1. Questo approccio è stato applicato a una linea cellulare del tumore della prostata, DU145, per dimostrare la capacità di questo protocollo di rilevare l’espressione da un piccolo numero di elementi L1 a lunghezza intera.
I retrotrasposti sono elementi di DNA ripetitivi che possono “saltare” nel genoma in un meccanismo di copia e incolla tramite intermedi di RNA. Un sottoinsieme dei retrotrasponi è conosciuto come Long INterspersed Elements-1 (LINEs/L1s) e costituisce un sesto del genoma umano con oltre 500, 0000 copie1. Nonostante la loro abbondanza, la maggior parte di queste copie sono difettosi e troncati con solo una stima 80-120 elementi L1 pensato per essere attivo2. Un L1 a lunghezza intera è di circa 6 KB di lunghezza con 5′ e 3′ regioni non tradotte, un promotore interno e un promotore anti-Sense associato, due telai di lettura aperta non sovrapposti (ORFS) e un segnale e Polya Tail3,4,5 . Nell’uomo, L1s sono costituiti da sottofamiglie distinte dall’età evolutiva con le famiglie più anziane che hanno accumulato mutazioni di sequenze più uniche nel tempo rispetto alla sottofamiglia più giovane, L1HS6,7. L1s sono gli unici retrotrasponi umani autonomi e i loro ORF codificano una trascrittasi inversa, endonuclease e RNP con attività di legame e Chaperone di RNA, necessarie per ritrasporre e inserire nel genoma in un processo indicato come bersaglio-innescato trascrizione inversa8, 9,10,11,12.
Il retrotrasposizione di L1s è stato segnalato per causare malattie della linea germinali umane da una varietà di meccanismi tra cui mutagenesi inserzionale, eliminazioni del sito bersaglio e riarrangiamenti13,14,15, 16. recentemente è stato ipotizzato che L1s possa svolgere un ruolo nell’oncogenesi e/o nella progressione tumorale poiché sono stati osservati maggiori eventi di espressione e inserimento di questo elemento mutageno in una varietà di tumori epiteliali17,18 . Si stima che vi sia un nuovo inserimento L1 in ogni 200 nascite19. Pertanto, è imperativo comprendere meglio la biologia dell’espressione attiva di L1s. La natura ripetitiva e l’abbondanza di copie difettose trovate all’interno di trascrizioni di altri geni hanno reso questo livello di analisi impegnativo.
Fortunatamente, con l’avvento delle tecnologie di sequenziamento ad alta velocità, sono stati compiuti passi avanti per analizzare e identificare autenticamente esprimendo L1s a livello di locus-specific. Ci sono diverse filosofie su come identificare al meglio espresso L1s utilizzando sequenziamento di nuova generazione di RNA. Ci sono stati solo due approcci ragionevoli suggeriti per la mappatura delle trascrizioni L1 al livello specifico del locus. Si concentra solo sulla potenziale trascrizione che legge attraverso il segnale di poliadenilazione L1 e nelle sequenze di fianchatura20. Il nostro approccio sfrutta le piccole differenze di sequenza tra gli elementi L1 e mappa solo quei RNA-seq legge che mappano in modo univoco a un locus21. Entrambi questi metodi hanno limitazioni in termini di quantificazione dei livelli di trascrizione. La quantificazione può essere migliorata potenzialmente aggiungendo una correzione per la “mappabilità univoca” di ogni locus21L1, o utilizzando algoritmi più complessi che ridistribuiscono le letture multi-mappate che non possono essere mappati in modo univoco a un locus22specifico. Qui, ci sarà dettaglio in modo graduale l’estrazione dell’RNA e il protocollo di sequenziamento e bioinformatica di nuova generazione per identificare gli elementi L1 espressi a livello specifico del locus. Il nostro approccio sfrutta al massimo la nostra conoscenza della biologia degli elementi funzionali L1. Ciò include sapere che gli elementi funzionali L1 devono essere generati dal promotore L1, iniziato all’inizio dell’elemento L1, devono essere tradotti nel citoplasma e che le loro trascrizioni devono essere co-lineari con il genoma. In breve, raccogliamo RNA citoplasmatico fresco, selezioniamo per le trascrizioni poliadenilate e utilizziamo analisi di RNA-seq specifiche per la mappatura univoca delle letture ai loci L1 nel genoma umano di riferimento. Queste letture allineate richiedono comunque una curation manuale estesa per determinare se le letture di trascrizione provengono dal promotore L1 prima di designare un locus come un L1 espresso in modo autentico. Applichiamo questo approccio sul campione di linea di cellule tumorali della prostata DU145 per dimostrare come identifica un relativamente pochi membri L1 trascritto attivamente dalla massa di copie inattive.
L’attività L1 ha dimostrato di causare danni genetici e instabilità contribuendo alla malattia27,28,29. Delle circa 5.000 copie L1 a lunghezza intera, solo poche dozzine di giovani evoluzionariamente L1s conto per la maggior parte dell’attività di retrotrasposizione2. Tuttavia, ci sono prove che anche alcuni vecchi, retrotraspositivamente-incompentent L1s sono ancora in grado di produrre DNA dannoso proteine30. Per apprezzare appieno il ruolo di L1s nell’instabilità genomica e nella malattia, deve essere compresa l’espressione L1 al livello specifico del locus. Tuttavia, l’elevato background delle sequenze correlate a L1 incorporate in altri RNA estranei alla retrotrasposizione L1 rappresenta una sfida significativa nell’interpretare l’autentica espressione L1. Un’altra sfida nell’identificare e quindi comprendere i modelli di espressione dei singoli loci L1 si verifica a causa della loro natura ripetitiva che non consente a molte sequenze di lettura brevi di mappare a un unico locus unico. Per superare queste sfide, abbiamo sviluppato l’approccio sopra descritto per identificare l’espressione dei singoli loci L1 utilizzando i dati di RNA-seq.
Il nostro approccio filtra l’alto livello (oltre il 99%) di rumore trascrizionale generato da sequenze L1 che non sono correlate alla retrotrasposizione L1 adottando una serie di passaggi. Il primo passo riguarda la preparazione dell’RNA citoplasmatico. Selezionando per RNA citoplasmatico, le letture correlate a L1 trovate all’interno dell’mRNA INTRONICO espresso nel nucleo sono significativamente esaurite. Nella preparazione della libreria di sequenziamento, un altro passo compiuto per ridurre il rumore trascrizionale non correlato a L1s include la selezione di trascrizioni poliadenilate. Questo rimuove il rumore di trascrizione correlato a L1 trovato in specie non-mRNA. Un altro passo include il sequenziamento specifico del filamento al fine di identificare ed eliminare le trascrizioni antisenso L1 correlate. L’uso di un’annotazione per L1s a lunghezza intera con aree promotrice funzionali quando si identifica il numero di trascrizioni RNA-seq che mappano a L1s Elimina anche il rumore di fondo che altrimenti provengono da L1s troncati. Infine, l’ultimo passo critico nell’eliminazione del rumore trascrizionale delle sequenze L1 non correlate alla retrotrasposizione L1 è la curazione manuale di L1s a lunghezza intera identificata per aver mappato le trascrizioni RNA-seq. La curazione manuale comporta la visualizzazione di ogni locus L1 bioinformaticamente identificato-to-be-espresso nel contesto del suo ambiente genomico circostante per confermare che l’espressione proviene dal promotore L1. Questo approccio è stato applicato a DU145, una linea cellulare del tumore della prostata. Anche con tutte le misure relative alla preparazione adottate per ridurre il rumore di fondo, circa il 50% dei loci L1 identificati bioinformaticamente nel DU145 sono stati rifiutati come rumore di fondo L1 proveniente da altre fonti trascrizionali (Figura 4), enfatizzando il rigore necessario per produrre risultati affidabili. Questo approccio con la curazione manuale è laborioso, ma necessario nello sviluppo di questa pipeline per valutare e comprendere l’ambiente genomico che circonda un L1 a lunghezza intera. I passi successivi includono la riduzione della necessaria curation manuale automatizzando alcune delle regole di curation, anche se a causa della natura ancora non completamente conosciuta dell’espressione genomica, delle fonti di espressione non annotate nel genoma di riferimento, delle regioni di bassa mappabilità, e anche complicare i fattori coinvolti nella costruzione di un genoma di riferimento non è possibile automatizzare completamente la curazione L1 in questo momento.
La seconda sfida nell’identificare l’espressione dei singoli loci L1 con il sequenziamento si riferisce alla mappatura delle trascrizioni L1 ripetitive. In questa strategia di allineamento, è necessario che una trascrizione deve allinearsi in modo univoco e co-linearemente al genoma di riferimento per poter essere mappata. Selezionando per le sequenze di estremità accoppiate che mappano concordantemente, la quantità di trascrizioni che si allineano in modo univoco ai loci L1 trovati nel genoma di riferimento aumenta. Questa strategia di mappatura univoca fornisce fiducia nella chiamata di lettura mappatura specificamente a un singolo locus L1, anche se potenzialmente sottovaluta la quantità di espressione di ogni identificato da essere autenticamente espresso, ripetitivo L1. Per correggere approssimativamente questa sottovalutazione, un punteggio di “mappabilità” per ogni locus L1 basato sulla sua mappabilità è stato sviluppato e applicato al numero di letture di trascrizione univocamente mappate (Figura 6). È da notare che idealmente, la mappabilità dovrebbe essere segnato a piena copertura legge attraverso l’intero L1 in base al campione WGS abbinato. Qui, usiamo WGS delle cellule HeLa per determinare i punteggi di mappabilità di ogni loci L1 al fine di gonfiare o deviare letture di mappatura a L1 loci in DU145 linee cellulari del tumore della prostata. Questo calcolo della mappabilità è un punteggio di correzione grezzo, ma la “mappabilità di copertura completa” scelta di 400 letture è stata determinata con la natura dinamica delle linee cellulari tumorali in mente. Può essere osservato nella Figura 1 supplementare, che ci sono un paio di loci L1 con Hela WGS con un numero estremamente elevato di letture mappate. Questi probabilmente provengono da sequenze cromosomi duplicate all’interno di HeLa che non sono all’interno del genoma di riferimento, motivo per cui quei loci non sono stati scelti per essere rappresentativi della copertura di mappabilità completa. Invece è stato determinato che la media di 100% di copertura di lettura si verifica intorno 400 letture in base alla Figura 1 supplementare e poi è stato ipotizzato che questa media si applica alla linea di cellule tumorali di prostata DU145 pure.
Questa strategia di allineamento con 100-200 BP legge dalla tecnologia RNA-seq seleziona anche preferenzialmente per evoluzionariamente più vecchio L1s all’interno del genoma di riferimento come più vecchio L1s hanno accumulato nel tempo mutazioni uniche che li rendono più mappabile. Questo approccio, quindi, ha una sensibilità limitata quando si tratta di identificare il più giovane di L1s così come non di riferimento, polimorfica L1s. Per identificare il più giovane di L1s, suggeriamo di utilizzare 5′ RACE selezione di trascrizioni L1 e la tecnologia di sequenziamento come PacBio che fanno uso di più letture21. Ciò consente una mappatura più univoca e quindi un’identificazione sicura dei giovani L1s espressi. l’uso di RNA-seq e PacBio insieme può portare a un elenco più completo di L1s autenticamente espressi. Per identificare l’L1s polimorfico autenticamente espresso, i primi passi successivi includono la costruzione e l’inserimento di sequenze polimorfiche nel genoma di riferimento.
Le sfide biologiche e tecniche nello studio delle sequenze ripetute sono grandi, anche se con la procedura sopra rigorosa per rimuovere il rumore trascrizionale delle sequenze L1 non legati alla retrotrasposizione utilizzando la tecnologia di sequenziamento dell’RNA, iniziamo a setacciare i grandi livelli di rumore di sottofondo trascrizionale e di essere di identificare con sicurezza e rigore i modelli di espressione L1 e la quantità a livello di singolo locus.
The authors have nothing to disclose.
Vorremmo ringraziare il dottor Yan Dong per le cellule del tumore della prostata DU145. Vorremmo ringraziare il dottor Nathan Ungerleider per la sua guida e consigli per la creazione di script supercomputer. Alcuni di questi lavori sono stati finanziati da NIH Grants R01 GM121812 a PD, R01 AG057597 a VPB, e 5TL1TR001418 a TK. Vorremmo anche riconoscere il sostegno dei Cancer Crusaders e del Tulane Cancer Center Bioinformatics core.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |