Aqui, apresentamos uma abordagem Bioinformatica e análises para identificar a expressão da linha 1 no nível específico do locus.
Os elementos INterspersed longos-1 (LINEs/L1s) são elementos repetitivos que podem copiar e inserir aleatòria no genoma tendo por resultado a instabilidade e a mutagenese genomic. Compreender os padrões de expressão de Locos L1 no nível individual irá emprestar para a compreensão da biologia deste elemento mutagênico. Este elemento autônomo compõe uma parcela significativa do genoma humano com mais de 500.000 cópias, embora 99% são truncados e defeituosos. Entretanto, sua abundância e número dominante de cópias defeituosas fazem-lhe o desafio identificar autenticamente expressado L1s das seqüências L1-relacionadas expressadas como parte de outros genes. Também é desafiador identificar qual Locus L1 específico é expresso devido à natureza repetitiva dos elementos. Superando esses desafios, apresentamos uma abordagem Bioinformatica de RNA-Seq para identificar a expressão de L1 no nível específico do locus. Em resumo, nós coletamos o RNA cytoplasmic, selecionamos para transcritos poliadenilado, e utilizamos análises Strand-specific do RNA-Seq para mapear excepcionalmente leituras ao loci L1 no genoma humano da referência. Nós visualmente cura cada Locus L1 com leituras excepcionalmente mapeadas para confirmar a transcrição de seu próprio promotor e ajustar as leituras de transcrição mapeadas para dar conta da mappability de cada Locus L1 individual. Esta aproximação foi aplicada a uma linha celular do tumor da próstata, DU145, para demonstrar a habilidade deste protocolo de detectar a expressão de um número pequeno dos elementos L1 full-length.
Retrotransposons são elementos repetitivos do ADN que podem “saltar” no genoma em um mecanismo da copiar-e-pasta através dos intermediários do RNA. Um subconjunto de retrotransposons é sabido como elementos INterspersed Long-1 (LINEs/L1s) e compõe um sexto do genoma humano com sobre 500, 0000 cópias1. Apesar de sua abundância, a maioria dessas cópias são defeituosas e truncados com apenas um estimado 80-120 L1 elementos pensado para ser ativo2. Um L1 de comprimento total é de cerca de 6 KB de comprimento com 5 ‘ e 3 ‘ regiões não traduzidas, um promotor interno e promotor anti-Sense associado, dois quadros de leitura aberta não sobrepostas (ORFS), e um sinal e cauda Polya3,4,5 . Nos seres humanos, L1s são compo das subfamílias distinguidas pela idade evolutiva com as famílias mais velhas que acumularam umas mutações mais originais da seqüência sobre o tempo comparada à subfamília a mais nova, L1HS6,7. L1s são os únicos retrotransposons autônomos, humanos e seus ORFS codificam uma transcriptase reversa, um endonuclease, e um rnps com as atividades do RNA-ligação e do acompanhante exigidas retrotranspose e inserção no genoma em um processo referido como alvo-aprontado transcrição reversa8,9,10,11,12.
O retrotransposição de L1s foi relatado para causar doenças humanas do germline por uma variedade de mecanismos que incluem o mutagenesis do insertional, as eliminações do local de destino, e os rearranjos13,14,15, 16. recentemente, foi supor que L1s pode desempenhar um papel na oncogênese e/ou progressão tumoral como o aumento da expressão e eventos de inserção deste elemento mutagênico têm sido observados em uma variedade de cânceres epiteliais17,18 . Estima-se que haja uma nova inserção de L1 em cada 200 nascimentos19. Portanto, é imperativo compreender melhor a biologia do expressar ativamente L1s. A natureza repetitiva e abundância de cópias defeituosas encontradas dentro de transcrições de outros genes tornaram este nível de análise desafiador.
Felizmente, com o advento de tecnologias de sequenciamento de alta taxa de transferência, foram feitos avanços para analisar e identificar autenticamente expressando L1s no nível específico do locus. Há umas filosofias de deferimento em como identificar melhor expressado L1s usando o sequenciamento da próxima geração do RNA. Houve apenas duas abordagens razoáveis sugeridas para mapear transcrições L1 no nível Locus-specific. Um centra-se somente na transcrição potencial que lê através do sinal da poliadenilação L1 e em seqüências flanqueando20. Nossa aproximação aproveita-se das diferenças pequenas da seqüência entre elementos L1 e mapeia somente aqueles RNA-Seq lê esse mapa excepcionalmente a um locus21. Ambos os métodos têm limitações em termos de quantificação dos níveis de transcrição. A quantitation pode ser melhorada potencialmente adicionando uma correção para a “mappability original” de cada lócus L121, ou usando algoritmos mais complexos que redistribuir as leituras de vários mapeados que não puderam ser mapeadas exclusivamente para um locus específico22. Aqui, iremos detalhar de forma passo a passo a extração de RNA e o protocolo de sequenciamento e bioinformática da próxima geração para identificar elementos L1 expressos no nível locus-específico. Nossa aproximação toma a vantagem máxima de nosso conhecimento da biologia de elementos funcionais de L1. Isso inclui saber que os elementos funcionais L1 devem ser gerados a partir do promotor L1, iniciado no início do elemento L1, deve ser traduzido no citoplasma e que suas transcrições devem ser colineares com o genoma. Momentaneamente, nós coletamos o RNA fresco, cytoplasmic, selecionamos para transcritos poliadenilado, e utilizamos análises Strand-specific do RNA-Seq para mapear excepcionalmente leituras ao loci L1 no genoma humano da referência. Estas leituras alinhadas então ainda exigem o curadoria manual extensivo para determinar se as leituras do Transcript originam do promotor L1 antes de designar um locus como um L1 autenticamente expressado. Nós aplicamos esta aproximação na amostra da linha celular do tumor da próstata DU145 para demonstrar como identifica relativamente poucos membros L1 ativamente transcritos da massa de cópias inativas.
A atividade L1 tem demonstrado causar dano genético e instabilidade contribuindo para a doença27,28,29. Das aproximadamente 5.000 cópias L1 full-length, somente algumas dúzias evolutionariamente jovens L1s respondem para a maioria da atividade do retrotransposição2. Entretanto, há uma evidência que mesmo alguns mais velhos, retrotransposicionalmente-incompentent L1s são ainda capazes de produzir proteínas prejudiciais do ADN30. Para apreciar inteiramente o papel de L1s na instabilidade e na doença genomic, a expressão L1 a nível locus-específico deve ser compreendida. Entretanto, o fundo elevado de seqüências L1-relacionadas incorporados em outros RNAs não relacionados à retrotransposição L1 levanta um desafio significativo em interpretar a expressão L1 autêntica. Outro desafio na identificação e, portanto, compreensão de padrões de expressão de loci L1 individuais ocorre por causa de sua natureza repetitiva que não permite que muitas seqüências de leitura curtas para mapear para um único Locus único. Para superar esses desafios, desenvolvemos a abordagem descrita acima na identificação da expressão de Locos L1 individuais usando dados de RNA-Seq.
Nossa abordagem filtra o alto nível (mais de 99%) de ruído transcricional gerado a partir de sequências L1 que não estão relacionadas com a retrotransposição L1, tomando uma série de passos. O primeiro passo envolve a preparação do RNA citoplasmático. Selecionando para o RNA cytoplasmic, as leituras L1-relacionadas encontradas dentro do mRNA intronic expressado no núcleo são esgotadas significativamente. Na preparação da biblioteca de sequenciamento, outra etapa tomada para reduzir o ruído transcricional não relacionada ao L1s incluem a seleção de transcrições poliadeniladas. Isso remove o ruído de transcrição relacionado ao L1 encontrado em espécies não mRNA. Uma outra etapa inclui arranjar em seqüência vertente-específica a fim identificar e eliminar transcritos L1-relacionados do antisense. O uso de uma anotação para o L1s completo com regiões de promotor funcionais ao identificar o número de transcritos RNA-Seq que mapeiam para L1s também elimina o ruído de fundo que de outra forma se origina de L1s truncado. Finalmente, a última etapa crítica na eliminação do ruído transcricional das sequências L1 não relacionadas à retrotransposição L1 é a Curação manual de L1s de comprimento total identificada para ter mapeado transcrições de RNA-Seq. A Curação manual envolve a visualização de cada lócus L1 bioinformaticamente identificado-a-ser-expresso no contexto de seu ambiente genómico circunvizinho para confirmar que a expressão se origina do promotor L1. Esta aproximação foi aplicada a DU145, uma linha celular do tumor da próstata. Mesmo com todas as etapas relacionadas à preparação adotadas para reduzir o ruído de fundo, aproximadamente 50% dos Locos L1 identificados bioinformaticamente em DU145 foram rejeitados como ruído de fundo L1 proveniente de outras fontes transcricional (Figura 4), enfatizando o rigor exigido para produzir resultados confiáveis. Essa abordagem usando a Curação manual é trabalhosa, mas necessária no desenvolvimento deste pipeline para avaliar e compreender o ambiente genómico em torno de um L1 de comprimento total. Os próximos passos incluem a redução da quantidade de curadoria manual necessária automatizando algumas das regras de curadoria, embora devido à natureza ainda não completamente conhecida da expressão genômica, fontes de expressão não anotadas no genoma de referência, regiões de baixa mappability, e mesmo complicando fatores envolvidos com a construção de um genoma da referência não é ser possível automatizar inteiramente a Curação L1 neste tempo.
O segundo desafio na identificação da expressão de Locos L1 individuais com sequenciamento relaciona-se com o mapeamento de transcrições L1 repetitivas. Nesta estratégia de alinhamento, é necessário que uma transcrição deve alinhar de forma única e colinearmente ao genoma de referência para ser mapeado. Ao selecionar para sequências de extremidade emparelhada que mapeiam concoremente, a quantidade de transcrições que se alinham exclusivamente a Locos L1 encontrados no genoma de referência aumenta. Essa estratégia de mapeamento exclusivo fornece confiança no chamado de mapeamento de leituras especificamente para um único Locus L1, embora potencialmente subestimar a quantidade de expressão de cada L1 repetitivo identificado para ser autenticamente expresso. Para aproximadamente corrigir essa subestimação, um escore de “mappability” para cada Locus L1 baseado em sua mappability foi desenvolvido e aplicado ao número de leituras de transcrição exclusivamente mapeadas (Figura 6). É de notar que, idealmente, a mappability deve ser pontuada para a cobertura completa lê através do comprimento total L1 de acordo com a amostra WGS correspondente. Aqui, nós usamos WGS de pilhas de HeLa para determinar contagens do mappability de cada Locus L1 a fim inflar ou esvaziar leituras que mapeiam ao loci L1 em linhas de pilha do tumor da próstata DU145. Este cálculo do mappability é uma contagem bruta da correção, mas o ‘ mappability completo da cobertura escolhida de 400 leituras foi determinado com a natureza dinâmica de linhas de pilha do tumor na mente. Pode ser observado na Figura 1 suplementar, que há alguns Locos L1 com HELA WGS com número extremamente alto de leituras mapeadas. Estes provavelmente vêm das seqüências duplicadas do cromossoma dentro de HeLa que não estão dentro do genoma da referência, que é porque aqueles loci não foram escolhidos para ser representativos da cobertura completa do mappability. Em vez disso, foi determinado que a média de 100% de cobertura de leitura ocorre em torno de 400 leituras de acordo com a Figura 1 suplementar e, em seguida, foi assumido que esta média se aplica à linha de células da próstata tumor DU145 também.
Esta estratégia do alinhamento com 100-200 BP lê da tecnologia do RNA-Seq seleciona preferencialmente também para evolutionarmente mais velho L1s dentro do genoma da referência como L1s mais velhos acumularam sobre mutações originais do tempo que os fazem mais mappable. Esta abordagem, portanto, tem sensibilidade limitada quando se trata de identificar o mais jovem de L1s, bem como não-referência, L1s polimóica. Para identificar o mais novo de L1s, sugerimos o uso de 5 ‘ RACE seleção de transcritos L1 e tecnologia de sequenciamento como PacBio que fazem uso de leituras mais21. Isto permite o mapeamento mais original e conseqüentemente a identificação confiável do expressado, jovem L1s. o uso de RNA-Seq e PacBio abordagens em conjunto pode levar a uma lista mais abrangente de L1s autenticamente expressa. Para identificar os L1s polimoróricos autenticamente expressos, os primeiros passos seguintes incluem a construção e inserção de sequências popoliméricos no genoma de referência.
Os desafios biológicos e técnicos no estudo de sequências de repetição são grandes, embora com o procedimento rigoroso acima para remover o ruído transcricional das sequências L1 não relacionadas ao retrotransposição usando a tecnologia de sequenciamento de RNA, começamos a peneirar os grandes níveis de ruído de fundo transcricional e ser para identificar com confiança e de forma estrita os padrões de expressão L1 e a quantidade no nível do locus individual.
The authors have nothing to disclose.
Gostaríamos de agradecer ao Dr. Yan Dong pelas células tumorais da próstata DU145. Gostaríamos de agradecer ao Dr. Nathan Ungerleider por sua orientação e aconselhamento na criação de scripts de supercomputador. Parte deste trabalho foi financiado pela NIH Grants R01 GM121812 para PD, R01 AG057597 para VPB, e 5TL1TR001418 para TK. Também gostaríamos de reconhecer o apoio do cancer Crusaders e do centro de bioinformática do Tulane Cancer Center.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |