Aquí presentamos un enfoque y análisis bioinformáticos para identificar la expresión LINE-1 en el nivel específico del locus.
Los elementos intercalados largos-1 (LINEs/L1s) son elementos repetitivos que pueden copiarse e insertarse aleatoriamente en el genoma, resultando en inestabilidad genómica y mutagénesis. La comprensión de los patrones de expresión de los loci L1 a nivel individual prestará a la comprensión de la biología de este elemento mutagénico. Este elemento autónomo conforma una porción significativa del genoma humano con más de 500.000 ejemplares, aunque el 99% están truncados y defectuosos. Sin embargo, su abundancia y el número dominante de copias defectuosas hacen que sea difícil identificar auténticamente expresado L1s de secuencias relacionadas con L1 expresadas como parte de otros genes. También es difícil identificar qué locus L1 específico se expresa debido a la naturaleza repetitiva de los elementos. Superando estos desafíos, presentamos un enfoque Bioinformático de ARN-SEQ para identificar la expresión L1 en el nivel específico del locus. En Resumen, recogemos el ARN citoplasmático, seleccionamos para las transcripciones poliadeniladas, y utilizamos análisis de ARN-SEQ específicos de la hebra para mapear lecturas de forma única a loci L1 en el genoma de referencia humano. Se curan visualmente cada locus L1 con lecturas asignadas de forma única para confirmar la transcripción de su propio promotor y ajustar las lecturas de transcripción asignadas para tener en cuenta la capacidad de asignabilidad de cada locus L1 individual. Este enfoque se aplicó a una línea celular de tumor de próstata, DU145, para demostrar la capacidad de este protocolo para detectar la expresión a partir de un pequeño número de elementos L1 de longitud completa.
Los retrotransposones son elementos de ADN repetitivos que pueden “saltar” en el genoma en un mecanismo de copiado y pegado a través de los intermedios de ARN. Un subconjunto de retrotransposones se conoce como Long INterspersed Elements-1 (LINEs/L1s) y constituye una sexta parte del genoma humano con más de 500, 0000 copias1. A pesar de su abundancia, la mayoría de estas copias son defectuosas y truncadas con sólo un estimado 80-120 elementos L1 que se cree que son activos2. Una L1 de longitud completa tiene una longitud de aproximadamente 6 KB con regiones no traducidas de 5 ‘ y 3 ‘, un promotor interno y un promotor anti-sentido asociado, dos marcos de lectura abierta no solapados (ORFs) y una cola de señal y Polya3,4,5 . En los seres humanos, L1s se componen de subfamilias distinguidas por la edad evolutiva con las familias mayores que han acumulado más mutaciones de secuencia únicas en el tiempo en comparación con la subfamilia más joven, L1HS6,7. L1s son los únicos retrotransposones autónomos y humanos y sus ORFs codifican una transcriptasa inversa, endonuclease, y RNPs con las actividades de enlace de ARN y chaperona requeridas para retrotransponer e insertar en el genoma en un proceso referido como objetivo-cebado transcripción inversa8, 9,10,11,12.
Se ha notificado que la retrotransposición de L1s causó enfermedades de la línea germinal humana por una variedad de mecanismos que incluyen mutagénesis insercional, deleciones en el lugar de destino y rearreglos13,14,15, 16. recientemente se ha presumido que el L1s puede desempeñar un papel en la oncogénesis y/o progresión tumoral, ya que se han observado mayores manifestaciones y acontecimientos de inserción de este elemento mutagénico en una variedad de cánceres epiteliales17,18 . Se estima que hay una nueva inserción L1 en cada 200 nacimientos19. Por lo tanto, es imperativo entender mejor la biología de la expresión activa L1s. La naturaleza repetitiva y la abundancia de copias defectuosas encontradas en las transcripciones de otros genes han hecho que este nivel de análisis sea desafiante.
Afortunadamente, con el advenimiento de las tecnologías de secuenciación de alto rendimiento, se han hecho progresos para analizar e identificar auténticamente expresar L1s en el nivel específico del locus. Existen diferentes filosofías sobre cómo identificar mejor el L1s expresado usando la secuenciación de próxima generación de ARN. Sólo se han sugerido dos enfoques razonables para mapear transcripciones L1 en el nivel específico de locus. Uno se centra sólo en la transcripción potencial que lee a través de la señal de poliadenilación L1 y en las secuencias flanqueante20. Nuestro enfoque aprovecha las pequeñas diferencias de secuencia entre los elementos L1 y solo asigna las lecturas de ARN-SEQ que se asignan de forma única a un locus21. Ambos métodos tienen limitaciones en términos de cuantificación de los niveles de transcripción. La cuantificación se puede mejorar potencialmente añadiendo una corrección para la “asignabilidad única” de cada locus21L1, o usando algoritmos más complejos que redistribuyan las lecturas de múltiples mapeados que no podrían asignarse de forma única a un locus específico22. Aquí, detallaremos paso a paso la extracción de ARN y la secuenciación de última generación y el protocolo Bioinformático para identificar los elementos expresados en L1 en el nivel específico del locus. Nuestro enfoque aprovecha al máximo nuestro conocimiento de la biología de los elementos funcionales L1. Esto incluye saber que los elementos L1 funcionales deben generarse a partir del promotor L1, iniciado al principio del elemento L1, debe traducirse en el citoplasma y que sus transcripciones deben ser co-lineales con el genoma. Brevemente, recolectamos ARN citoplásmico fresco, seleccionamos para las transcripciones poliadeniladas, y utilizamos análisis de ARN-SEQ específicos de la hebra para mapear lecturas de forma única a loci L1 en el genoma de referencia humano. Estas lecturas alineadas todavía requieren una extensa curación manual para determinar si las lecturas de transcripción provienen del promotor L1 antes de designar un locus como un L1 auténticamente expresado. Aplicamos este enfoque en la muestra de la línea celular del tumor de próstata DU145 para demostrar cómo identifica a unos pocos miembros de L1 transcritos activamente de la masa de copias inactivas.
Se ha demostrado que la actividad L1 causa daño genético e inestabilidad que contribuyen a la enfermedad27,28,29. De las aproximadamente 5.000 copias completas de L1, sólo unas cuantas docenas de jóvenes evolutivamente L1s representan la mayoría de la actividad de retrotransposición2. Sin embargo, hay evidencia de que incluso algunos más antiguos, retrotransposicionalmente-incompentent L1s todavía son capaces de producir ADN perjudicial proteínas30. Para apreciar plenamente el papel de la L1s en la inestabilidad genómica y la enfermedad, se debe entender la expresión L1 en el nivel específico del locus. Sin embargo, el alto fondo de las secuencias relacionadas con L1 incorporadas en otros RNAs no relacionados con la retrotransposición L1 plantea un desafío significativo en la interpretación de la expresión L1 auténtica. Otro desafío en la identificación y por lo tanto la comprensión de los patrones de expresión de los loci L1 individuales se produce debido a su naturaleza repetitiva que no permite que muchas secuencias de lectura cortas se mapear a un único locus único. Para superar estos desafíos, desarrollamos el enfoque descrito anteriormente para identificar la expresión de loci L1 individuales utilizando datos de ARN-seq.
Nuestro enfoque filtra el nivel alto (más del 99%) de ruido transcripcional generado a partir de secuencias L1 que no están relacionadas con la retrotransposición L1 mediante la toma de una serie de pasos. El primer paso consiste en la preparación del ARN citoplásmico. Al seleccionar el ARN citoplásmico, las lecturas relacionadas con L1 encontradas dentro del mRNA intrónico expresado en el núcleo se agotan significativamente. En la preparación de la biblioteca de secuenciación, otro paso tomado para reducir el ruido transcripcional no relacionado con el L1s incluyen la selección de transcripciones poliadeniladas. Esto elimina el ruido de transcripción relacionado con L1 que se encuentra en especies que no son mRNA. Otro paso incluye la secuenciación específica de la hebra para identificar y eliminar las transcripciones relacionadas con el antisentido L1. El uso de una anotación para L1s de longitud completa con regiones promotoras funcionales al identificar el número de transcripciones de ARN-SEQ que se asignan a L1s también elimina el ruido de fondo que de otro modo se originan a partir de L1s truncados. Por último, el último paso crítico para eliminar el ruido transcripcional de las secuencias L1 no relacionadas con la retrotransposición de L1 es la curación manual de la longitud total de L1s identificada para haber mapeado transcripciones de ARN-seq. La curación manual implica la visualización de cada locus L1 identificado de manera bioinformáticamente en el contexto de su entorno genómico circundante para confirmar que la expresión proviene del promotor L1. Este enfoque se aplicó a DU145, una línea celular de tumor de próstata. Incluso con todas las medidas relacionadas con la preparación adoptadas para reducir el ruido de fondo, aproximadamente el 50% de los loci L1 identificados de manera bioinformáticamente en DU145 fueron rechazados como ruido de fondo L1 procedente de otras fuentes transcripcionales (figura 4), enfatizando el rigor necesario para producir resultados fiables. Este enfoque mediante la curación manual es laborioso, pero necesario en el desarrollo de esta tubería para evaluar y comprender el entorno genómico que rodea a un L1 de longitud completa. Los siguientes pasos incluyen la reducción de la cantidad de curación manual necesaria automatizando algunas de las reglas de curación, aunque debido a la naturaleza todavía no completamente conocida de la expresión genómica, las fuentes de expresión no anotadas en el genoma de referencia, las regiones de baja asignabilidad, e incluso factores que complican la construcción de un genoma de referencia, no es posible automatizar completamente la curación L1 en este momento.
El segundo desafío en la identificación de la expresión de loci L1 individuales con la secuenciación se relaciona con el mapeo de transcripciones L1 repetitivas. En esta estrategia de alineación, se requiere que una transcripción deba alinearse única y colinealmente con el genoma de referencia para que se asigne. Al seleccionar las secuencias de final emparejado que se asignan concordantemente, aumenta la cantidad de transcripciones que se alinean de forma única a los loci L1 que se encuentran en el genoma de referencia. Esta estrategia de mapeo único proporciona confianza en la llamada de lecturas que se mapear específicamente a un solo locus L1, aunque potencialmente subestima la cantidad de expresión de cada L1, repetitivo, expresado, a ser auténticamente, repetido. Para corregir aproximadamente esta infravaloración, se desarrolló una puntuación de “asignabilidad” para cada locus L1 basado en su capacidad de asignabilidad y se aplicó al número de lecturas de transcripción asignadas de forma exclusiva (figura 6). Es de notar que idealmente, la asignabilidad se debe anotar a las lecturas de la cobertura completa a través del L1 de longitud completa según la muestra emparejada WGS. Aquí, utilizamos WGS de células HeLa para determinar las puntuaciones de la asignación de cada loci L1 con el fin de inflar o DEFLATE lecturas de mapeo para L1 loci en DU145 líneas celulares de tumor de próstata. Este cálculo de la asignabilidad es una puntuación de corrección bruta, pero la “asignabilidad completa de la cobertura” de 400 lecturas se determinó con la naturaleza dinámica de las líneas celulares tumorales en mente. Puede observarse en la figura 1 suplementaria, que hay algunos loci L1 con Hela WGS con un número extremadamente alto de lecturas asignadas. Estos probablemente provienen de secuencias cromosómicas duplicadas dentro de HeLa que no están dentro del genoma de referencia, razón por la cual esos loci no fueron elegidos para ser representativos de la cobertura completa de la asignabilidad. En su lugar, se determinó que el promedio de 100% de cobertura de lectura se produce alrededor de 400 lecturas de acuerdo con la figura 1 suplementaria y luego se asumió que este promedio se aplica a la línea de la célula de próstata del tumor DU145, así.
Esta estrategia de alineación con 100-200 BP Lee de la tecnología RNA-SEQ también selecciona preferentemente para los L1s evolutivamente más antiguos dentro del genoma de referencia como mayores L1s han acumulado con el tiempo mutaciones únicas que los hacen más asignables. Este enfoque, por lo tanto, tiene una sensibilidad limitada a la hora de identificar al más joven de L1s, así como de no referencia, polimórfico L1s. Para identificar al más joven de L1s, sugerimos usar la selección 5 ‘ RACE de transcripciones L1 y tecnología de secuenciación como PacBio que hacen uso de lecturas más largas21. Esto permite un mapeo más singular y, por lo tanto, una identificación segura de los L1s expresados, jóvenes. el uso de ARN-SEQ y PacBio enfoques juntos puede conducir a una lista más completa de L1s expresa auténticamente. Para identificar el polimórfico L1s auténticamente expresado, los primeros pasos siguientes incluyen la construcción e inserción de secuencias polimórficas en el genoma de referencia.
Los desafíos biológicos y técnicos en el estudio de las secuencias repetidas son grandes, aunque con el procedimiento riguroso anterior para eliminar el ruido transcripcional de las secuencias L1 no relacionadas con la retrotransposición utilizando la tecnología de secuenciación de ARN, comenzamos a tamizar a través los grandes niveles de ruido de fondo transcripcional y la identificación segura y rigurosa de los patrones de expresión L1 y la cantidad a nivel de locus individual.
The authors have nothing to disclose.
Nos gustaría agradecer al Dr. Yan dong por las células del tumor de próstata DU145. Nos gustaría agradecer al Dr. Nathan Ungerleider por su guía y Consejo en la creación de guiones de supercomputadoras. Parte de este trabajo fue financiado por NIH Grants r01 GM121812 a PD, r01 AG057597 a VPB, y 5TL1TR001418 a TK. También nos gustaría reconocer el apoyo de los cruzados del cáncer y el núcleo Bioinformático del centro oncológico Tulane.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |