Ici, nous présentons une approche et des analyses bioinformatiques pour identifier l’expression LINE-1 au niveau spécifique du locus.
Les éléments longs INterspersed-1 (LINEs/N1) sont des éléments répétitifs qui peuvent être copiés et insérer aléatoirement dans le génome, ce qui entraîne une instabilité génomique et une mutagenèse. La compréhension des schémas d’expression des loci L1 au niveau individuel prêtera à la compréhension de la biologie de cet élément mutagène. Cet élément autonome constitue une portion importante du génome humain avec plus de 500 000 exemplaires, bien que 99% soient tronqués et défectueux. Cependant, leur abondance et leur nombre dominant de copies défectueuses rendent difficile l’identification authentiquement exprimée N1 des séquences liées à la L1 exprimées dans d’autres gènes. Il est également difficile d’identifier quel locus L1 spécifique est exprimé en raison de la nature répétitive des éléments. En surmontant ces défis, nous présentons une approche bioinformatique de l’ARN-SEQ pour identifier l’expression L1 au niveau spécifique du locus. En résumé, nous recueillons l’ARN cytoplasmique, sélectionnons les transcriptions polyadénylées et utilisons des analyses ARN-SEQ spécifiques aux brins pour cartographier de façon unique les lectures sur des loci L1 dans le génome de référence humain. Nous avons visuellement curé chaque locus L1 avec des lectures mappées de façon unique pour confirmer la transcription de son propre promoteur et ajuster les lectures de transcription mappées pour tenir compte de la mappabilité de chaque locus L1 individuel. Cette approche a été appliquée à une lignée de cellules tumorales de la prostate, DU145, pour démontrer la capacité de ce protocole à détecter l’expression à partir d’un petit nombre d’éléments L1 pleine longueur.
Les rétrotransposons sont des éléments d’ADN répétitifs qui peuvent «sauter» dans le génome dans un mécanisme de copier-coller via des intermédiaires d’ARN. Un sous-ensemble de rétrotransposons est connu sous le nom de long INterspersed elements-1 (LINEs/N1) et constitue un sixième du génome humain avec plus de 500, 0000 copies1. En dépit de leur abondance, la plupart de ces copies sont défectueuses et tronquées avec seulement une estimation de 80-120 éléments L1 considérés comme actifs2. Une L1 pleine longueur est d’environ 6 Ko de longueur avec 5 ‘et 3 ‘régions non traduites, un promoteur interne et associé anti-sens promoteur, deux non-chevauchement des cadres de lecture ouverte (ORFS), et un signal et la queue polyA3,4,5 . Chez l’homme, les N1 sont des sous-familles distinguées par l’âge évolutionnaire avec les familles plus âgées ayant accumulé des mutations de séquences plus uniques au fil du temps par rapport à la plus jeune sous-famille, L1HS6,7. Les N1 sont les seuls rétrotransposons autonomes et humains et leurs ORFs encodent une transcriptase inverse, une endonucléase et des RNPs avec des activités de liaison à l’ARN et de chaperon requises pour rétrotransposer et insérer dans le génome dans un processus dénommé «cible-amorcée» transcription inversée8,9,10,11,12.
La rétrotransposition de N1 a été signalée comme causant des maladies germinales humaines par divers mécanismes, dont la mutagenèse insertionnelle, les suppressions de sites cibles et les réarrangements13,14,15, 16. récemment, il a été émis l’hypothèse que N1 peut jouer un rôle dans l’oncogenèse et/ou la progression tumorale comme l’augmentation de l’expression et des événements d’insertion de cet élément mutagène ont été observés dans une variété de cancers épithéliaux17,18 . On estime qu’il y a une nouvelle insertion L1 dans chaque 200 naissances19. Par conséquent, il est impératif de mieux comprendre la biologie de l’expression active N1. La nature répétitive et l’abondance des copies défectueuses trouvées dans les transcriptions d’autres gènes ont rendu ce niveau d’analyse difficile.
Heureusement, avec l’avènement des technologies de séquençage à haut débit, des progrès ont été faits pour analyser et identifier authentiquement exprimant N1 au niveau de locus-specific. Il existe différentes philosophies sur la façon de mieux identifier exprimée N1 en utilisant l’ARN séquençage de prochaine génération. Il n’y a eu que deux approches raisonnables suggérées pour cartographier les transcriptions L1 au niveau spécifique au locus. On ne se concentre que sur la transcription potentielle qui se lit à travers le signal de polyadénylation L1 et dans les séquences flanquant20. Notre approche tire parti des petites différences de séquence entre les éléments L1 et seulement les cartes que ces ARN-SEQ lisent qui mappe de façon unique à un locus21. Ces deux méthodes ont des limites en termes de quantification des niveaux de transcription. La quantification peut être améliorée potentiellement en ajoutant une correction pour la «mappabilité unique» de chaque locus L121, ou en utilisant des algorithmes plus complexes qui redistribuent les lectures multimappées qui ne peuvent pas être mappées de manière unique à un locus spécifique22. Ici, nous détaillons de manière étape par étape l’extraction d’ARN et le protocole de séquençage et de bioinformatique de nouvelle génération pour identifier les éléments L1 exprimés au niveau spécifique au locus. Notre approche profite au maximum de notre connaissance de la biologie des éléments fonctionnels L1. Cela inclut la connaissance que les éléments fonctionnels L1 doivent être générés à partir du promoteur L1, initié au début de l’élément L1, doivent être traduits dans le cytoplasme et que leurs transcriptions doivent être co-linéaires avec le génome. Brièvement, nous recueillons l’ARN frais, cytoplasmique, sélectionnons pour les transcriptions polyadénylées, et utilisons des analyses ARN-SEQ spécifiques aux brins pour cartographier de façon unique les lectures sur les loci L1 dans le génome de référence humain. Ces lectures alignées requièrent alors encore une grande conservation manuelle pour déterminer si les lectures de transcription proviennent du promoteur L1 avant de désigner un locus comme un L1 authentiquement exprimé. Nous appliquons cette approche sur l’échantillon de la lignée de cellules tumorales de la prostate DU145 pour démontrer comment il identifie un relativement peu de membres de L1 transcrits activement à partir de la masse des copies inactives.
Il a été démontré que l’activité de L1 provoque des dommages génétiques et une instabilité contribuant à la maladie27,28,29. Sur les environ 5 000 copies L1 complètes, seules quelques dizaines de jeunes N1 évolutivement représentent la majorité de l’activité de rétrotransposition2. Cependant, il est prouvé que même certains plus âgés, rétrotranspositionnellement-incompentent N1 sont encore en mesure de produire de l’ADN des protéines dommageables30. Pour apprécier pleinement le rôle du N1 dans l’instabilité génomique et la maladie, l’expression L1 au niveau spécifique au locus doit être comprise. Cependant, l’arrière-plan élevé des séquences liées à la L1 incorporées dans d’autres ARN sans rapport avec la rétrotransposition L1 pose un défi important dans l’interprétation de l’expression L1 authentique. Un autre défi dans l’identification et donc la compréhension des schémas d’expression des loci L1 individuels se produit en raison de leur nature répétitive qui ne permet pas de nombreuses séquences de lecture courtes pour mapper à un seul locus unique. Pour surmonter ces difficultés, nous avons développé l’approche décrite ci-dessus pour identifier l’expression des loci L1 individuels à l’aide de données ARN-Seq.
Notre approche filtre le niveau élevé (plus de 99%) du bruit transcriptionnel généré à partir de séquences L1 qui ne sont pas liées à la rétrotransposition L1 en prenant un certain nombre d’étapes. La première étape consiste à préparer l’ARN cytoplasmique. En sélectionnant pour l’ARN cytoplasmique, les lectures liées à la L1 trouvées dans l’ARNm intronique exprimée dans le noyau sont significativement épuisées. Dans la préparation de la bibliothèque de séquençage, une autre étape prise pour réduire le bruit transcriptionnel sans rapport avec N1 inclut la sélection des transcriptions polyadénylées. Cela élimine les bruits de transcription liés à la L1 trouvés chez les espèces non mRNA. Une autre étape comprend le séquençage spécifique aux brins afin d’identifier et d’éliminer les transcriptions liées à l’antisens L1. L’utilisation d’une annotation pour N1 pleine longueur avec des régions promotrices fonctionnelles lors de l’identification du nombre de transcriptions d’ARN-SEQ qui mappent à N1 élimine également les bruits de fond qui proviennent autrement de N1 tronquées. Enfin, la dernière étape critique pour éliminer le bruit transcriptionnel des séquences L1 sans rapport avec la rétrotransposition L1 est la conservation manuelle de la N1 pleine longueur identifiée pour avoir mappé des transcriptions de l’ARN-Seq. La conservation manuelle implique la visualisation de chaque locus L1, identifié par bioinformatisation, dans le contexte de son environnement génomique environnant, afin de confirmer que cette expression provient du promoteur L1. Cette approche a été appliquée à DU145, une lignée de cellules tumorales de la prostate. Même avec toutes les mesures de préparation prises pour réduire le bruit de fond, environ 50% des loci L1 identifiés bioinformatiquement dans DU145 ont été rejetés comme bruit de fond L1 provenant d’autres sources transcriptionnelles (figure 4), en insistant sur la rigueur requise pour produire des résultats fiables. Cette approche utilisant la conservation manuelle est laborieuse, mais nécessaire dans le développement de ce pipeline pour évaluer et comprendre l’environnement génomique entourant une L1 pleine longueur. Les prochaines étapes comprennent la réduction de la quantité de la conservation manuelle nécessaire en automatisant certaines des règles de conservation, mais en raison de la nature toujours pas complètement connue de l’expression génomique, des sources d’expression non annotées dans le génome de référence, les régions de faible la mappabilité, et même les facteurs de complication impliqués dans la construction d’un génome de référence, il n’est pas possible d’automatiser entièrement la conservation L1 à ce moment.
Le deuxième défi dans l’identification de l’expression des loci L1 individuels avec le séquençage se rapporte à la cartographie des transcriptions répétées de L1. Dans cette stratégie d’alignement, il est nécessaire qu’une transcription soit alignée de façon unique et co-linéairement sur le génome de référence afin d’être cartographiée. En sélectionnant pour les séquences couplées qui mappent concordalement, la quantité de transcriptions qui s’alignent de façon unique sur les loci L1 trouvés dans le génome de référence augmente. Cette stratégie de cartographie unique fournit la confiance dans l’appel de la cartographie de lectures spécifiquement à un locus L1 unique, bien qu’elle sous-estime potentiellement la quantité d’expression de chaque exprimée-à-être-authentiquement exprimé, répétitif L1. À peu près correct pour cette sous-estimation, un score de «mappability» pour chaque locus L1 basé sur sa mappabilité a été développé et appliqué au nombre de lectures de transcription mappées de façon unique (figure 6). Il est à noter que, idéalement, la mappabilité doit être notée à la couverture complète lit sur l’ensemble de la longueur L1 en fonction de l’échantillon WGS appariés. Ici, nous utilisons WGS de cellules HeLa pour déterminer les scores de la mappabilité de chaque locus L1 afin de gonfler ou de dégonfrer les lectures de mappage à des loci L1 dans les lignées cellulaires de tumeur de la prostate DU145. Ce calcul de la mappabilité est un score de correction brut, mais la «mappabilité complète de la couverture» de 400 lectures a été déterminée avec la nature dynamique des lignées cellulaires tumorales à l’esprit. Il peut être observé dans la figure 1 supplémentaire, qu’il y a quelques loci L1 avec hela WGS avec le nombre extrêmement élevé de lectures cartographiées. Ceux-ci proviennent probablement de séquences chromosomiques dupliquées au sein d’HeLa qui ne se trouvent pas dans le génome de référence, raison pour laquelle ces loci n’ont pas été choisis pour être représentatifs de la couverture de la mappabilité complète. Au lieu de cela, il a été déterminé que la moyenne de 100% de la couverture de lecture se produit autour de 400 lectures selon la figure supplémentaire 1 et a ensuite supposé que cette moyenne s’applique à la lignée de cellules de la prostate DU145 tumeur aussi bien.
Cette stratégie d’alignement avec 100-200 BP lectures de la technologie de l’ARN-SEQ sélectionne également préférentiellement pour les N1 évolutivement plus âgés dans le génome de référence que les N1 plus âgés ont accumulé au fil du temps des mutations uniques qui les rendent plus mappables. Cette approche, par conséquent, a une sensibilité limitée quand il s’agit d’identifier le plus jeune de N1 ainsi que non-référence, N1 polymorphique. Pour identifier le plus jeune de N1, nous vous suggérons d’utiliser 5 ‘RACE sélection de transcriptions L1 et la technologie de séquençage comme PacBio qui utilisent des lectures plus longues21. Cela permet une cartographie plus unique et donc une identification sûre des jeunes N1. l’utilisation des approches ARN-SEQ et PacBio peut aboutir à une liste plus complète des N1 authentiquement exprimés. Pour identifier les N1 polymorphiques authentiquement exprimés, les premières étapes suivantes comprennent la construction et l’insertion de séquences polymorphes dans le génome de référence.
Les défis biologiques et techniques dans l’étude des séquences répétées sont grands, mais avec la procédure ci-dessus rigoureuse pour éliminer le bruit transcriptionnel des séquences L1 non liées à la rétrotransposition en utilisant la technologie de séquençage de l’ARN, nous commençons à passer au crible les grands niveaux de bruit de fond transcriptionnel et d’être en confiance et de manière rigoureuse identifier les modèles d’expression L1 et la quantité au niveau de locus individuel.
The authors have nothing to disclose.
Nous aimerions remercier le Dr Yan Dong pour les cellules tumorales de la prostate DU145. Nous aimerions remercier le Dr Nathan Ungerleider pour ses conseils et son Conseil dans la création de scripts de supercalculateur. Une partie de ce travail a été financée par des subventions NIH R01 GM121812 à la police, R01 AG057597 à VPB, et 5TL1TR001418 aux savoirs traditionnels. Nous aimerions également souligner le soutien des croisés du cancer et du centre de bioinformatique du Tulane Cancer Center.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |