Cette méthode décrit les étapes pour améliorer la qualité et la quantité de données de séquence qui peuvent être obtenues à partir d’échantillons d’ARN formalin-fixes paraffin-embedded (FFPE). Nous décrivons la méthodologie pour évaluer plus précisément la qualité des échantillons FFPE-ARN, préparer des bibliothèques de séquençage et analyser les données des échantillons FFPE-ARN.
L’analyse de l’expression génique par séquençage de l’ARN (ARN-seq) permet un aperçu unique des échantillons cliniques qui peuvent potentiellement mener à une compréhension mécaniste de la base de diverses maladies ainsi que des mécanismes de résistance et/ou de susceptibilité. Cependant, les tissus ffPE, qui représentent la méthode la plus commune pour préserver la morphologie des tissus dans les spécimens cliniques, ne sont pas les meilleures sources pour l’analyse de profilage d’expression génique. L’ARN obtenu à partir de tels échantillons est souvent dégradé, fragmenté et chimiquement modifié, ce qui conduit à des bibliothèques de séquençage sous-optimales. À leur tour, ceux-ci génèrent des données de séquence de mauvaise qualité qui peuvent ne pas être fiables pour l’analyse de l’expression des gènes et la découverte de la mutation. Afin de tirer le meilleur parti des échantillons de la FFPE et d’obtenir les meilleures données possibles à partir d’échantillons de mauvaise qualité, il est important de prendre certaines précautions tout en planifiant la conception expérimentale, en préparant les bibliothèques de séquençage et lors de l’analyse des données. Cela comprend l’utilisation de mesures appropriées pour un contrôle précis de la qualité de l’échantillon (QC), l’identification des meilleures méthodes pour diverses étapes au cours de la génération de bibliothèque de séquençage, et la bibliothèque soigneuse QC. En outre, l’application d’outils logiciels et de paramètres corrects pour l’analyse des données de séquence est essentielle afin d’identifier les artefacts dans les données ARN-seq, filtrer la contamination et les lectures de faible qualité, évaluer l’uniformité de la couverture génétique et mesurer la reproductibilité des profils d’expression génique parmi les répliques biologiques. Ces étapes peuvent assurer une grande précision et une reproductibilité pour le profilage d’échantillons d’ARN très hétérogènes. Ici, nous décrivons les différentes étapes pour l’échantillon QC, la préparation de bibliothèque et QC, le séquençage, et l’analyse de données qui peuvent aider à augmenter la quantité de données utiles obtenues à partir de l’ARN de mauvaise qualité, comme celui obtenu à partir de tissus FFPE-ARN.
L’utilisation d’approches de séquençage de nouvelle génération nous a permis de glaner une mine d’informations provenant de divers types d’échantillons. Cependant, les échantillons anciens et mal conservés restent inapplicables pour les méthodes couramment utilisées pour générer des données de séquence et nécessitent souvent des modifications à des protocoles bien établis. Les tissus FFPE représentent un tel type d’échantillon qui a été largement utilisé pour les spécimens cliniques1,2,3. Tandis que la préservation de FFPE maintient la morphologie de tissu, les acides nucléiques dans les tissus de FFPE présentent habituellement un large éventail de dommages et de dégradation, rendant difficile de récupérer l’information génomique qui peut mener aux informations importantes au sujet des mécanismes moléculaires sous-jacents à divers désordres.
Les données d’expression génique générées par le séquençage de l’ARN sont souvent déterminantes dans l’étude des mécanismes de maladie et de résistance et complètent l’analyse de mutation de l’ADN. Cependant, l’ARN est plus sensible à la dégradation, ce qui rend plus difficile de générer des données précises d’expression génique à partir de tissus FFPE. De plus, étant donné que la grande disponibilité et l’abordabilité du séquençage sont relativement récentes, les spécimens plus anciens n’étaient souvent pas entreposés dans des conditions nécessaires pour préserver l’intégrité de l’ARN. Certains des problèmes pour les échantillons ffPE comprennent la dégradation de l’ARN due à l’intégration dans la paraffine, la modification chimique de l’ARN conduisant à la fragmentation ou la réfractabilité aux processus enzymatiques nécessaires pour le séquençage, et la perte des queues poly-A, limitant l’applicabilité de l’oligo-dT comme amorce pour la transcriptase inverse4. Un autre défi est la manipulation /stockage des échantillons FFPE dans des conditions sous-optimales, ce qui peut conduire à une dégradation supplémentaire des molécules de laboratoire telles que l’ARN dans les tissus5. Ceci est particulièrement pertinent pour les échantillons plus anciens qui peuvent avoir été prélevés à un moment où l’analyse de l’expression génique par séquençage de l’ARN n’était pas prévue pour les échantillons. Tous ces éléments conduisent à une diminution de la qualité et de la quantité de l’ARN extrait disponible pour générer des données de séquence utiles. La faible probabilité de succès, combinée au coût élevé du séquençage, a dissuadé de nombreux chercheurs d’essayer de générer et d’analyser les données sur l’expression des gènes à partir d’échantillons potentiellement utiles de la FFPE. Certaines études menées ces dernières années ont démontré la facilité d’utilisation des tissus FFPE pour l’analyse de l’expression génique2,6,7,8,9, mais pour des échantillons moins nombreux et/ou plus récents.
Comme étude de faisabilité, nous avons utilisé l’ARN extrait des spécimens de tissu tumoral FFPE de trois dépôts de tissus résiduels de surveillance, d’épidémiologie et de résultats finaux (SEER) registres du cancer pour le séquençage de l’ARN et l’analyse de l’expression génique10. Achetés des laboratoires cliniques de pathologie, les tissus de FFPE des adénocarcinomes séreux ovariens de haute qualité ont été stockés de 7 à 32 ans dans des conditions variables avant l’extraction d’ARN. Parce que dans la plupart des cas, ces blocs avaient été stockés dans différents sites pendant des années sans attendre une analyse génétique sensible à l’avenir, peu de soin n’avait été pris pour préserver les acides nucléiques. Ainsi, la plupart des échantillons présentaient de l’ARN de mauvaise qualité, avec une grande proportion d’échantillons contaminés par des bactéries. Néanmoins, nous avons été en mesure d’effectuer la quantification des gènes, de mesurer l’uniformité et la continuité de la couverture génétique et d’effectuer l’analyse de corrélation Pearson entre les répliques biologiques pour mesurer la reproductibilité. Sur la base d’un ensemble de panneaux génétiques de signature clé, nous avons comparé les échantillons de notre étude avec les données de l’Atlas du génome du cancer (TCGA) et confirmé qu’environ 60 % des échantillons avaient des profils d’expression géniquecomparables 11. En nous basant sur la corrélation entre les divers résultats de QC et les métadonnées de l’échantillon, nous avons identifié des mesures clés de QC qui ont une bonne valeur prédictive pour identifier les échantillons qui sont plus susceptibles de générer des données de séquence utilisables11.
Ici, nous décrivons la méthodologie utilisée pour l’évaluation de la qualité de l’ARN FFPE, la génération de bibliothèques de séquençage à partir d’échantillons d’ARN extraits, et l’analyse bioinformatique des données de séquençage.
La méthode décrite ici décrit les principales étapes nécessaires pour obtenir de bonnes données de séquence à partir d’échantillons FFPE-ARN. Les principaux points à considérer avec cette méthode sont les suivants : (1) Assurez-vous que l’ARN est conservé le mieux possible après l’extraction en minimisant les cycles de manipulation et de congélation et de décongélation de l’échantillon. Les aliquots de QC séparés sont très utiles. (2) Utilisez une mesure QC qui est la meilleure pour l’ensem…
The authors have nothing to disclose.
Nous remercions la Dre Danielle Carrick (Division de la lutte contre le cancer et des sciences de la population, Institut national du cancer) d’avoir continué à aider, en particulier pour le lancement de cette étude, pour nous fournir les échantillons et pour des suggestions utiles au cours de l’analyse des données. Nous remercions sincèrement tous les membres de l’installation de séquençage du CCR au Laboratoire national de recherche sur le cancer de Frederick pour leur aide pendant la préparation et le séquençage de l’échantillon, en particulier Brenda Ho pour l’aide dans l’échantillon QC, Oksana Allemand pour la bibliothèque QC, Tatyana Smirnova pour la gestion des séquenceurs. Nous tenons également à remercier Tsai-wei Shen et Ashley Walton de Sequencing Facility Bioinformatics Group d’avoir aidé à l’analyse des données et à la mise en œuvre du pipeline RNA-seq. Nous remercions également le CCBR et le NCBR pour leur aide à l’élaboration du pipeline d’analyse RNaseq et de l’élaboration des meilleures pratiques.
2100 Bioanalyzer | Agilent | G2939BA | |
Agilent DNA 7500 Kit | Agilent | 5067-1506 | |
Agilent High Sensitivity DNA Kit | Agilent | 5067-4626 | |
Agilent RNA 6000 Nano Kit | Agilent | 5067-1511 | |
AllPrep DNA/RNA FFPE Kit | Qiagen | 80234 | |
CFX96 Touch System | Bio-Rad | 1855195 | |
Library Quantification kit v2-Illumina | KapaBiosystems | KK4824 | |
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina | New England Biolabs | E7765S | https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit |
NEBNext rRNA Depletion Kit (Human/Mouse/Rat) | New England Biolabs | E6310L | |
NextSeq 500 Sequencing System | Illumina | SY-415-1001 | NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf |
NextSeq PhiX Control Kit | Illumina | FC-110-3002 | |
NSQ 500/550 Hi Output KT v2.5 (150 CYS) | Illumina | 20024907 | |
10X Genomics Magnetic Separator | 10X Genomics | 120250 | |
Rotator Multimixer | VWR | 13916-822 | |
C1000 Touch Thermal Cycler | Bio-Rad | 1851197 | |
Sequencing reagent kit | Illumina | 20024907 | |
Flow cell package | Illumina | 20024907 | |
Buffer cartridge and the reagent cartridge | Illumina | 20024907 | |
Sodium hydroxide solution (0.2N) | Millipore Sigma | SX0607D-6 | |
TRIS-HCL Buffer 1.0M, pH 7.0 | Fisher Scientific | 50-151-871 |