Summary

Optimisation du séquençage et de l’analyse des échantillons d’ARN FFPE dégradés

Published: June 08, 2020
doi:

Summary

Cette méthode décrit les étapes pour améliorer la qualité et la quantité de données de séquence qui peuvent être obtenues à partir d’échantillons d’ARN formalin-fixes paraffin-embedded (FFPE). Nous décrivons la méthodologie pour évaluer plus précisément la qualité des échantillons FFPE-ARN, préparer des bibliothèques de séquençage et analyser les données des échantillons FFPE-ARN.

Abstract

L’analyse de l’expression génique par séquençage de l’ARN (ARN-seq) permet un aperçu unique des échantillons cliniques qui peuvent potentiellement mener à une compréhension mécaniste de la base de diverses maladies ainsi que des mécanismes de résistance et/ou de susceptibilité. Cependant, les tissus ffPE, qui représentent la méthode la plus commune pour préserver la morphologie des tissus dans les spécimens cliniques, ne sont pas les meilleures sources pour l’analyse de profilage d’expression génique. L’ARN obtenu à partir de tels échantillons est souvent dégradé, fragmenté et chimiquement modifié, ce qui conduit à des bibliothèques de séquençage sous-optimales. À leur tour, ceux-ci génèrent des données de séquence de mauvaise qualité qui peuvent ne pas être fiables pour l’analyse de l’expression des gènes et la découverte de la mutation. Afin de tirer le meilleur parti des échantillons de la FFPE et d’obtenir les meilleures données possibles à partir d’échantillons de mauvaise qualité, il est important de prendre certaines précautions tout en planifiant la conception expérimentale, en préparant les bibliothèques de séquençage et lors de l’analyse des données. Cela comprend l’utilisation de mesures appropriées pour un contrôle précis de la qualité de l’échantillon (QC), l’identification des meilleures méthodes pour diverses étapes au cours de la génération de bibliothèque de séquençage, et la bibliothèque soigneuse QC. En outre, l’application d’outils logiciels et de paramètres corrects pour l’analyse des données de séquence est essentielle afin d’identifier les artefacts dans les données ARN-seq, filtrer la contamination et les lectures de faible qualité, évaluer l’uniformité de la couverture génétique et mesurer la reproductibilité des profils d’expression génique parmi les répliques biologiques. Ces étapes peuvent assurer une grande précision et une reproductibilité pour le profilage d’échantillons d’ARN très hétérogènes. Ici, nous décrivons les différentes étapes pour l’échantillon QC, la préparation de bibliothèque et QC, le séquençage, et l’analyse de données qui peuvent aider à augmenter la quantité de données utiles obtenues à partir de l’ARN de mauvaise qualité, comme celui obtenu à partir de tissus FFPE-ARN.

Introduction

L’utilisation d’approches de séquençage de nouvelle génération nous a permis de glaner une mine d’informations provenant de divers types d’échantillons. Cependant, les échantillons anciens et mal conservés restent inapplicables pour les méthodes couramment utilisées pour générer des données de séquence et nécessitent souvent des modifications à des protocoles bien établis. Les tissus FFPE représentent un tel type d’échantillon qui a été largement utilisé pour les spécimens cliniques1,2,3. Tandis que la préservation de FFPE maintient la morphologie de tissu, les acides nucléiques dans les tissus de FFPE présentent habituellement un large éventail de dommages et de dégradation, rendant difficile de récupérer l’information génomique qui peut mener aux informations importantes au sujet des mécanismes moléculaires sous-jacents à divers désordres.

Les données d’expression génique générées par le séquençage de l’ARN sont souvent déterminantes dans l’étude des mécanismes de maladie et de résistance et complètent l’analyse de mutation de l’ADN. Cependant, l’ARN est plus sensible à la dégradation, ce qui rend plus difficile de générer des données précises d’expression génique à partir de tissus FFPE. De plus, étant donné que la grande disponibilité et l’abordabilité du séquençage sont relativement récentes, les spécimens plus anciens n’étaient souvent pas entreposés dans des conditions nécessaires pour préserver l’intégrité de l’ARN. Certains des problèmes pour les échantillons ffPE comprennent la dégradation de l’ARN due à l’intégration dans la paraffine, la modification chimique de l’ARN conduisant à la fragmentation ou la réfractabilité aux processus enzymatiques nécessaires pour le séquençage, et la perte des queues poly-A, limitant l’applicabilité de l’oligo-dT comme amorce pour la transcriptase inverse4. Un autre défi est la manipulation /stockage des échantillons FFPE dans des conditions sous-optimales, ce qui peut conduire à une dégradation supplémentaire des molécules de laboratoire telles que l’ARN dans les tissus5. Ceci est particulièrement pertinent pour les échantillons plus anciens qui peuvent avoir été prélevés à un moment où l’analyse de l’expression génique par séquençage de l’ARN n’était pas prévue pour les échantillons. Tous ces éléments conduisent à une diminution de la qualité et de la quantité de l’ARN extrait disponible pour générer des données de séquence utiles. La faible probabilité de succès, combinée au coût élevé du séquençage, a dissuadé de nombreux chercheurs d’essayer de générer et d’analyser les données sur l’expression des gènes à partir d’échantillons potentiellement utiles de la FFPE. Certaines études menées ces dernières années ont démontré la facilité d’utilisation des tissus FFPE pour l’analyse de l’expression génique2,6,7,8,9, mais pour des échantillons moins nombreux et/ou plus récents.

Comme étude de faisabilité, nous avons utilisé l’ARN extrait des spécimens de tissu tumoral FFPE de trois dépôts de tissus résiduels de surveillance, d’épidémiologie et de résultats finaux (SEER) registres du cancer pour le séquençage de l’ARN et l’analyse de l’expression génique10. Achetés des laboratoires cliniques de pathologie, les tissus de FFPE des adénocarcinomes séreux ovariens de haute qualité ont été stockés de 7 à 32 ans dans des conditions variables avant l’extraction d’ARN. Parce que dans la plupart des cas, ces blocs avaient été stockés dans différents sites pendant des années sans attendre une analyse génétique sensible à l’avenir, peu de soin n’avait été pris pour préserver les acides nucléiques. Ainsi, la plupart des échantillons présentaient de l’ARN de mauvaise qualité, avec une grande proportion d’échantillons contaminés par des bactéries. Néanmoins, nous avons été en mesure d’effectuer la quantification des gènes, de mesurer l’uniformité et la continuité de la couverture génétique et d’effectuer l’analyse de corrélation Pearson entre les répliques biologiques pour mesurer la reproductibilité. Sur la base d’un ensemble de panneaux génétiques de signature clé, nous avons comparé les échantillons de notre étude avec les données de l’Atlas du génome du cancer (TCGA) et confirmé qu’environ 60 % des échantillons avaient des profils d’expression géniquecomparables 11. En nous basant sur la corrélation entre les divers résultats de QC et les métadonnées de l’échantillon, nous avons identifié des mesures clés de QC qui ont une bonne valeur prédictive pour identifier les échantillons qui sont plus susceptibles de générer des données de séquence utilisables11.

Ici, nous décrivons la méthodologie utilisée pour l’évaluation de la qualité de l’ARN FFPE, la génération de bibliothèques de séquençage à partir d’échantillons d’ARN extraits, et l’analyse bioinformatique des données de séquençage.

Protocol

1. Évaluation de la quantité et de la qualité de l’ARN Sélectionnez les échantillons FFPE selon des critères prédéfinis et extrayez l’ARN selon une méthode appropriée (p. ex., kit d’extraction d’acide FFPE-nuclei, Tableau des matériaux).REMARQUE: Il existe plusieurs méthodes différentes disponibles pour l’extraction FFPE-ARN, y compris les méthodes de microdissection plus récentes qui peuvent travailler avec très peu de tissu et d’extraire l’ARN de bonne qualit…

Representative Results

La méthodologie décrite ci-dessus a été appliquée à 67 échantillons de FFPE qui avaient été stockés dans une variété de conditions différentes pendant 7 à 32 ans (le délai médian d’entreposage de l’échantillon était de 17,5 ans). Le jeu de données et les résultats d’analyse présentés ici ont déjà été décrits et publiés dans Zhao et coll.11. En vérifiant la qualité de l’échantillon telle que décrite précédemment (c.-à-d. des traces par exemple dans <strong…

Discussion

La méthode décrite ici décrit les principales étapes nécessaires pour obtenir de bonnes données de séquence à partir d’échantillons FFPE-ARN. Les principaux points à considérer avec cette méthode sont les suivants : (1) Assurez-vous que l’ARN est conservé le mieux possible après l’extraction en minimisant les cycles de manipulation et de congélation et de décongélation de l’échantillon. Les aliquots de QC séparés sont très utiles. (2) Utilisez une mesure QC qui est la meilleure pour l’ensem…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Nous remercions la Dre Danielle Carrick (Division de la lutte contre le cancer et des sciences de la population, Institut national du cancer) d’avoir continué à aider, en particulier pour le lancement de cette étude, pour nous fournir les échantillons et pour des suggestions utiles au cours de l’analyse des données. Nous remercions sincèrement tous les membres de l’installation de séquençage du CCR au Laboratoire national de recherche sur le cancer de Frederick pour leur aide pendant la préparation et le séquençage de l’échantillon, en particulier Brenda Ho pour l’aide dans l’échantillon QC, Oksana Allemand pour la bibliothèque QC, Tatyana Smirnova pour la gestion des séquenceurs. Nous tenons également à remercier Tsai-wei Shen et Ashley Walton de Sequencing Facility Bioinformatics Group d’avoir aidé à l’analyse des données et à la mise en œuvre du pipeline RNA-seq. Nous remercions également le CCBR et le NCBR pour leur aide à l’élaboration du pipeline d’analyse RNaseq et de l’élaboration des meilleures pratiques.

Materials

2100 Bioanalyzer Agilent G2939BA
Agilent DNA 7500 Kit Agilent 5067-1506
Agilent High Sensitivity DNA Kit Agilent 5067-4626
Agilent RNA 6000 Nano Kit Agilent 5067-1511
AllPrep DNA/RNA FFPE Kit Qiagen 80234
CFX96 Touch System Bio-Rad 1855195
Library Quantification kit v2-Illumina KapaBiosystems KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina New England Biolabs E7765S https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat) New England Biolabs E6310L
NextSeq 500 Sequencing System Illumina SY-415-1001 NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit Illumina FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS) Illumina 20024907
10X Genomics Magnetic Separator 10X Genomics 120250
Rotator Multimixer VWR 13916-822
C1000 Touch Thermal Cycler Bio-Rad 1851197
Sequencing reagent kit Illumina 20024907
Flow cell package Illumina 20024907
Buffer cartridge and the reagent cartridge Illumina 20024907
Sodium hydroxide solution (0.2N) Millipore Sigma SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0 Fisher Scientific 50-151-871

References

  1. Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
  2. Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
  3. Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
  4. Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
  5. von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
  6. Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
  7. Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
  8. Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
  9. Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
  10. Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
  11. Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
  12. Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
  13. Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
  14. Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
  15. . Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019)
  16. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
  17. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  18. . Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019)
  19. Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
  20. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  21. Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
  22. Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
  23. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  24. Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
  25. McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
  26. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  27. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
  28. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
  29. Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
  30. Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
  31. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  32. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  33. Evaluating RNA Quality from FFPE Samples. Illumina Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016)

Play Video

Cite This Article
Levin, Y., Talsania, K., Tran, B., Shetty, J., Zhao, Y., Mehta, M. Optimization for Sequencing and Analysis of Degraded FFPE-RNA Samples. J. Vis. Exp. (160), e61060, doi:10.3791/61060 (2020).

View Video