Le séquençage de prochaine génération (NGS) est un outil puissant pour la caractérisation génomique qui est limité par le taux élevé d’erreurs de la plateforme (~0.5–2.0%). Nous décrivons nos méthodes de séquençage de l’erreur-corrigé qui nous permettent d’éviter le taux d’erreur NGS et détecter les mutations aux fractions d’allèle variant aussi rares que 0,0001.
Techniques de séquençage de prochaine génération conventionnelle (NGS) ont permis d’immense caractérisation génomique pour plus d’une décennie. Plus précisément, NGS a été utilisé pour analyser le spectre de mutations clonales dans une tumeur maligne. Bien que beaucoup plus efficace que les méthodes traditionnelles de Sanger, NGS luttes avec l’identification des mutations clonales et subclonal rares en raison de son taux élevé d’erreurs de ~0.5–2.0 %. Ainsi, NGS standard a une limite de détection pour les mutations qui sont > 0,02 fraction allèle variant (VAF). Tandis que la signification clinique des mutations de ce rares chez les patients sans maladie connue ne sait pas, les patients traités pour une leucémie ont considérablement amélioré résultats lorsque la maladie résiduelle est < 0,0001 par cytométrie en flux. Afin d’atténuer ce contexte artéfact de NGS, plusieurs méthodes ont été développées. Nous décrivons ici une méthode pour l’erreur-corrigé ADN et ARN séquençage (ECS), qui implique le marquage des molécules individuelles avec un indice aléatoire de 16 bp pour correction d’erreur et un 8 index spécifique au patient de bp pour le multiplexage. Notre méthode peut détecter et suivre les mutations clonales allèle variant fractions (VAFs) deux ordres de grandeur inférieures à la limite de détection de la NGS et aussi rares que 0,0001 VAF.
Comme nous l’avons âge, l’exposition aux agents mutagènes et stochastiques erreurs pendant le résultat de la division cellulaire dans l’accumulation des aberrations somatiques dans le génome et cela sous-tend la pathogenèse fondamentale de la transformation maligne, maladies neuro-développementale, pédiatriques troubles et vieillissement normal1,2. Des mutations somatiques avec un potentiel de maladie au volant sont importants biomarqueurs diagnostiques et pronostiques pour la détection précoce et le risque de gestion3,4,5. Afin de mieux comprendre la clonogenesis physiologique, qui informera clinique et recherche de décisions, la quantification précise et la caractérisation de ces mutations est d’une importance primordiale. Séquençage de prochaine génération (NGS) sert actuellement à l’étude des mutations clonales dans des échantillons d’ADN hétérogènes ; NGS est toutefois limitée à l’identification de mutations au > 0,02 fraction allèle variant (VAF) — en raison du taux d’erreur inhérent de 0,5 à 2,0 % du séquençage plates-formes6,7,8. En conséquence, suivi diagnostique et points importantes variantes somatiques au VAF inférieur sont impossibles à l’aide de NGS standard.
Récemment, diverses méthodes ont été développées afin de contourner le taux d’erreur de NGS8,9,10,11. Ces méthodes utilisent le marquage moléculaire, qui permet la correction d’erreurs après le séquençage. Chaque molécule ou fragment génomique dans la bibliothèque de séquençage est étiquetée avec un aléatoire Unique moléculaire identificateur (UMI) qui est spécifique à cette molécule. Les UMIs sont construits par permutations d’une chaîne de nucléotides randomisés (N 8 – 16). Un deuxième code-barres échantillon spécifique est également intégré dans le flux de travail qui permet le multiplexage des échantillons multiples dans le séquençage de NGS même courir. L’amplification par PCR est effectuée sur la bibliothèque moléculairement étiquetée, et la bibliothèque est envoyée par la suite pour le séquençage. Au cours de la préparation de la bibliothèque, il est prévu qu’Erreurs seront introduits au hasard au fragment génomique au cours de l’amplification par PCR et séquençage8. Pour supprimer les erreurs de séquençage aléatoire, lectures de séquençage brutes sont regroupés selon l’UMI. Artefacts du séquençage ne devraient pas être présents dans toutes les lectures avec l’UMI même à la même position génomique en raison de la nature stochastique de l’introduction, alors qu’une vraie variante sera fidèlement amplifiée et séquencée dans toutes les lectures qui partagent le même UMI. Les artefacts sont bioinformatically supprimé. Nous décrivons ici trois méthodes de correction erreur séquençage (ECS) optimisé dans le laboratoire d’ADN identifier les variantes de nucléotide (SNVs) et petites insertion-délétions (Indels) et pour l’ARN faciliter la quantification de l’expression génique ci-dessous le Seuil d’erreur NGS.
La première méthode décrit une manière de chercher rare événement somatique en utilisant des amorces spécifiques de gène conçus par les chercheurs. Avant la préparation de la bibliothèque, chercheurs devraient concevoir des amorces pour cibler les fragments d’intérêt. Nous avons utilisé le Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons de 200 – 250 bp sont idéales pour la réaction en chaîne par polymérase (PCR) que ceux-ci seront, une fois que UMIs ont été incorporés, générer chevauchement lectures bout jumelé avec 150 lectures jumelé-fin de bp. Les conditions de conception d’amorce optimale à utiliser sont : taille minimale de l’amorce : 19 ; Taille optimale de l’apprêt = 25 ; Taille maximale de l’apprêt = 30 ; Tm minimale = 64 ° C ; Tm optimale = 70 ° C ; Tm maximale = 74 ° C ; Différence maximale de Tm = 5 ° C ; Teneur minimale en GC = 45 ; Teneur maximale en GC = 80 ; Numéro pour renvoyer = 20 ; Fin stabilité maximale 3′ = 100.
Dans la méthode 2, nous décrivons une méthode combinant le protocole ECS-ADN avec Illumina chimie pour enquête aux SNVs clonales et petit Indels aussi rare que 0,0001 VAF en utilisant des panneaux de gène commercialement disponibles qui incluent des centaines des amplicons. Nous avons utilisé le panneau de séquençage myéloïde de TruSight (Illumina) pour notre expérience et conçu un panel élargi afin d’inclure d’autres gènes d’intérêt pour les maladies pédiatriques myéloïdes. Ces panneaux ont offert pas les identificateurs moléculaires uniques (UMIs) qui faciliteraient la correction d’erreurs, nous avons ajouté notre propre stratégie d’adaptateur à ces panneaux. ECS devrait fonctionner aussi bien avec n’importe lequel des autres panneaux conçus pour enrichir des gènes associés à des maladies différentes. Après isolement d’ADN et quantification ultérieure des tissus ou échantillon d’intérêt, il est recommandé d’avoir au moins 500 ng de stock ADN par spécimen. Nous faisons régulièrement une bibliothèque unique de séquençage à l’aide de 250 ng d’ADN afin de capturer dans le fragment génomique unique autant que possible pour en aval lit la déduplication et calcul de VAF. Une bibliothèque de séquençage de répliquer en option peut être faite avec les 250 restants ng d’ADN. Nous faisons toujours deux bibliothèques répétées par spécimen, et nous ne considérons que ces événements détectés indépendamment dans les deux réplicats comme vrais positifs. Nous avons également mis en œuvre un modèle génomique erreur binomial de poste spécifique pour accroître la précision de la variante de l’appel4,13.
Enfin, nous décrivons une méthode de couplage ECS au séquençage de RNA pour la quantification de transcription en utilisant des panneaux de QIAseq ciblés RNA sur étagère (Qiagen). Les UMIs requis pour la déduplication et correction d’erreur ont été incorporés dans les kits de chercheurs peuvent faire suite aux recommandations du fabricant de bibliothèques. Bioinformatically, les chercheurs peuvent suivre le pipeline décrit pour l’ECS-ADN, qui est expliquée en détail dans la section protocole.
Ici, nous démontrons une suite de protocoles de séquençage de l’erreur-corrigé pouvant être facilement mises en œuvre afin d’étudier les mutations avec VAFs faibles dans différentes maladies. Le facteur le plus important est l’incorporation de UMIs avec chaque molécule avant séquençage car ils permettent la correction d’erreurs des lectures brutes. Les méthodes décrites ici permettent aux chercheurs d’incorporer UMIs personnalisés aux panneaux de gène commercialement disponibles et individu-conçues oligos de gène-spécifique.
Protocole standard de NGS s’oppose à la détection des mutations avec VAF inférieure à 2 % en raison du taux d’erreur de séquençage, et cela limite l’application de NGS dans les études où la détection de variants rares est cruciale. En contournant le taux d’erreur standard de NGS, ECS permet la détection sensible de ces variantes brutes. Par exemple, détection de mutations pathogènes lorsque ces mutations surviennent tout d’abord (donc avoir VAF faible) est impérative d’informer l’intervention précoce de la maladie14,15. Dans la recherche sur la leucémie, la détection du résiduel minimal maladie (après le traitement des cellules leucémiques résiduelles) informe la stratification du risque et pourrait être utilisée pour informer des options de traitement de manière que les évaluations de cytométrie en flux binaire ne peut pas. En outre, ECS s’applique pour détecter des acides nucléiques tumorales circulantes et d’évaluer le potentiel métastatique chez les patients de tumeur solide en évaluant la présence/absence, ainsi la charge variant de certaines mutations qui sont caractéristiques du primaire 16de tumeur.
Comme le montre le tableau 1, le pouvoir d’utiliser le modèle d’erreur de position spécifique axée sur la distribution binomiale pour appeler les variantes dépend en grande partie le nombre de bibliothèques séquencés ainsi que la profondeur du séquençage utilisée pour construire le modèle de l’erreur. La robustesse du modèle erreur augmente avec le nombre plus élevé d’échantillons et plus en profondeur le séquençage. Il est recommandé d’utiliser au moins 10 échantillons séquencés avec une moyenne de correction erreur lecture couverture de 3000 x par exemple pour créer un profil d’erreur pour chaque échantillon. L’approche axée sur la position est similaire à MAGERI, mais au lieu d’utiliser un taux d’erreur global pour tous les six types différents de substitution (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, nous modélisons chaque substitution indépendamment à chaque position. Par exemple, un taux d’erreur de C > T à une position donnée génomique est différent d’un autre poste. Notre démarche tienne également compte un effet de lot de séquençage, comme le taux de substitution base observé en un seul passage de séquençage pourrait être différent d’une autre course. C’est pourquoi il est important de modéliser chaque poste pour tous les types de substitution, surtout quand les échantillons de séquençage différents cycles d’essai sont mis en commun pour construire le modèle.
Une considération importante lors de la conception d’une expérience de l’ECS est le seuil de détection souhaitée. La beauté des études NGS est qu’ils peuvent être facilement redimensionnées en ce qui concerne les gènes et les objectifs d’intérêt, seuil de détection (dépend de la profondeur de séquençage) et nombre de personnes interrogées. Par exemple, si les chercheurs s’intéressent à trouver des mutations rares dans deux amplicons avec un seuil de détection de 0,0001, ils peuvent mettre au maximum 75 échantillons en une séquence unique exécuté à l’aide de chimie MiSeq V2 qui génère jusqu’à 15 millions de lectures (2 amplicons * 10 000 molécules * 10 lit pour corriger des erreurs * 75 échantillons = 15 millions séquençage lectures). Les chercheurs peuvent varier le nombre de molécules d’entrer dans la séquence ou le nombre d’échantillons groupés en une séquence unique pour régler le seuil de détection. Dans nos études, nous avons cherché à trouver avec un seuil de détection des mutations de 0,0001 VAF (01:10, 000) en utilisant le panneau de gène Illumina. Nous utilisons systématiquement 250 ng de démarrage ADN pour s’assurer que les molécules suffisantes sont saisis afin d’atteindre le seuil de détection susmentionnés. Les chercheurs peuvent choisir de commencer par la plus faible quantité d’ADN (50 ng est recommandé) si la limite de détection souhaitée est > 0,001 VAF.
Comme les UMIs sont ajoutés sur les index d’i5, paramètres de séquencement doivent être modifiées en conséquence. Par exemple, nous avons utilisé 16 N UMIs et les réglages de séquençage étaient fin paires 2 x 144 lectures, 8 cycles d’Index 1 et 16 d’indice 2 au lieu de l’habituels 8 cycles d’Index 2. L’augmentation de l’indice 2 cycle est compensée par une diminution du nombre total de cycles alloués pour le lit. Si chercheurs choisissent d’utiliser 12N UMIs10,17, les paramètres doivent être changés en 12 cycles de Index 2.
Cette méthode de séquençage de l’UMI-basé est optimisée pour corriger les erreurs de séquençage. Il reste sous-optimal en traitant de jackpotting PCR, qui est un problème pour toute méthode basée sur l’amplification. Nous avons effectué des séances d’après séquençage et validation post-bio-informatique à l’aide de ddPCR, et nous peine détecter des faux positifs en raison de jackpotting PCR. Néanmoins, il est recommandé que les chercheurs mener les expériences à l’aide de haute-fidélité polymérase pour s’assurer que les erreurs de l’amplification basse.
The authors have nothing to disclose.
Nous remercions les participants à l’étude de Oncology Group AAML1531 de l’enfance et de la Nurses’ Health Study pour leurs contributions sous forme d’échantillons de patients. Ce travail a été financé par le National Institutes of Health (UM1 CA186107, CA49449 RO1 et RO1 CA149445), Discovery Institute de Washington University l’enfance et hôpital (MC-II-2015-461) pour enfants de Saint-Louis et Eli Seth Matthews leucémie Fondation.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |