Secuenciación de próxima generación (NGS) es una poderosa herramienta para la caracterización genómica que está limitada por la tasa alta de error de la plataforma (~0.5–2.0%). Describimos nuestros métodos de corrección de error de la secuencia que nos permiten obviar la tasa de error NGS y detectar mutaciones en fracciones de alelo variante tan raros como 0.0001.
Técnicas de secuenciación de próxima generación convencional (NGS) han permitido para la caracterización genómica inmenso para más de una década. Específicamente, NGS se ha utilizado para analizar el espectro de mutaciones clonales de malignidad. Aunque mucho más eficiente que los métodos tradicionales de Sanger, NGS luchas con la identificación de mutaciones clonales y subclonal raras debido a su tasa alta de error de ~0.5–2.0%. Por lo tanto, NGS estándar tiene un límite de detección para las mutaciones que son > 0.02 fracción alelo variante (VAF). Mientras que la significación clínica de las mutaciones de este raras en pacientes sin enfermedad conocida sigue siendo confusa, pacientes tratados por leucemia han mejorado significativamente los resultados cuando la enfermedad residual es < 0.0001 por citometría de flujo. Para mitigar este fondo artefactual de NGS, numerosos métodos han sido desarrollados. Aquí se describe un método para corregir Error ADN y ARN secuencia (ECS), que implica la selección de moléculas individuales con un índice aleatorio de 16 bp para corrección de errores y un índice de específico para cada paciente 8 bp multiplexación. Nuestro método puede detectar y rastrear mutaciones clonales en el alelo variante fracciones (VAFs) dos órdenes de magnitud menores que el límite de detección de NGS y tan raras como VAF 0.0001.
Como edad, exposición a mutágenos y errores estocásticos durante División de célula resultado de la acumulación de las aberraciones somáticas en el genoma y esto es la base de la patogenia fundamental de transformación maligna, enfermedades neuro-desarrollo, pediatría trastornos del envejecimiento normal y1,2. Mutaciones somáticas con potencial de manejo de la enfermedad son importantes biomarcadores diagnósticos y pronósticos de la detección temprana y gestión de riesgo3,4,5. Para entender mejor la clonogenesis fisiológica, que informar a la clínica y de investigación las decisiones, la exacta cuantificación y caracterización de estas mutaciones es de primordial importancia. Secuenciación de próxima generación (NGS) se utiliza actualmente para el estudio de mutaciones clonales en heterogéneas muestras de ADN; sin embargo, se limita a la identificación de mutaciones en NGS > 0.02 fracción alelo variante (VAF), debido a la inherente-tasa de error de 0.5-2.0% de la secuencia plataformas6,7,8. Como resultado, seguimiento diagnóstico y pronóstico significativas variantes somáticas en VAF más bajo no se puede lograr usando NGS estándar.
Recientemente, se han desarrollado varios métodos para eludir la tasa de error de NGS8,9,10,11. Estos métodos utilizan etiquetado molecular, que permite la corrección de errores después de la secuencia. Cada molécula o fragmento genomic de la biblioteca de la secuencia es etiquetado con un aleatorio único Molecular identificador (UMI) que es específico de esa molécula. Se construyen las UMIs permutaciones de una cadena de nucleótidos al azar (N 8 – 16). Un segundo código de barras específico de muestra también se integra en el flujo de trabajo que permite la multiplexación de múltiples muestras en la misma secuencia de NGS ejecutar. Amplificación por PCR se realiza en la biblioteca etiquetada molecularmente, y posteriormente se envía a la biblioteca por secuenciación. Durante la preparación de la biblioteca, se espera que errores se introducirán al azar en el fragmento genomic durante la amplificación por PCR y secuenciación8. Para eliminar errores de secuenciación al azar, lee la secuencia cruda se agrupa según la UMI. Artefactos de la secuencia no se espera que esté presente en todas las lecturas con la UMI mismo en la misma posición genómica debido a la naturaleza estocástica de introducción, mientras que una verdadera variante será amplificada y secuenciada en todas las lecturas que comparten el mismo UMI fielmente. Los artefactos son bioinformatically quitado. Aquí, Describimos tres métodos de corrección de Error de secuencia (ECS) optimizado en el laboratorio de ADN identificar variantes de un solo nucleótido (SNVs) y pequeña inserción-deleciones (Indels) y de ARN para facilitar la cuantificación de la expresión génica a continuación la Umbral de error NGS.
El primer método describe una forma de buscarse un acontecimiento somático raro usando las cartillas específicas gen diseñados por los investigadores. Antes de la preparación de la biblioteca, los investigadores deben diseñar cartillas a los fragmentos de interés. Utilizamos el Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicones de 200 – 250 bp son ideales para la reacción en cadena de polimerasa (PCR) como estos, una vez que se han incorporado UMIs, genere superposición final emparejado Lee 150 lecturas de extremo apareado de bp. Las condiciones de diseño de primer óptimo a utilizar son: tamaño mínimo del primer = 19; Tamaño cartilla óptimo = 25; Tamaño cartilla máxima = 30; Mínimo Tm = 64 ° C; Óptima Tm = 70 ° C; Máxima Tm = 74 ° C; Máxima diferencia de Tm = 5 ° C; Mínimo contenido de GC = 45; Contenido de GC máximo = 80; Número para enviar = 20; Máximo de 3′ final de estabilidad = 100.
En el método 2, se describe un método que combina el protocolo de ECS-ADN con Illumina química encuesta SNVs clonales y pequeño Indels tan raros como 0.0001 VAF usando paneles de gene comercialmente disponibles que incluyen cientos de amplicones. Hemos utilizado el TruSight mieloide secuenciación Panel (Illumina) para nuestro experimento y diseñado un panel ampliado para incluir genes adicionales de interés para enfermedades pediátricas mieloides. Estos paneles no han ofrecido identificadores moleculares únicos (UMIs) que faciliten la corrección de errores, así que hemos añadido nuestra propia estrategia de adaptador para estos paneles. ECS debería funcionar igualmente bien con cualquiera de otros paneles diseñados para enriquecer de genes asociados a diferentes enfermedades. Después de extracción de ADN y posterior cuantificación del tejido o muestra de interés, se recomienda tener al menos 500 ng de stock ADN por muestra. Habitualmente hacemos una biblioteca única secuenciación utilizando 250 ng de ADN para capturar aguas abajo como mucho único fragmento genómico como sea posible para Lee la deduplicación y el cálculo de la VAF. Una biblioteca de secuenciación replicar opcional puede hacerse con los restantes 250 ng de ADN. Siempre hacemos dos bibliotecas réplicas por muestra, y consideramos sólo los eventos detectados independientemente en dos repeticiones como verdaderos positivos. También implementamos un modelo de error binomial de genomic posición específica para aumentar la precisión de la variante llamada4,13.
Por último, se describe un método de acoplamiento ECS a secuencia de RNA para la cuantificación de la transcripción mediante paneles QIAseq RNA objetivo estándares (Qiagen). Las UMIs requieren para la desduplicación de corrección de errores se han incorporado en los kits y los investigadores pueden hacer bibliotecas siguiendo las recomendaciones del fabricante. Bioinformatically, los investigadores pueden seguir la tubería para ECS-DNA, que se explica en detalle en la sección de protocolo.
Aquí, demostramos una suite de protocolos de corrección de error de la secuencia que pueden ser fácilmente implementadas para estudiar las mutaciones con baja VAFs en diferentes enfermedades. El factor más importante es la incorporación de UMIs con cada molécula antes de la secuencia ya que permiten la corrección de errores de lecturas raws. Los métodos aquí descritos permiten a los investigadores incorporar UMIs personalizados paneles de genes disponibles en el mercado y diseñado oligos específicos del gene.
Protocolo estándar de NGS impide la detección de mutaciones con VAF por debajo del 2% debido a la tasa de error de la secuencia, y esto limita la aplicación de NGS en estudios donde es crucial la detección de variantes raras. Por eludir la tasa de error estándar de NGS, ECS permite la detección sensible de estas variantes crudas. Por ejemplo, la detección de las mutaciones patógenas cuando estas mutaciones surgen en primer lugar (por lo tanto con baja VAF) es imprescindible para informar a la intervención temprana de la enfermedad14,15. En la investigación de la leucemia, la detección de residual mínima enfermedad (células leucémicas residuales después del tratamiento) informa a estratificación de riesgo y podría ser utilizada para informar las opciones de tratamiento de manera que las evaluaciones de citometría de flujo binario no se pueden. Además, la ECS es aplicable para detectar circulación de ácido nucleico tumor y para evaluar el potencial metastático en pacientes con tumores sólidos mediante la evaluación de la presencia/ausencia, así como la carga variable de ciertas mutaciones que son características de la primaria tumor de16.
Como se muestra en la tabla 1, el poder de usar modelo de error de posición específica basada en la distribución binomial para llamar variantes depende en gran medida el número de secuenciadas bibliotecas así como la profundidad de la secuencia utilizada para construir el modelo de error. La robustez del modelo de error aumenta con la mayor cantidad de muestras y más profundidad de la secuencia. Se recomienda utilizar al menos 10 muestras secuenciadas con un promedio de cobertura Lea-corregido error de x 3000 por ejemplo para construir un perfil de error para cada muestra. El enfoque de la posición específica es similar a MAGERI, pero en lugar de utilizar una tasa de error global para todo tipo de sustitución diferente seis (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, modelo de cada sustitución independientemente en cada posición. Por ejemplo, una tasa de error de C > T en una determinada posición genómica es diferente a otra posición. Nuestro enfoque también toma en cuenta un efecto de la secuencia por lotes, como la tasa de substitución baja observada en una secuencia de la carrera podría ser diferente de otra carrera. Por lo tanto, es importante modelar cada posición para todo tipo de sustitución especialmente cuando las muestras de pistas de secuencia diferentes se combinaron para construir el modelo.
Una consideración importante al diseñar un experimento ECS es el umbral de detección deseada. La belleza de los estudios NGS es que pueden escalar fácilmente en términos de genes/objetivos de interés, umbral de detección (dictado por la profundidad de la secuencia) y número de personas consultadas. Por ejemplo, si los investigadores están interesados en encontrar mutaciones raras en dos amplicones con un umbral de detección de 0.0001, piscina máximo 75 muestras en una sola secuencia ejecutar utilizando química MiSeq V2 que lee hasta 15 millones (2 amplicons * 10.000 moléculas * 10 Lee para corrección de errores * 75 muestras = 15 millones de la secuencia de lecturas). Los investigadores pueden variar el número de moléculas en la secuencia o el número de muestras agrupadas en una sola secuencia para ajustar el umbral de detección. En nuestros estudios, decidimos encontrar mutaciones con un umbral de detección de VAF 0.0001 (1:10, 000) utilizando el panel de genes Illumina. Rutinariamente utilizamos 250 ng de a partir de ADN para asegurar que suficientes moléculas son capturadas para alcanzar el umbral de detección ya mencionado. Los investigadores pueden optar por iniciar con la menor cantidad de ADN (50 ng recomienda) si el límite de detección deseado es > 0.001 VAF.
Como se añaden las UMIs en los índices de i5, ajustes de la secuencia deben modificarse en consecuencia. Por ejemplo, utilizamos UMIs N 16, y la configuración de la secuencia final pares 2 x 144 lecturas, 8 ciclos de índice 1 y 16 ciclos de índice 2 a diferencia de los habituales 8 ciclos de índice 2. El aumento en el índice 2 ciclo es compensado por una disminución en el número total de ciclos a la Lee. Si los investigadores optan por utilizar 12N UMIs10,17, debe cambiarse la configuración a 12 ciclos de índice 2.
Este método de secuenciación basada en UMI está optimizado para corregir errores de secuenciación. Sigue siendo subóptima en el trato con jackpotting PCR, que es un tema para todo método basado en amplificación. Se realizaron rondas de la secuencia y validación post-bioinformática usando ddPCR, y apenas detectamos cualquier falsos positivos debido a jackpotting PCR. No obstante, se recomienda que los investigadores llevar a cabo los experimentos con polimerasa de alta fidelidad para garantizar errores de amplificación baja.
The authors have nothing to disclose.
Agradecemos a los participantes en el estudio de los niños Oncología grupo AAML1531 y de salud estudio las enfermeras por sus contribuciones en la forma de las muestras del paciente. Este trabajo fue financiado por los institutos nacionales de salud (CA186107 UM1, CA49449 to1 y CA149445 to1), Discovery Institute de Washington University infantil de St. Louis los niños Hospital (MC-II-2015-461) y Eli Seth Matthews leucemia Fundación.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |