Sequenciamento de próxima geração (NGS) é uma poderosa ferramenta para a caracterização do genoma que é limitada pela taxa de erro elevada da plataforma (~0.5–2.0%). Descrevemos os nossos métodos de sequenciamento de correção de erro que permitam obviar a taxa de erro NGS e detectar mutações em fracções de alelo variante tão raras como 0,0001.
Técnicas convencionais sequenciamento de próxima geração (NGS) permitiram imensa caracterização genômica para mais de uma década. Especificamente, NGS tem sido usado para analisar o espectro de mutações clonais em malignidade. Embora muito mais eficiente do que os tradicionais métodos de Sanger, NGS lutas com identificação de raras mutações clonais e subclonal devido a sua taxa de erro elevada de ~0.5–2.0%. Assim, a NGS padrão tem um limite de detecção de mutações que são > 0,02 fração variante alélica (VAF). Enquanto o significado clínico de mutações raras em pacientes sem doença conhecida permanece obscura, pacientes tratados para leucemia têm melhorado significativamente os resultados quando doença residual é < 0,0001 por citometria de fluxo. Para mitigar este fundo artefactual de NGS, inúmeros métodos têm sido desenvolvidos. Aqui nós descrevemos um método para correção de erro de DNA e RNA Sequencing (ECS), que envolve as moléculas individuais com um índice de bp 16 aleatório para correção de erros e um índice de paciente específico bp 8 para multiplexação de marcação. Nosso método pode detectar e rastrear mutações clonais na variante alélica fracções (VAFs) duas ordens de grandeza menores do que o limite de detecção da NGS e tão raras quanto 0,0001 VAF.
Como nós idade, exposição a agentes mutagénicos e estocásticos erros durante a divisão celular resultado na acumulação de aberrações somáticas no genoma e isto está subjacente a patogênese fundamental de transformação maligna, doenças neuro-desenvolvente, pediátricas doenças e envelhecimento normal1,2. Mutações somáticas com potencial de doença de condução são importantes biomarcadores de diagnósticos e prognósticos para a detecção precoce e de gestão de risco a3,4,5. A fim de entender melhor clonogenesis fisiológica, que irá informar clínica e pesquisa de decisões, a exata quantificação e caracterização destas mutações é de primordial importância. Sequenciamento de próxima geração (NGS) é atualmente usado para estudar mutações clonais em amostras de DNA heterogêneas; no entanto, NGS é limitado para identificar mutações em > 0,02 fração variante alélica (VAF) — devido a taxa de erro inerente de 0.5-2.0% do sequenciamento plataformas6,7,8. Como resultado, rastreamento para diagnóstico e prognóstico significativas variantes somáticas no VAF inferior não podem ser alcançadas usando padrão NGS.
Recentemente, vários métodos foram desenvolvidos a fim de contornar a taxa de erro de NGS8,9,10,11. Estes métodos utilizam a marcação molecular, que permite a correção de erro após o sequenciamento. Cada molécula ou fragmento genômico na biblioteca de sequenciamento é marcado com um aleatório exclusivo Molecular identificador (UMI) que é específico para aquela molécula. Os UMIs são construídos por permutações de uma sequência de nucleotídeos randomizados (N. 8-16). Um segundo amostra específicos código de barras é integrado também o fluxo de trabalho que permite a multiplexação de várias amostras para o sequenciamento de NGS mesmo correr. Amplificação por PCR é realizada na biblioteca molecularmente etiquetada, e posteriormente a biblioteca é enviada para o sequenciamento. Durante a preparação da biblioteca, espera-se que erros serão aleatoriamente introduzidos para o fragmento genômico durante a amplificação por PCR e sequenciamento8. Para remover erros aleatórios de sequenciamento, sequenciamento bruto leituras são agrupadas de acordo com o UMI. Artefatos de sequenciamento não deverão estar presentes em todas as leituras com a mesma UMI na mesma posição genômica devido à natureza estocástica da introdução, Considerando que uma verdadeira variante será fielmente amplificada e sequenciada em todas as leituras que compartilham o mesmo UMI. Os artefatos são bioinformatically removido. Aqui, descrevemos três métodos de correção de erro de sequenciamento (ECS) otimizado no laboratório de DNA identificar variantes de nucleotídeo único (SNVs) e a pequenas inserção-exclusões (puntuais) e para o RNA facilitar a quantificação da expressão gênica abaixo o Limite de erro NGS.
O primeiro método descreve uma maneira de olhar para o raro evento somático utilizando primers específicos de gene desenhados por pesquisadores. Antes da preparação da biblioteca, pesquisadores devem projetar primers para direcionar os fragmentos de interesse. Usamos o Primer3 web-app (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons de 200 – 250 bp são ideais para reação em cadeia da polimerase (PCR), assim como estes, uma vez que foram incorporadas UMIs, gerar sobreposição leituras final emparelhado com 150 leituras emparelhado-fim de bp. As condições de projeto da primeira demão ideal para ser usado são: tamanho de primeira demão mínimo = 19; Tamanho ideal da primeira demão = 25; Tamanho máximo da primeira demão = 30; Mínimo Tm = 64 ° C; Ideal Tm = 70 ° C; Máxima Tm = 74 ° C; Diferença máxima de Tm = 5 ° C; Teor mínimo de GC = 45; Teor máximo de GC = 80; Número de retorno = 20; Máximo 3′ estabilidade final = 100.
No método 2, descrevemos um método combinando o protocolo ECS-DNA com Illumina química para o inquérito sobre a SNVs clonais e tão raros quanto 0,0001 VAF usando painéis de gene comercialmente disponíveis que incluem centenas de amplicons pequeno puntuais. Nós temos usado o painel TruSight de sequenciamento mieloide (Illumina) para a nossa experiência e projetado um painel expandido para incluir genes adicionais de interesse pediátrica doenças mieloides. Estes painéis não ofereceram identificadores moleculares (UMIs) que facilitam a correção de erros, então nós adicionamos nossa própria estratégia de adaptador para estes painéis. ECS deve funcionar igualmente bem com qualquer um dos outros painéis projetados para enriquecer para genes associados com doenças diferentes. Após o isolamento de DNA e posterior quantificação do tecido ou amostra de interesse, é recomendável ter pelo menos 500 ng de DNA de estoque por espécime. Nós rotineiramente fazer uma biblioteca de sequenciamento simples usando 250 ng de DNA a fim de capturar como muito único fragmento genômico quanto possível para a jusante lê duplicação e cálculo do VAF. Uma biblioteca de sequenciamento de replicar opcional pode ser feita com os restantes 250 ng de DNA. Nós sempre fazemos duas bibliotecas replicar por espécime, e consideramos somente os eventos detectados independentemente em ambas as réplicas como verdadeiros positivos. Também implementamos um modelo de erro binomial de genômica posição específica para aumentar a precisão da variante ligando4,13.
Por fim, descrevemos um método de acoplamento ECS para a sequenciação do ARN para quantificação de transcrição usando painéis de QIAseq alvo RNA prateleira (Qiagen). As UMIs necessária para eliminação de duplicação e correção de erro foram incorporadas nos kits, e pesquisadores podem tornar as bibliotecas seguindo as recomendações do fabricante. Bioinformatically, os pesquisadores podem acompanhar o pipeline delineado para ECS-DNA, que será explicado em detalhes na seção de protocolo.
Aqui, vamos demonstrar um conjunto de protocolos de sequenciamento de correção de erro que podem ser facilmente implementados para estudar mutações com baixas VAFs em diferentes doenças. O fator mais importante é a incorporação de UMIs com cada molécula antes de sequenciamento que possibilitam a correção de erros de leituras a cru. Os métodos descritos aqui permitem aos investigadores incorporam UMIs personalizados para painéis de gene comercialmente disponíveis e auto-concebidos oligos gene-específico.
Protocolo padrão de NGS impede a detecção de mutações com VAF inferior a 2% devido a taxa de erro de sequenciamento, e isto limita a aplicação de NGS em estudos onde a detecção de variantes raras é crucial. Contornando a taxa de erro padrão NGS, ECS permite detecção sensível dessas variantes crus. Por exemplo, a detecção de mutações patogénicas quando estas mutações surgem primeiro (portanto, ter baixa VAF) é imperativa para informar a intervenção precoce da doença14,15. Na pesquisa de leucemia, a detecção de residual mínima doença (pós-tratamento de células leucêmicas residuais) informa a estratificação de risco e poderia ser usada para informar as opções de tratamento, de forma que não podem as avaliações cytometric do fluxo binário. Além disso, a ECS é aplicável para detectar tumor circulantes de ácidos nucleicos e avaliar potencial metastático em pacientes de tumor sólido, avaliando a presença/ausência, bem como os encargos variante de certas mutações que são características das primárias tumor de16.
Conforme demonstrado na tabela 1, o poder de usar o modelo de erro de posição-específicos baseados na distribuição binomial para chamar variantes depende em grande parte o número de bibliotecas sequenciados, bem como a profundidade de sequenciamento usado para construir o modelo de erro. A robustez do modelo de erro aumenta com o maior número de amostras e mais profundidade de sequenciamento. É recomendável usar pelo menos 10 amostras sequenciadas com uma média de correção de erro Leia cobertura de 3000 x por amostra para construir um perfil de erro para cada amostra. A posição específica abordagem é semelhante ao MAGERI, mas em vez de usar uma taxa de erro agregado seis tipos diferentes de substituição (A > C/T > G, um > G/T > C, um > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, usamos modelos de cada substituição independentemente em cada posição. Por exemplo, uma taxa de erro de C > T em uma determinada posição genômica é diferente de outra posição. Nossa abordagem também leva em conta um efeito de lote de sequenciamento, como a taxa de substituição de base observada em um sequenciamento de execução pode ser diferente da outra vez. Portanto, é importante modelar cada posição para todos os tipos de substituição, especialmente quando amostras de sequenciamento diferentes execuções são agrupadas para criar o modelo.
Uma consideração importante ao projetar um experimento ECS é o limite de deteção desejado. A beleza de estudos NGS é que eles podem ser facilmente dimensionados em termos de genes/alvos de interesse, deteccao de threshold (ditada pela profundidade de sequenciamento) e número de indivíduos consultados. Por exemplo, se os pesquisadores estão interessados em encontrar raras mutações em dois amplicons com um limite de deteção de 0,0001, eles podem pool màxima 75 amostras em um único sequenciamento executado usando química MiSeq V2 que produz leituras até 15 milhões (2 amplicons * 10.000 moléculas * 10 lê para correção de erros * 75 amostras = 15 milhões de sequenciamento de leituras). Pesquisadores podem variar o número de moléculas em sequenciamento ou o número de amostras combinadas em um único sequenciamento para ajustar o limite de deteção. Em nossos estudos, tivemos como objetivo encontrar mutações com um limite de deteção de 0,0001 VAF (01:10, 000) usando o painel de gene Illumina. Rotineiramente usamos 250 ng de começar o DNA para garantir que as moléculas suficientes são capturadas para atingir o limite de deteção acima mencionados. Pesquisadores podem optar por começar com a menor quantidade de DNA (50 ng é recomendado) se o limite de detecção desejada é > VAF 0,001.
Como os UMIs são acrescentados para os índices de i5, configurações de sequenciamento terá de ser alterada em conformidade. Por exemplo, nós usamos 16 UMIs N, e as configurações de sequenciamento foram emparelhados final 2 x 144 leituras, 8 ciclos de índice 1 e 16 ciclos de índice 2, ao contrário do habituais 8 ciclos de índice 2. O aumento no índice 2 ciclo é compensado por uma diminuição do número total de ciclos alocada para o lê. Se os pesquisadores optam para usar 12N UMIs10,17, as configurações devem ser alteradas para 12 ciclos de índice 2.
Este método de sequenciamento baseado no UMI é otimizado para corrigir erros de sequenciamento. Continua a ser subótimos em lidar com warAre PCR, que é um problema para todos os método baseado em amplificação. Foram realizadas rodadas de post-sequenciamento e post-bioinformática validação usando ddPCR, e dificilmente detectarmos qualquer falsos positivos devido a warAre PCR. No entanto, é recomendável que pesquisadores realizar os experimentos utilizando polymerase de alta fidelidade para garantir erros de amplificação de baixo.
The authors have nothing to disclose.
Agradecemos os participantes no estudo de AAML1531 do grupo de oncologia infantil e estudo de sanidade das enfermeiras para suas contribuições sob a forma de amostras de doentes. Este trabalho foi financiado pelo National Institutes of Health (CA186107 UM1, RO1 CA49449 e RO1 CA149445), Discovery Institute de Washington University das crianças e St. Louis infantil Hospital (MC-II-2015-461) e Eli Seth Matthews leucemia Fundação.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |