Summary

Sequência de romance descoberta pela genômica subtrativa

Published: January 25, 2019
doi:

Summary

O propósito do presente protocolo é usar uma combinação de computacional e pesquisa do banco para encontrar romance sequências que não podem ser separadas facilmente uma sequência co purificante, que pode ser apenas parcialmente conhecida.

Abstract

Genómica subtrativa pode ser usada em qualquer pesquisa onde o objetivo é identificar a sequência de um gene, proteína ou região geral que está incorporado em um contexto maior genoma. Genómica subtrativa permite que um pesquisador isolar uma sequência do alvo do interesse (T) sequenciamento abrangente e subtraindo elementos genéticos conhecidos (referência, R). O método pode ser usado para identificar sequências de romance como mitocôndrias, cloroplastos, vírus, ou germline restrito de cromossomos e é particularmente útil quando T não pode ser facilmente isolado de R. começando com os dados completos de genômicos (R + T), o método usa base Local alinhamento pesquisa ferramenta (explosão) contra uma sequência de referência, ou sequências, para remover as sequências conhecidas correspondentes (R), deixando para trás o alvo (T). Para subtração funcionar melhor, R deve ser um projecto relativamente completo que está faltando T. Desde sequências restantes após subtração são testados através de quantitativos Polymerase Chain Reaction (qPCR), R não precisa ser completa para o método de trabalho. Aqui temos link passos computacionais com etapas experimentais em um ciclo que pode ser iterado conforme necessário, sequencialmente, removendo várias sequências de referência e refinar a busca por T. A vantagem da genómica subtrativa é que uma sequência totalmente inédita do alvo pode ser identificada mesmo nos casos em que a purificação física é caro, difícil ou impossível. Uma desvantagem do método é encontrar uma referência adequada para subtração e obtenção de T-positivo e negativo de amostras para testes de qPCR. Descrevemos nossa implementação do método na identificação do primeiro gene cromossomo germline restrito de zebra finch. Nesse caso a filtragem computacional envolveu três referências (R), removidas sequencialmente em três ciclos: um assembly genômica incompleto, dados brutos de genômicos e transcriptomic dados.

Introduction

A finalidade desse método é identificar uma alvo romance (T) sequência genômica, ou DNA ou RNA, de um contexto genômico, ou uma referência (R) (Figura 1). O método é mais útil se o destino não pode ser separado fisicamente, ou que seria caro para fazê-lo. Somente alguns organismos perfeitamente terminar de genomas para subtração, então uma inovação chave do nosso método é a combinação de computacionais e métodos de banco em um ciclo, possibilitando que os pesquisadores isolar sequências de destino quando a referência é imperfeita, ou um projecto genoma de um organismo não-modelo. No final de um ciclo, qPCR teste é usado para determinar se é necessário mais subtração. Uma sequência de candidato validado T mostrará a deteção estatisticamente maior em amostras de T-positivas conhecidas por qPCR.

Encarnações do método têm sido implementadas na descoberta de novos alvos de drogas bacteriana que não têm acolhimento homologs1,2,3,4 e identificação de novos vírus de hospedeiros infectados 5,6. Além da identificação de T, o método pode melhorar r: recentemente usamos o método para identificar 936 faltando genes do genoma de referência de zebra finch e um novo gene de um cromossomo apenas germline (T)7. Genómica subtrativa é particularmente valiosa quando T é provável ser extremamente divergentes de sequências conhecidas, ou quando a identidade de T é amplamente indefinida, como a zebra finch restrito germline cromossoma7.

Por não exigir uma identificação positiva de T previamente, a principal vantagem da genómica subtrativa é que é imparcial. Em um estudo recente, Readhead et al analisou a relação entre a doença de Alzheimer e abundância viral em quatro regiões do cérebro. Para identificação viral, Readhead et al criou um banco de dados de 515 vírus8, limitando severamente as agentes virais que seu estudo poderia identificar. Genómica subtrativa poderia ter sido usada para comparar o saudável e genomas de Alzheimer para isolar possíveis novos vírus associados com a doença, independentemente de sua semelhança com os agentes infecciosos conhecidos. Enquanto existem 263 vírus multiplataforma em humanos conhecidos, estima-se que existem aproximadamente 1,67 milhões por descobrir espécies virais, com 631.000-827.000 deles tendo um potencial de infectar seres humanos9.

Isolamento de vírus romance é uma área na qual subtrativa genómica é particularmente eficaz, mas alguns estudos podem não precisar de um método tão rigoroso. Por exemplo, estudos de identificação de novos vírus utilizaram imparcial sequenciamento do elevado-throughput seguido por transcrição reversa e BLASTx para sequências viral5 ou enriquecimento de viral de ácidos nucleicos para extrair e reverter transcrevem sequências virais 6. enquanto estes estudos empregado novo de sequenciamento e montagem, subtração não foi usada porque as sequências de destino foram positivamente identificadas através da explosão. Se o vírus estavam totalmente inédita e não relacionados (ou distantemente relacionados) para outros vírus, genômica subtrativa teria sido uma técnica útil. O benefício da genómica subtrativa é que sequências que são completamente novas podem ser obtidas. Se o genoma do organismo é conhecida, pode ser subtraída para fora para deixar qualquer sequências virais. Por exemplo, em nosso estudo publicado isolamos uma sequência viral romance de zebra finch através de genómica subtrativa, embora não fosse nossa intenção original7.

Genómica subtrativa também provou ser útil na identificação de alvos de vacina bacteriana, motivados pelo aumento dramático da resistência aos antibióticos,1,2,3,4. Para minimizar o risco de reação auto-imune, pesquisadores reduziu os possíveis alvos de vacina subtraindo quaisquer proteínas que têm homologs no hospedeiro humano. Um estudo particular, olhando pseudotuberculosis Corynebacterium, realizada a subtração de genomas de vertebrados anfitrião de vários genomas bacterianas para garantir que alvos possíveis drogas não afectaria as proteínas nos anfitriões levando a efeitos colaterais 1. o fluxo de trabalho básico desses estudos é baixar o proteome bacteriano, determinar as proteínas vitais, remover proteínas redundantes, use BLASTp para isolar as proteínas essenciais e BLASTp contra o anfitrião proteome para remover qualquer proteínas com homologs do anfitrião 1 , 2 , 3 , 4. neste caso, genómica subtrativa certifique-se de que as vacinas desenvolvidas não terá quaisquer efeitos fora do alvo no anfitrião1,2,3,4.

Costumávamos subtrativa genomics identificar o primeiro gene codificantes de proteínas restrito germline cromossomo (GRC) (no caso, T), que é encontrado em germlines mas não somático tecido de ambos os sexos10. Antes deste estudo, as informações genômicas só que era conhecidas sobre o GRC eram uma região repetitiva11. Montagem de novo foi a RNA sequenciado do ovário e teste os tecidos (R + T) de adultos zebra finches. A eliminação computacional de sequências foi realizada utilizando publicado somáticas (músculo) genoma sequência (R1)12, seu bruto (Sanger) ler dados (R2) e um de transcriptoma (R3) somática (cérebro)13. O uso sequencial de três referências foi guiado pelo qPCR teste na etapa 5 de cada ciclo (Figura 2A), mostrando que a filtragem adicional era necessária. O gene de α-SNAP a descoberta foi confirmado através de qPCR de DNA e RNA e clonagem e sequenciamento. Mostramos em nosso exemplo que este método seja flexível: não é dependente de correspondência de ácidos nucleicos (DNA versus RNA) e a subtração pode ser realizada com referências (R) que são compostas de módulos (assemblies) ou leituras crus.

Protocol

1. montar começando sequência de novo Nota: Os dados de sequência de próxima geração (NGS) podem ser usados, enquanto um assembly pode ser produzido a partir desses dados. Dados de entrada apropriados incluem Illumina, PacBio, ou Nanopore de Oxford lê montado em um arquivo fasta. Para a concretude, esta seção descreve um assembly Illumina-baseado transcriptomic específicas para o estudo de zebra finch foram realizadas7; no entanto, esteja ciente de que …

Representative Results

Após a explosão de execução, o arquivo de saída terá uma lista de sequências de consulta que correspondem ao banco de dados. Após a subtração de Python, um número de sequências não correspondentes será obtido e testado por qPCR. Os resultados do presente e próximos passos, são discutidos abaixo. Resultado negativo. Há dois possíveis resultados negativos que podem ser vistos depois da explosão …

Discussion

Enquanto subtrativa genómica é poderosa, não é uma abordagem do bolinho-cortador, que exigem personalização em diversas etapas-chave e a seleção cuidadosa de sequências de referência e amostras de teste. Se o assembly de consulta é de má qualidade, etapas de filtragem pode isolar apenas artefatos de montagem. Portanto, é importante validar completamente novo de assembly usando um protocolo de validação adequada para o projeto específico. Para RNA-seq, orientações são fornecidas sobre o Trinity…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Os autores reconhecem Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha por sua ajuda com o projeto de genômica zebra finch em várias fases. Também reconhecemos Evgeny Bisk para computação de administração do sistema de cluster e NIH grant 1K22CA184297 (para J.R.B.) e NIH NS 042767 (para C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video