O propósito do presente protocolo é usar uma combinação de computacional e pesquisa do banco para encontrar romance sequências que não podem ser separadas facilmente uma sequência co purificante, que pode ser apenas parcialmente conhecida.
Genómica subtrativa pode ser usada em qualquer pesquisa onde o objetivo é identificar a sequência de um gene, proteína ou região geral que está incorporado em um contexto maior genoma. Genómica subtrativa permite que um pesquisador isolar uma sequência do alvo do interesse (T) sequenciamento abrangente e subtraindo elementos genéticos conhecidos (referência, R). O método pode ser usado para identificar sequências de romance como mitocôndrias, cloroplastos, vírus, ou germline restrito de cromossomos e é particularmente útil quando T não pode ser facilmente isolado de R. começando com os dados completos de genômicos (R + T), o método usa base Local alinhamento pesquisa ferramenta (explosão) contra uma sequência de referência, ou sequências, para remover as sequências conhecidas correspondentes (R), deixando para trás o alvo (T). Para subtração funcionar melhor, R deve ser um projecto relativamente completo que está faltando T. Desde sequências restantes após subtração são testados através de quantitativos Polymerase Chain Reaction (qPCR), R não precisa ser completa para o método de trabalho. Aqui temos link passos computacionais com etapas experimentais em um ciclo que pode ser iterado conforme necessário, sequencialmente, removendo várias sequências de referência e refinar a busca por T. A vantagem da genómica subtrativa é que uma sequência totalmente inédita do alvo pode ser identificada mesmo nos casos em que a purificação física é caro, difícil ou impossível. Uma desvantagem do método é encontrar uma referência adequada para subtração e obtenção de T-positivo e negativo de amostras para testes de qPCR. Descrevemos nossa implementação do método na identificação do primeiro gene cromossomo germline restrito de zebra finch. Nesse caso a filtragem computacional envolveu três referências (R), removidas sequencialmente em três ciclos: um assembly genômica incompleto, dados brutos de genômicos e transcriptomic dados.
A finalidade desse método é identificar uma alvo romance (T) sequência genômica, ou DNA ou RNA, de um contexto genômico, ou uma referência (R) (Figura 1). O método é mais útil se o destino não pode ser separado fisicamente, ou que seria caro para fazê-lo. Somente alguns organismos perfeitamente terminar de genomas para subtração, então uma inovação chave do nosso método é a combinação de computacionais e métodos de banco em um ciclo, possibilitando que os pesquisadores isolar sequências de destino quando a referência é imperfeita, ou um projecto genoma de um organismo não-modelo. No final de um ciclo, qPCR teste é usado para determinar se é necessário mais subtração. Uma sequência de candidato validado T mostrará a deteção estatisticamente maior em amostras de T-positivas conhecidas por qPCR.
Encarnações do método têm sido implementadas na descoberta de novos alvos de drogas bacteriana que não têm acolhimento homologs1,2,3,4 e identificação de novos vírus de hospedeiros infectados 5,6. Além da identificação de T, o método pode melhorar r: recentemente usamos o método para identificar 936 faltando genes do genoma de referência de zebra finch e um novo gene de um cromossomo apenas germline (T)7. Genómica subtrativa é particularmente valiosa quando T é provável ser extremamente divergentes de sequências conhecidas, ou quando a identidade de T é amplamente indefinida, como a zebra finch restrito germline cromossoma7.
Por não exigir uma identificação positiva de T previamente, a principal vantagem da genómica subtrativa é que é imparcial. Em um estudo recente, Readhead et al analisou a relação entre a doença de Alzheimer e abundância viral em quatro regiões do cérebro. Para identificação viral, Readhead et al criou um banco de dados de 515 vírus8, limitando severamente as agentes virais que seu estudo poderia identificar. Genómica subtrativa poderia ter sido usada para comparar o saudável e genomas de Alzheimer para isolar possíveis novos vírus associados com a doença, independentemente de sua semelhança com os agentes infecciosos conhecidos. Enquanto existem 263 vírus multiplataforma em humanos conhecidos, estima-se que existem aproximadamente 1,67 milhões por descobrir espécies virais, com 631.000-827.000 deles tendo um potencial de infectar seres humanos9.
Isolamento de vírus romance é uma área na qual subtrativa genómica é particularmente eficaz, mas alguns estudos podem não precisar de um método tão rigoroso. Por exemplo, estudos de identificação de novos vírus utilizaram imparcial sequenciamento do elevado-throughput seguido por transcrição reversa e BLASTx para sequências viral5 ou enriquecimento de viral de ácidos nucleicos para extrair e reverter transcrevem sequências virais 6. enquanto estes estudos empregado novo de sequenciamento e montagem, subtração não foi usada porque as sequências de destino foram positivamente identificadas através da explosão. Se o vírus estavam totalmente inédita e não relacionados (ou distantemente relacionados) para outros vírus, genômica subtrativa teria sido uma técnica útil. O benefício da genómica subtrativa é que sequências que são completamente novas podem ser obtidas. Se o genoma do organismo é conhecida, pode ser subtraída para fora para deixar qualquer sequências virais. Por exemplo, em nosso estudo publicado isolamos uma sequência viral romance de zebra finch através de genómica subtrativa, embora não fosse nossa intenção original7.
Genómica subtrativa também provou ser útil na identificação de alvos de vacina bacteriana, motivados pelo aumento dramático da resistência aos antibióticos,1,2,3,4. Para minimizar o risco de reação auto-imune, pesquisadores reduziu os possíveis alvos de vacina subtraindo quaisquer proteínas que têm homologs no hospedeiro humano. Um estudo particular, olhando pseudotuberculosis Corynebacterium, realizada a subtração de genomas de vertebrados anfitrião de vários genomas bacterianas para garantir que alvos possíveis drogas não afectaria as proteínas nos anfitriões levando a efeitos colaterais 1. o fluxo de trabalho básico desses estudos é baixar o proteome bacteriano, determinar as proteínas vitais, remover proteínas redundantes, use BLASTp para isolar as proteínas essenciais e BLASTp contra o anfitrião proteome para remover qualquer proteínas com homologs do anfitrião 1 , 2 , 3 , 4. neste caso, genómica subtrativa certifique-se de que as vacinas desenvolvidas não terá quaisquer efeitos fora do alvo no anfitrião1,2,3,4.
Costumávamos subtrativa genomics identificar o primeiro gene codificantes de proteínas restrito germline cromossomo (GRC) (no caso, T), que é encontrado em germlines mas não somático tecido de ambos os sexos10. Antes deste estudo, as informações genômicas só que era conhecidas sobre o GRC eram uma região repetitiva11. Montagem de novo foi a RNA sequenciado do ovário e teste os tecidos (R + T) de adultos zebra finches. A eliminação computacional de sequências foi realizada utilizando publicado somáticas (músculo) genoma sequência (R1)12, seu bruto (Sanger) ler dados (R2) e um de transcriptoma (R3) somática (cérebro)13. O uso sequencial de três referências foi guiado pelo qPCR teste na etapa 5 de cada ciclo (Figura 2A), mostrando que a filtragem adicional era necessária. O gene de α-SNAP a descoberta foi confirmado através de qPCR de DNA e RNA e clonagem e sequenciamento. Mostramos em nosso exemplo que este método seja flexível: não é dependente de correspondência de ácidos nucleicos (DNA versus RNA) e a subtração pode ser realizada com referências (R) que são compostas de módulos (assemblies) ou leituras crus.
Enquanto subtrativa genómica é poderosa, não é uma abordagem do bolinho-cortador, que exigem personalização em diversas etapas-chave e a seleção cuidadosa de sequências de referência e amostras de teste. Se o assembly de consulta é de má qualidade, etapas de filtragem pode isolar apenas artefatos de montagem. Portanto, é importante validar completamente novo de assembly usando um protocolo de validação adequada para o projeto específico. Para RNA-seq, orientações são fornecidas sobre o Trinity…
The authors have nothing to disclose.
Os autores reconhecem Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha por sua ajuda com o projeto de genômica zebra finch em várias fases. Também reconhecemos Evgeny Bisk para computação de administração do sistema de cluster e NIH grant 1K22CA184297 (para J.R.B.) e NIH NS 042767 (para C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |