Um protocolo de mineração de genoma guiado por espectrometria em massa é estabelecido e descrito aqui. Baseia-se em informações de seqüência de genomas e análise sustal e tem como objetivo facilitar a identificação de moléculas de extratos microbianos e vegetais complexos.
O espaço químico coberto por produtos naturais é imenso e amplamente não reconhecido. Portanto, são desejadas metodologias convenientes para realizar uma avaliação abrangente de suas funções na natureza e potenciais benefícios humanos (por exemplo, para aplicações de descoberta de medicamentos). Este protocolo descreve a combinação de mineração de genoma (GM) e rede molecular (MN), duas abordagens contemporâneas que combinam anotações codificadas por genes em sequenciamento de genoma inteiro com assinaturas de estrutura química a partir de extratos metabólicos brutos. Este é o primeiro passo para a descoberta de novas entidades naturais. Esses conceitos, quando aplicados em conjunto, são definidos aqui como mineração de genoma guiada por MS. Neste método, os principais componentes são previamente designados (usando MN), e novos candidatos estruturalmente relacionados estão associados a anotações de seqüência de genoma (usando GM). A combinação de GM e MN é uma estratégia lucrativa para atingir novos backbones de moléculas ou perfis metabólicos de colheita, a fim de identificar análogos de compostos já conhecidos.
As investigações do metabolismo secundário consistem frequentemente na triagem de extratos brutos para atividades biológicas específicas seguidas de purificação, identificação e caracterização dos constituintes pertencentes a frações ativas. Esse processo tem se mostrado eficiente, promovendo o isolamento de diversas entidades químicas. No entanto, hoje em dia isso é visto como inviável, principalmente devido às altas taxas de redescoberta. Como a indústria farmacêutica revolucionou sem o conhecimento dos papéis e funções dos metabólitos especializados, sua identificação foi realizada em condições laboratoriais que não representavam com precisão a natureza1. Hoje, há uma melhor compreensão das influências de sinalização natural, secreção e presença da maioria dos alvos em concentrações indetectavelmente baixas. Além disso, a regulamentação do processo ajudará a comunidade acadêmica e a indústria farmacêutica a aproveitar esse conhecimento. Também beneficiará pesquisas envolvendo o isolamento direto dos metabólitos relacionados a aglomerados genéticos biossintéticos silenciosos (BGCs)2.
Nesse contexto, os avanços no sequenciamento genômico têm renovado o interesse em triagem de metabólitos de microrganismos. Isso porque a análise das informações genômicas de aglomerados biossintéticos descobertos pode revelar genes codificando novos compostos não observados ou produzidos em condições laboratoriais. Muitos projetos ou rascunhos de genoma sumidos microbianos estão disponíveis hoje, e o número está crescendo a cada ano, fornecendo perspectivas maciças para descobrir novas moléculas bioativas através da mineração de genomas3,4.
O Atlas de Clusters Genéticos Biossintéticos é a maior coleção atual de aglomerados genéticos minerados automaticamente como um componente da Plataforma Integrada de Genomas Microbianos do Instituto De genoma conjunto (JGI IMG-ABC)2. Mais recentemente, a Iniciativa de Padronização de Clusters Genéticos Biossintéticos (MIBiG) promoveu a renotação manual dos BGCs, fornecendo um conjunto de dados de referência altamente curado5. Atualmente, muitas ferramentas estão disponíveis para permitir a mineração computacional de dados genéticos e sua conexão com metabólitos secundários conhecidos. Estratégias diferentes também foram desenvolvidas para acessar novos produtos naturais bioativos (ou seja, expressão heteróloga, exclusão de genes alvo, reconstituição in vitro, seqüência genômica, triagem guiada por isótopos [abordagem genomisotópica], manipulação de reguladores locais e globais, mineração baseada em alvos de resistência, mineração independente de cultura e, mais recentemente, abordagens guiadas por MS/código2,6,7,8,9, 10,,11,,12,,13,,14,,15).
A mineração do genoma como estratégia singular requer esforços para anotar um único ou pequeno grupo de moléculas; assim, permanecem lacunas no processo em que novos compostos são priorizados para isolamento e elucidação de estrutura. Em princípio, essas abordagens visam apenas uma via biossintética por experimento, resultando assim em uma lenta taxa de descoberta. Nesse sentido, o uso da GM juntamente com uma abordagem de rede molecular representa um importante avanço para a pesquisa de produtos naturais14,15.
A versatilidade, a precisão e a alta sensibilidade da espectrometria de massa cromatografia líquida (LC-MS) fazem dele um bom método para identificação composta. Atualmente, várias plataformas têm investido algoritmos e suítes de software para metabolômicas não direcionadas16,,17,,18,,19,,20. O núcleo desses programas inclui detecção de recursos (captação de pico)21 e alinhamento de pico, que permite a correspondência de características idênticas em um lote de amostras e a busca de padrões. Algoritmos baseados em padrões de MS22,23 comparam padrões de fragmentação característicos e combinam semelhanças ms2 gerando famílias moleculares compartilhando características estruturais. Essas características podem então ser destacadas e agrupadas, conferindo a capacidade de descobrir rapidamente moléculas conhecidas e desconhecidas a partir de um complexo extrato biológico por tandem MS2,24,25. Portanto, tandem MS é um método versátil para obter informações estruturais de vários quimiotipos contidos em uma grande quantidade de dados simultaneamente.
O algoritmo Global Natural Products Social Molecular Networking (GNPS)26 usa a intensidade de íons fragmentos normalizados para construir vetores multidimensionais, nos quais as semelhanças são comparadas usando uma função cossena. A relação entre diferentes íons-pais é plotada em uma representação de diagrama, na qual cada fragmentação é visualizada como um nó (círculos), e a relação de cada nó é definida por uma borda (linhas). A visualização global de moléculas de uma única fonte é definida como uma rede molecular. Moléculas estruturalmente divergentes que se fragmentam exclusivamente formarão seu próprio aglomerado ou constelação específico, enquanto moléculas relacionadas se agrupam. O agrupamento de quimiotipos permite a conexão hipotética de características estruturais semelhantes às suas origens biossintéticas.
A combinação tanto do quimiotipo ao genótipo quanto das abordagens genótipo-quimiotipo é poderosa ao criar ligações bioinformática entre os BGCs e seus produtos de pequenas moléculas27. Portanto, a mineração de genoma guiada por ESM é um método rápido e uma estratégia de baixo consumo de material, e ajuda a ponte de íons-mãe e vias biossintéticas reveladas pelo WGS de uma ou mais cepas diversas condições metabólicas e ambientais.
O fluxo de trabalho deste protocolo (Figura 1) consiste em alimentar dados WGS em uma plataforma de anotação de cluster genético biossintético, como antiSMASH28,,29,,30. Ajuda a estimar a variedade de compostos e classe de compostos codificados pelo genoma. Uma estratégia para atingir um aglomerado genético biossintético codificando uma entidade química de interesse deve ser adotada, e extratos de cultura de uma cepa de tipo selvagem e/ou cepa heteróloga contendo o BGC podem ser analisados para gerar íons agrupados com base em semelhanças usando GNPS26,31. Consequentemente, é possível identificar novas moléculas que se associam ao BGC direcionado e não estão disponíveis no banco de dados (principalmente análogos desconhecidos, às vezes produzidos em títulos baixos). É relevante considerar que os usuários podem contribuir para essas plataformas e que a disponibilidade de dados de bioinformática e MS/MS está aumentando rapidamente, levando a um constante desenvolvimento e atualização de ferramentas e algoritmos computacionais eficazes para orientar conexões eficientes de extratos complexos com moléculas.
Figura 1: Visão geral de todo o fluxo de trabalho. Mostrada é uma ilustração das etapas bioinformática, clonagem e rede molecular envolvidas na abordagem descrita de mineração de genoma sustal para identificar novos metabólitos. Clique aqui para ver uma versão maior desta figura.
Este protocolo descreve um fluxo de trabalho rápido e eficiente para combinar mineração de genoma e rede molecular como ponto de partida para o pipeline de descoberta de produtos naturais. Embora muitas aplicações sejam capazes de visualizar a composição e a relação de moléculas detectáveis em MS em uma rede, várias são adotadas aqui para visualizar moléculas agrupadas estruturalmente semelhantes. Utilizando essa estratégia, novos produtos de ciclodepsipeptídeos observados em extratos metabólicos de Estreptomices sp. CBMAI 2042 são identificados com sucesso. Guiado pela mineração do genoma, toda a codificação de aglomerados genéticos biossintéticos para valinomicinas é reconhecida e clonada na cepa produtora Streptomyces coelicolor M1146. Finalmente, seguindo uma rede molecular baseada em padrão de MS, as moléculas detectadas por MS estão correlacionadas com os BGCs responsáveis por sua biogênese32.
A maior vantagem deste protocolo é sua capacidade de dispor rapidamente perfis metabólicos e unir informações genômicas com dados de MS, a fim de elucidar as estruturas de novas moléculas, especialmente análogos estruturais2. Com base em informações genômicas, diferentes quimiotipos de produtos naturais podem ser investigados, como poliketidas (PK), peptídeos não ribossômicos (NRP) e produtos naturais glicosilados (GNP), bem como BGCs enigmáticos. A triagem metabolômica produz evid?…
The authors have nothing to disclose.
O apoio financeiro para este estudo foi fornecido pela Fundação de Amparo à Pesquisa do Estado de São Paulo – FAPESP (2019/10564-5, 2014/12727-5 e 2014/50249-8 para L.G.O; 2013/12598-8 e 2015/01013-4 para R.S.; e 2019/08853-9 para C.F.F.A). B.S.P, C.F.F.A., e L.G.O. receberam bolsas do Conselho Nacional de Desenvolvimento Científico e Tecnológico – CNPq (205729/2018-5, 162191/2015-4 e 313492/2017-4). L.G.O. também agradece pelo apoio à bolsa do programa Para Mulheres na Ciência (2008, Edição Brasileira). Todos os autores reconhecem a CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) por apoiar os programas de pós-graduação no Brasil.
Acetonitrile | Tedia | AA1120-048 | HPLC grade |
Agar | Oxoid | LP0011 | NA |
Apramycin | Sigma Aldrich | A2024 | NA |
Carbenicillin | Sigma Aldrich | C9231 | NA |
Centrifuge | Eppendorf | NA | 5804 |
Chloramphenicol | Sigma Aldrich | C3175 | NA |
Column C18 | Agilent Technologies | NA | ZORBAX RRHD Extend-C18, 80Å, 2.1 x 50 mm, 1.8 µm, 1200 bar pressure limit P/N 757700-902 |
Kanamycin | Sigma Aldrich | K1377 | NA |
Manitol P.A.- A.C.S. | Synth | NA | NA |
Microcentrifuge | Eppendorf | NA | 5418 |
Nalidixic acid | Sigma Aldrich | N4382 | NA |
Phusion Flash High-Fidelity PCR Master Mix | ThermoFisher Scientific | F548S | NA |
Q-TOF mass spectrometer | Agilent technologies | NA | 6550 iFunnel Q-TOF LC/MS |
Sacarose P.A.- A.C.S. | Synth | NA | NA |
Shaker/Incubator | Marconi | MA420 | NA |
Sodium Chloride | Synth | NA | P. A. – ACS |
Soy extract | NA | NA | NA |
Sucrose | Synth | NA | P. A. – ACS |
Thermal Cycles | Eppendorf | NA | Mastercycler Nexus Gradient |
Thiostrepton | Sigma Aldrich | T8902 | NA |
Tryptone | Oxoid | LP0042 | NA |
Tryptone Soy Broth | Oxoid | CM0129 | NA |
UPLC | Agilent Technologies | NA | 1290 Infinity LC System |
Yeast extract | Oxoid | LP0021 | NA |