A análise de partículas únicas na microscopia crio-elétron é uma das principais técnicas utilizadas para determinar a estrutura dos conjuntos biológicos em alta resolução. A Scipion fornece as ferramentas para criar todo o gasoduto para processar as informações adquiridas pelo microscópio e alcançar uma reconstrução 3D do espécime biológico.
A microscopia crio-elétron tornou-se uma das ferramentas mais importantes na pesquisa biológica para revelar as informações estruturais das macromoléculas em resolução quase atômica. Na análise de partículas únicas, a amostra vitrificada é imagens por um feixe de elétrons e os detectores no final da coluna de microscópio produzem filmes dessa amostra. Estes filmes contêm milhares de imagens de partículas idênticas em orientações aleatórias. Os dados precisam passar por um fluxo de trabalho de processamento de imagem com várias etapas para obter o volume 3D reconstruído final. O objetivo do fluxo de trabalho de processamento de imagens é identificar os parâmetros de aquisição para poder reconstruir o espécime em estudo. O Scipion fornece todas as ferramentas para criar esse fluxo de trabalho usando vários pacotes de processamento de imagens em uma estrutura integrativa, permitindo também a rastreabilidade dos resultados. Neste artigo, todo o fluxo de trabalho de processamento de imagem no Scipion é apresentado e discutido com dados provenientes de um caso de teste real, dando todos os detalhes necessários para ir desde os filmes obtidos pelo microscópio até uma reconstrução 3D final de alta resolução. Além disso, discute-se o poder de usar ferramentas de consenso que permitam combinar métodos e confirmar resultados ao longo de cada etapa do fluxo de trabalho, melhorando a precisão dos resultados obtidos.
Na microscopia crio-elétron (crio-EM), a análise de partículas únicas (SPA) de espécimes congelados vitrificados é uma das variantes mais utilizadas e bem sucedidas de imagem para macromoléculas biológicas, pois permite compreender as interações moleculares e a função dos conjuntos biológicos1. Isso se deve aos recentes avanços nesta técnica de imagem que deu origem à “revolução da resolução”2 e permitiram a determinação bem sucedida de estruturas biológicas 3D com resolução quase atômica. Atualmente, a maior resolução alcançada no SPA crio-EM foi de 1,15 Å para apoferritin3 (entrada EMDB: 11668). Esses avanços tecnológicos compreendem melhorias na preparação da amostra4, na aquisição de imagens5 e nos métodos de processamento de imagens6. Este artigo está focado neste último ponto.
Resumidamente, o objetivo dos métodos de processamento de imagens é identificar todos os parâmetros de aquisição para inverter o processo de imagem do microscópio e recuperar a estrutura 3D do espécime biológico em estudo. Esses parâmetros são o ganho da câmera, o movimento induzido pelo feixe, as aberrações do microscópio (principalmente o desfoco), a orientação angular 3D e a tradução de cada partícula, e o estado conformacional em caso de ter um espécime com alterações conformais. No entanto, o número de parâmetros é muito alto e o crio-EM requer o uso de imagens de baixa dose para evitar danos à radiação, o que reduz significativamente a Relação Sinal-Ruído (SNR) das imagens adquiridas. Assim, o problema não pode ser resolvido inequivocamente e todos os parâmetros a serem calculados só podem ser estimativas. Ao longo do fluxo de trabalho de processamento de imagem, devem ser identificados os parâmetros corretos, descartando os restantes para finalmente obter uma reconstrução 3D de alta resolução.
Os dados gerados pelo microscópio são coletados em quadros. Simplificando, um quadro contém o número de elétrons que chegaram a uma posição específica (pixel) na imagem, sempre que detectores de contagem de elétrons são usados. Em um determinado campo de visão, vários quadros são coletados e isso é chamado de filme. Como doses baixas de elétrons são usadas para evitar danos à radiação que poderiam destruir a amostra, o SNR é muito baixo e os quadros correspondentes ao mesmo filme precisam ser mediados para obter uma imagem revelando informações estruturais sobre a amostra. No entanto, não apenas uma média simples é aplicada, a amostra pode sofrer mudanças e outros tipos de movimentos durante o tempo de imagem devido ao movimento induzido pelo feixe que precisa ser compensado. Os quadros compensados e médios originários de um micrografo.
Uma vez obtidos os micrógrafos, precisamos estimar as aberrações introduzidas pelo microscópio para cada um deles, chamada Função de Transferência de Contraste (CTF), que representa as mudanças no contraste do micrógrafo em função da frequência. Em seguida, as partículas podem ser selecionadas e extraídas, o que é chamado de colheita de partículas. Cada partícula deve ser uma pequena imagem contendo apenas uma cópia do espécime em estudo. Existem três famílias de algoritmos para colheita de partículas: 1) as que só usam alguma parametrização básica da aparência da partícula para encontrá-las em todo o conjunto de micrografos (por exemplo, tamanho de partículas), 2) as que aprendem como as partículas se parecem com o usuário ou um conjunto pré-treinado, e 3) as que usam modelos de imagem. Cada família tem propriedades diferentes que serão mostradas mais tarde.
O conjunto extraído de partículas encontradas nos micrografos será usado em um processo de classificação 2D que tem dois objetivos: 1) limpar o conjunto de partículas descartando o subconjunto contendo imagens de ruído puro, partículas sobrepostas ou outros artefatos, e 2) as partículas médias que representam cada classe poderiam ser usadas como informações iniciais para calcular um volume inicial 3D.
O cálculo inicial do volume 3D é o próximo passo crucial. O problema da obtenção da estrutura 3D pode ser visto como um problema de otimização em um cenário de solução multidimensional, onde o mínimo global é o melhor volume 3D que representa a estrutura original, mas vários minimas locais representando soluções subótimas podem ser encontradas, e onde é muito fácil ficar preso. O volume inicial representa o ponto de partida para o processo de busca, de modo que a estimativa de volume inicial ruim poderia nos impedir de encontrar o mínimo global. A partir do volume inicial, uma etapa de classificação 3D ajudará a descobrir diferentes estados conformacionais e a limpar novamente o conjunto de partículas; o objetivo é obter uma população estruturalmente homogênea de partículas. Depois disso, uma etapa de refinamento 3D será responsável por refinar os parâmetros angulares e de tradução de cada partícula para obter o melhor volume 3D possível.
Finalmente, nas últimas etapas, a reconstrução 3D obtida pode ser afiada e polida. O afiação é um processo de aumentar as altas frequências do volume reconstruído, e o polimento é um passo para refinar ainda mais alguns parâmetros, como a compensação de movimento induzido pelo CTF ou pelo feixe, ao nível das partículas. Além disso, alguns procedimentos de validação poderiam ser utilizados para entender melhor a resolução alcançada no final do fluxo de trabalho.
Após todas essas etapas, os processos de rastreamento e acoplamento7 ajudarão a dar um significado biológico à reconstrução 3D obtida, construindo modelos atômicos de novo ou adaptando modelos existentes. Se a alta resolução for alcançada, esses processos nos dirão as posições das estruturas biológicas, mesmo dos diferentes átomos, em nossa estrutura.
O Scipion8 permite criar todo o fluxo de trabalho combinando os pacotes de processamento de imagem mais relevantes de forma integrativa. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17, e muitos outros pacotes podem ser incluídos no Scipion. Além disso, incorpora todas as ferramentas necessárias para beneficiar a integração, interoperabilidade, rastreabilidade e reprodutibilidade para fazer um acompanhamento completo de todo o fluxo de trabalho de processamento de imagem8.
Uma das ferramentas mais poderosas que o Scipion nos permite usar é o consenso, que significa comparar os resultados obtidos com vários métodos em uma etapa do processamento, fazendo uma combinação das informações transmitidas por diferentes métodos para gerar uma saída mais precisa. Isso poderia ajudar a aumentar o desempenho e melhorar a qualidade alcançada nos parâmetros estimados. Observe que um fluxo de trabalho mais simples pode ser construído sem o uso de métodos de consenso; no entanto, vimos o poder desta ferramenta22,25 e o fluxo de trabalho apresentado neste manuscrito irá usá-lo em várias etapas.
Todas as etapas que foram resumidas nos parágrafos anteriores serão explicadas detalhadamente na seção a seguir e combinadas em um fluxo de trabalho completo usando scipion. Além disso, será mostrado como usar as ferramentas de consenso para alcançar um acordo maior nas saídas geradas. Para isso, foi escolhido o conjunto de dados do Plasmodium falciparum 80S Ribosome (entrada EMPIAR: 10028, entrada EMDB: 2660). O conjunto de dados é formado por 600 filmes de 16 quadros de tamanho 4096×4096 pixels em um tamanho de pixel de 1.34Å tirado em um FEI POLARA 300 com uma câmera FEI FALCON II, com uma resolução relatada no EMDB é de 3.2Å18 .
Atualmente, o crio-EM é uma ferramenta-chave para revelar a estrutura 3D de amostras biológicas. Quando bons dados são coletados com o microscópio, as ferramentas de processamento disponíveis nos permitirão obter uma reconstrução 3D da macromolécula em estudo. O processamento de dados Crio-EM é capaz de alcançar uma resolução quase atômica, que é fundamental para entender o comportamento funcional de uma macromolécula e também é crucial na descoberta de drogas.
O Scipion é um software que permite criar todo o fluxo de trabalho combinando os pacotes de processamento de imagem mais relevantes de forma integrativa, o que ajuda a rastreabilidade e reprodutibilidade de todo o fluxo de trabalho de processamento de imagem. O Scipion fornece um conjunto muito completo de ferramentas para realizar o processamento; no entanto, a obtenção de reconstruções de altas resoluções depende completamente da qualidade dos dados adquiridos e de como esses dados são processados.
Para obter uma reconstrução 3D de alta resolução, o primeiro requisito é obter bons filmes do microscópio, que preservam informações estruturais para alta resolução. Se este não for o caso, o fluxo de trabalho não será capaz de extrair informações de alta definição dos dados. Em seguida, um fluxo de trabalho de processamento bem-sucedido deve ser capaz de extrair partículas que realmente correspondem à estrutura e encontrar as orientações dessas partículas no espaço 3D. Se alguma das etapas do fluxo de trabalho falhar, a qualidade do volume reconstruído será degradada. O Scipion permite o uso de diferentes pacotes em qualquer uma das etapas de processamento, o que ajuda a encontrar a abordagem mais adequada para processar os dados. Além disso, graças à disponibilização de muitos pacotes, podem ser utilizadas ferramentas de consenso que aumentam a precisão ao encontrar um acordo nas saídas estimadas de diferentes métodos. Além disso, tem sido discutido detalhadamente na seção Resultados Representativos várias ferramentas de validação e como identificar resultados precisos e imprecisos em cada etapa do fluxo de trabalho, para detectar possíveis problemas e como tentar resolvê-los. Existem vários pontos de verificação ao longo do protocolo que podem ajudar a perceber se o protocolo está funcionando corretamente ou não. Alguns dos mais relevantes são: escolha, classificação 2D, estimativa inicial de volume e alinhamento 3D. Verificar as entradas, repetir a etapa com um método diferente ou usar consenso, são opções disponíveis no Scipion que o usuário pode usar para encontrar soluções quando os problemas aparecem.
Em relação às abordagens anteriores para a integração de pacotes no campo Cryo-EM, o Appion31 é o único que permite a integração real de diferentes pacotes de software. No entanto, a Appion está fortemente conectada com leginon32, um sistema para coleta automatizada de imagens a partir de microscópios eletrônicos. A principal diferença com o Scipion é que o modelo de dados e o armazenamento são menos acoplados. Dessa forma, para criar um novo protocolo no Scipion, apenas um script Python precisa ser desenvolvido. No entanto, no Appion, o desenvolvedor deve escrever o script e alterar o banco de dados subjacente. Em resumo, o Scipion foi desenvolvido para simplificar a manutenção e a extensibilidade.
Apresentamos neste manuscrito um fluxo de trabalho completo para o processamento cryo-EM, utilizando o conjunto de dados de caso real do Plasmodium falciparum 80S Ribosome (entrada EMPIAR: 10028, entrada EMDB: 2660). As etapas aqui abordadas podem ser resumidas como alinhamento de filme, estimativa ctf, captação de partículas, classificação 2D, estimativa inicial do mapa, classificação 3D, refinamento 3D, avaliação e pós-processamento. Diferentes pacotes foram utilizados e ferramentas de consenso foram aplicadas em várias dessas etapas. O volume reconstruído 3D final alcançou uma resolução de 3 Å e, no volume pós-processado, algumas estruturas secundárias podem ser distinguidas, como as helices alfa, o que ajuda a descrever como os átomos são dispostos no espaço.
O fluxo de trabalho apresentado neste manuscrito mostra como o Scipion pode ser usado para combinar diferentes pacotes Cryo-EM de forma simples e integrativa para simplificar o processamento e obter resultados mais confiáveis ao mesmo tempo.
No futuro, o desenvolvimento de novos métodos e pacotes continuará crescendo e softwares como o Scipion para integrar facilmente todos eles serão ainda mais importantes para os pesquisadores. Abordagens de consenso serão mais relevantes mesmo assim, quando muitos métodos com bases diferentes estarão disponíveis, ajudando a obter estimativas mais precisas de todos os parâmetros envolvidos no processo de reconstrução no Cryo-EM. O rastreamento e a reprodutibilidade são fundamentais no processo de pesquisa e mais fáceis de alcançar com o Scipion, graças a ter uma estrutura comum para a execução de fluxos de trabalho completos.
The authors have nothing to disclose.
Os autores gostariam de reconhecer o apoio econômico de: Ministério espanhol da Ciência e Inovação através de Bolsas: PID2019-104757RB-I00/AEI/10.13039/501100011033, o “Comunidad Autónoma de Madrid” através de Grant: S2017/BMD-3817, Instituto de Salud Carlos III, PT17/0009/0010 (ISCIII-SGEFI/ERDF), União Europeia (UE) e Horizon 2020 através de subvenção: INSTRUIR – ULTRA (INFRADEV-03-2016-2017, Proposta: 731005), EOSC Life (INFRAEOSC-04-2018, Proposta: 824087), iNEXT – Discovery (Proposta: 871037) e HighResCells (ERC – 2018 – SyG, Proposta: 810057). O projeto que deu origem a esses resultados recebeu o apoio de uma bolsa da Fundação “la Caixa” (ID 100010434). O código de companheirismo é LCF/BQ/DI18/11660021. Este projeto recebeu financiamento do programa de pesquisa e inovação Horizon 2020 da União Europeia no âmbito do acordo de subvenção Marie Skłodowska-Curie nº 713673. Os autores reconhecem o apoio e o uso dos recursos do Instruct, um projeto da Landmark ESFRI.