Summary

gP2S, um sistema de gerenciamento de informações para experimentos CrioEM

Published: June 10, 2021
doi:

Summary

gP2S é um aplicativo web para o rastreamento de experimentos crioEM. Suas principais características são descritas, assim como as etapas necessárias para instalar e configurar o aplicativo. Uma vez configurado, o aplicativo permite gravar com precisão metadados associados a experimentos de manchas negativas e crioEM.

Abstract

A microscopia eletrônica criogênica (crioEM) tornou-se parte integrante de muitos projetos de descoberta de drogas porque a cristalografia da meta proteica nem sempre é alcançável e o crioEM fornece um meio alternativo para apoiar o design de ligantes baseado em estrutura. Ao lidar com um grande número de projetos distintos, e dentro de cada projeto um número potencialmente grande de co-estruturas de proteína de ligante, a manutenção precisa de registros rapidamente se torna desafiadora. Muitos parâmetros experimentais são ajustados para cada alvo, incluindo na preparação da amostra, preparação da grade e estágios de microscopia. Portanto, a manutenção precisa de registros pode ser crucialmente importante para permitir a reprodutibilidade a longo prazo e facilitar o trabalho em equipe eficiente, especialmente quando as etapas do fluxo de trabalho crioEM são realizadas por diferentes operadores. Para ajudar a lidar com esse desafio, desenvolvemos um sistema de gerenciamento de informações baseado na Web para crioEM, chamado gP2S.

A aplicação mantém o controle de cada experimento, da amostra ao modelo atômico final, no contexto dos projetos, uma lista da qual é mantida na aplicação, ou externamente em um sistema separado. Vocabulários controlados definidos pelo usuário de consumíveis, equipamentos, protocolos e software ajudam a descrever cada etapa do fluxo de trabalho crioEM de forma estruturada. o gP2S é amplamente configurável e, dependendo das necessidades da equipe, pode existir como um produto autônomo ou fazer parte de um ecossistema mais amplo de aplicações científicas, integrando-se via APIs de DESCANSO com ferramentas de gerenciamento de projetos, aplicativos que acompanham a produção de proteínas ou de ligantes de pequenas moléculas, ou aplicações que automatizam a coleta e armazenamento de dados. Os usuários podem registrar detalhes de cada sessão de grade e microscopia, incluindo os principais valores experimentais de metadados e parâmetros, e a linhagem de cada artefato experimental (amostra, grade, sessão de microscopia, mapa, etc.) é registrada. o gP2S serve como um organizador de fluxo de trabalho experimental crioEM que permite a manutenção precisa de registros para equipes e está disponível sob uma licença de código aberto.

Introduction

Gerenciamento de informações nas instalações crioem
A partir de 2014, aproximadamente, o número de microscopia eletrônica criogênica (crioEM)1 tem crescido explosivamente, com pelo menos 300 sistemas high-end instalados em todo o mundo2, incluindo em um número de empresas farmacêuticas, refletindo um papel crescente para o crioEM na descoberta de medicamentos3. As missões dessas instalações e seus requisitos para rastreamento e gerenciamento de dados diferem4. Alguns, por exemplo, os centros crioEM nacionais, são encarregados de receber grades EM, coletar conjuntos de dados e devolver dados aos usuários para determinação da estrutura, talvez após algum processamento automatizado de imagens. Nessas instalações, o acompanhamento da procedência da rede, sua associação com uma proposta ou concessão do usuário e a linhagem da grade para o conjunto de dados são cruciais, mas outros fatores, como o método de purificação da amostra de proteína ou o eventual processo de determinação da estrutura, são menos, ou não, relevantes. Em outras instalações, como instalações acadêmicas locais, cada usuário final é responsável por preparar suas próprias amostras e grades, realizar a microscopia, gerenciar os dados brutos e seu processamento e publicação dos resultados. Não há necessidade rigorosa de rastreamento de metadados por parte de tal instalação porque essa função é cumprida pelo usuário final ou pelo seu principal investigador.

Em nossa instalação crioEM, o manuseio e otimização de amostras, grades, protocolos de coleta e processamento de dados e resultados (mapas, modelos) é centralizado em muitos projetos para um pequeno grupo de profissionais. Isso apresenta desafios na gestão experimental (meta)de dados. A linhagem experimental das estruturas, desde o modelo atômico até a identidade exata de proteínas e ligantes, através de parâmetros de preparação de grade e protocolos de coleta de dados, deve ser capturada e preservada com precisão. Esses metadados devem ser disponibilizados para vários operadores humanos. Por exemplo, uma pessoa que faz o processamento de imagens pode precisar saber qual construção de uma proteína foi usada e quais eram os parâmetros de imagem, mesmo que eles não tenham purificado a proteína nem coletado os próprios dados crioEM; sistemas de informática, como daemons automatizados de gerenciamento de dados, precisam identificar o projeto para o qual um microscópio está coletando dados atualmente, a fim de atribuir corretamente e sistematicamente nomes de diretórios.

Vários sistemas de gerenciamento de informações estão disponíveis para suportar instalações crioEM. Talvez o mais completo entre eles seja o EMEN25, que combina recursos de um notebook de laboratório eletrônico, um sistema de gerenciamento de informações e alguns elementos de uma ferramenta de gerenciamento de processos de negócios. Usado em muitos síncrotrons, o ISPyB6, originalmente construído para suportar as linhas de raios-X para cristalografia, agora também suporta a coleta de dados crioEM. O Scipion7 é um invólucro rico e poderoso em torno de pacotes de processamento de imagens, que permite que os usuários gravem fluxos de trabalho de processamento de imagens e compartilhem-os, por exemplo, através do repositório público EMPIAR8,9,e também está integrado ao ISPyB para permitir o processamento de dados crioEM on-the-fly.

Aqui descrevemos o gP2S (para Genentech Protein to Structure), um moderno e leve sistema de gerenciamento de informações crioEM construído para suportar o fluxo de trabalho desde proteína purificada e ligante de moléculas pequenas até o modelo atômico final.

Visão geral do gP2S
O gP2S é um sistema de gerenciamento de informações crioEM baseado na Web que facilita a manutenção precisa de registros para laboratórios crioEM e instalações multi-usuários de vários projetos. São rastreados os seguintes conjuntos, suas relações e metadados associados: projetos, equipamentos, consumíveis, protocolos, amostras, grades, sessões de microscopia, sessões de processamento de imagens, mapas e modelos atômicos. Os usuários também podem adicionar comentários de texto livre, opcionalmente incluindo anexos de arquivos, permitindo uma anotação rica de qualquer entidade registrada no gP2S. A front-end foi projetada para facilitar o uso com dispositivos touchscreen e testada extensivamente em iPad Pros de 12,9″, possibilitando o uso de gP2S no banco de laboratório enquanto prepara amostras e grades(Figura 1),bem como no computador ao operar o microscópio, processar imagens ou modelos de depósito. Cada página na parte frontal visa reduzir a entrada manual de dados por parâmetros de pré-configuração para valores padrão sensíveis quando possível.

O backend do gP2S apresenta uma série de pontos finais de API (REpresentational State Transfer Application Programming Interface), possibilitando a integração do gP2S nos fluxos de trabalho e scripts existentes. O modelo de dados foi projetado para permitir a captura precisa de fluxos de trabalho negativos de manchas e crioEM, incluindo ramificações, por exemplo, com uma amostra usada em várias grades, dados de várias sessões de microscopia sendo mesclados em uma única sessão de processamento de dados ou uma sessão de processamento de dados produzindo vários mapas.

Arquitetura do sistema
gP2S é um aplicativo clássico de três níveis(Figura 2). Nesta arquitetura modular, o sistema é dividido em três camadas separadas, cada uma responsável pelo desempenho de deveres distintos, e cada uma substituível ou modificável independentemente das outras. (1) A camada de apresentação (ou frontend) fornece acesso ao usuário via navegador web (amplamente testado com Chrome e Safari), permite a criação e modificação de elementos de fluxo de trabalho (incluindo validação de dados) e exibe dados experimentais como entidades individuais, listas baseadas em projetos e relatórios completos de fluxo de trabalho. (2) A camada de serviço (ou backend) serve como uma camada intermediária entre a interface do usuário e o sistema de armazenamento – ela mantém a lógica de negócios central, expõe a API de serviço usada pelo front-end, integra-se com o armazenamento de dados e o sistema LDAP (Lightweight Directory Access Protocol) para autenticação do usuário e fornece uma base para uma integração adicional com sistemas externos. (3) A camada de persistência (acesso a dados) é responsável pelo armazenamento de dados experimentais, comentários do usuário e anexos de arquivos.

Principais tecnologias e frameworks
Para facilitar o desenvolvimento, construção e manutenção da aplicação gP2S, diversas tecnologias e frameworks foram utilizadas no projeto. Os mais importantes são: Vue.js 2.4.210 para o frontend e SpringBoot 1.311 com servidor Tomcat 8 incorporado para o back-end. O aplicativo usa bancos de dados MySQL 5.7 e MongoDB 4.0.6 para armazenamento e LDAP12 para autenticação. Por padrão, todas essas peças componentes são enviadas e implantadas como um único aplicativo.

No total, o aplicativo usa centenas de bibliotecas diferentes direta ou indiretamente. Os mais proeminentes estão listados na Tabela 1.

Modelo de dados
Três tipos de entidades podem ser distinguidas no modelo de dados gP2S (Figura 3): entidades de fluxo de trabalho relacionadas aos dados coletados durante os experimentos (por exemplo, amostras ou sessões de microscopia); entidades de equipamentos e protocolos que descrevem dados comuns em todos os projetos (por exemplo, microscópios ou protocolos de vitrificação); outras entidades que desempenham funções favoráveis ou técnicas no sistema (por exemplo, comentários ou valores padrão).

A raiz da árvore de dados do fluxo de trabalho é a entidade do Projeto. Cada projeto consiste em uma série de Proteínas e/ou Ligantes que estão construindo blocos para a criação de entidades amostrais. Cada amostra pode ser usada para criar várias grades que, por sua vez, são usadas em Sessões de Microscopia (uma grade por sessão de microscopia). Estes últimos são atribuídos a Sessões de Processamento que podem produzir um ou mais mapas. A última entidade na árvore é o Modelo Atômico, criado usando um ou muitos Mapas. Em consequência, todas as entidades relacionadas ao fluxo de trabalho, da Proteína ao Modelo, estão sempre vinculadas a um projeto específico através de seus ancestrais. Esse design cria agregados de dados fáceis de processar, seja pelo módulo frontend ou por sistemas externos que usam a API.

Além dos dados de fluxo de trabalho, existem entidades que descrevem equipamentos utilizados em experimentos ou protocolos que foram seguidos durante a preparação de grades. A definição dessas entidades é um pré-requisito para a criação de entidades experimentais de fluxo de trabalho, como Grades, Microscopia e Sessões de Processamento.

O último tipo de entidade de dados, coletivamente denominada “Outro”, é usada para fins técnicos (por exemplo, anexos de arquivos ou valores padrão). Esta categoria inclui entidades de comentários que podem ser vinculadas a qualquer fluxo de trabalho ou entidades de equipamentos/protocolos.

Disponibilidade de software
A versão de código aberto do gP2S está disponível sob uma versão apache license 2.026, a partir de https://github.com/arohou/gP2S. Uma imagem do Docker para executar o gP2S está disponível a partir de https://hub.docker.com/r/arohou/gp2s. Uma filial de fonte fechada do gP2S está em desenvolvimento contínuo na Roche & Genentech.

Executando o aplicativo gP2S
Existem duas maneiras de executar gP2S: como um contêiner docker ou como um aplicativo Java autônomo. A escolha ideal dependerá do ambiente de implantação de destino. Por exemplo, se a capacidade de personalizar ou melhorar o código para atender às necessidades específicas dos usuários for desejada, todo o aplicativo deve ser re-construído primeiro. Neste caso, pode-se recomendar a execução do gP2S como um aplicativo autônomo.

Contêiner Docker
A maneira mais fácil de começar a trabalhar com o aplicativo gP2S é executá-lo como um serviço Docker. Para isso, uma imagem dedicada do Docker foi preparada e publicada no repositório do Docker Hub (“https://hub.docker.com/r/arohou/gp2s”). A execução da imagem gP2S depende do acesso aos bancos de dados MySQL e MongoDB e a um servidor LDAP. Para ambiente não produtivo, recomenda-se executar todas essas dependências como aplicações Docker de vários contêineres, juntamente com o aplicativo gP2S. Para tornar isso perfeito, um arquivo compor docker (https://github.com/arohou/gP2S/blob/master/docker-compose.yml) que inclui todas as configurações necessárias do ambiente final foi preparado e fornecido no repositório gP2S GitHub (https://github.com/arohou/gP2S). As seguintes imagens do docker são as dependências: mysql27, mongodb28, apacheds29.

Na configuração padrão, todos os dados armazenados, tanto entidades quanto anexos de arquivos serão excluídos após a remoção dos recipientes docker. Para manter os dados, os volumes de docker devem ser usados ou o aplicativo gP2S deve ser conectado a instâncias de banco de dados dedicadas (MySQL e MongoDB). O contêiner do servidor IDAP ApacheDS vem com um usuário administrativo pré-configurado (senha: segredo). Essas credenciais devem ser usadas para fazer login no aplicativo gP2S quando ele for executado como um serviço Docker. Para ambientes de produção, o mesmo arquivo docker-compor pode ser utilizado para implantar gP2S (e outros contêineres, se necessário) como serviços para uma plataforma de orquestração de contêineres Docker Swarm.

O processo completo de execução do gP2S como um contêiner Docker, incluindo todos os detalhes sobre a configuração adequada é descrito no repositório gP2S GitHub e abrange os seguintes tópicos:

• Executar o aplicativo gP2S dockerizado com todas as dependências.
• Acessando o aplicativo gP2S, banco de dados e LDAP.
• Atualização do serviço gP2S com uma nova versão.
• Remoção do aplicativo gP2S.
• Configuração da persistência dos dados.
• Conectar o aplicativo gP2S dockerizado a bancos de dados dedicados ou a um servidor LDAP.
• Detalhes de configuração

Aplicativo Java autônomo
Outra opção para executar o aplicativo gP2S é construir um pacote Java independente. Esta abordagem deve ser tomada se a execução de contêineres Docker não for possível. A construção do aplicativo gP2S requer a instalação de um Java Development Kit versão 8 ou superior. Todo o processo de compilação é gerenciado pela ferramenta Maven, que é fornecida na base de código no repositório Do GitHub. A configuração de compilação está preparada para construir a parte frontend primeiro, depois copiá-la para fontes de back-back-back-e, em seguida, construí-la como um aplicativo final. Dessa forma, não há necessidade de instalar outras ferramentas ou bibliotecas para preparar um pacote gP2S em pleno funcionamento. Por padrão, o resultado da compilação é um pacote JAR (armazenado localmente) e imagem Docker (empurrado para o repositório configurado no arquivo maven pom.xml). É importante lembrar que as informações necessárias para se conectar a sistemas externos (bancos de dados e servidor LDAP) precisam ser fornecidas em um arquivo de configuração adequado antes que o pacote seja construído.

Uma vez criado o pacote JAR gP2S, ele contém todas as dependências e informações de configuração necessárias para executar o aplicativo, incluindo o servidor de aplicativo Tomcat que hospeda o sistema. Se o pacote foi construído com vários arquivos de configuração, ele pode ser executado em diferentes modos sem reconstrução.

O repositório gP2S GitHub inclui uma descrição completa do processo de construção e execução do gP2S como um aplicativo autônomo e abrange os seguintes tópicos:

• Construção de gP2S usando a ferramenta Maven
• Construção e execução com bancos de dados incorporados
• Construção e funcionamento com dependências implantadas como contêineres docker
• Construção e execução com bancos de dados dedicados
• Configuração de autenticação

Protocol

1. Configuração de gP2S para o trabalho Faça logon no gP2S. Após o login bem-sucedido, a tela principal é mostrada.NOTA: No canto superior direito, o nome de usuário é mostrado – clique nisso para sair. A barra de navegação do lado esquerdo consiste em um seletor de projetos (topo), um conjunto de itens de navegação listando os tipos de entidades experimentais que definem o fluxo de trabalho crioEM (Samples, Grades, Sessões de Microscopia, Sessões de Processamento, Mapas e Modelos) e um link para a seção Configurações do aplicativo. Antes que qualquer experimento possa ser registrado, preencha a seção Configurações com informações sobre projetos, equipamentos, consumíveis, software e protocolos que estão em uso na instalação crioEM. As configurações podem ser atualizadas a qualquer momento adicionando novas ferramentas e projetos e editando as entradas existentes; no entanto, assim como todas as entidades do gP2S, as entidades de Configurações não podem ser excluídas uma vez criadas. 2. Configure pelo menos um projeto Navegue até Configurações > Projetos. Clique em Criar novo projeto. Digite um rótulo de Projeto. Clique em Salvar. 3. Configure pelo menos uma máquina de tratamento de superfície. NOTA: As máquinas de tratamento de superfície são usadas para modificar as propriedades superficiais das redes EM – mais comumente são descargas de brilho ou limpadores de plasma. Na seção Equipamento, escolha a Máquina de Tratamento de Superfície. Clique em Criar nova máquina. Digite um rótulo, que servirá para identificar a máquina mais tarde. Forneça seu Fabricante, Modelo e Localização. Clique em Salvar. 4. Registre pelo menos um tipo de grade. NOTA: Os tipos de grade destinam-se a identificar modelos de grades (por exemplo, “filme de carbono furado de 2 μm em grades de cobre de 300 malhas”), lotes específicos ou muitas grades Da seção Consumíveis selecione Tipo de grade. Clique em Criar novo tipo de grade. Digite um rótulo tipo de grade, fabricante e descrição. Clique em Salvar. 5. Registre pelo menos uma máquina de vitrificação Na seção Equipamento, selecione Máquina de Vitrificação. Clique em Criar nova máquina. Forneça seu Fabricante, Modelo e Localização. Clique em Salvar. 6. Registre pelo menos um papel de mancha Na seção Consumíveis selecione Papel de mancha. Clique em Criar novo papel de mancha . Digite um rótulo de papel de mancha, fabricante e modelo. Clique em Salvar. 7. Registre pelo menos um dispositivo de armazenamento Cryo Na seção Equipamento, selecione Cryo Storage Device. Clique em Criar novo dispositivo de armazenamento. Digite o fabricante, modelo e localização do dispositivo. Defina os interruptores de alternância para especificar se o dispositivo de armazenamento adicionado possui cilindros, tubos e/ou caixas.NOTA: Se isso acontecer, o gP2S permitirá que os usuários especifiquem identificadores relevantes de cilindro, tubo e/ou caixa mais tarde, quando os usuários registrarem os locais de armazenamento para grades individuais. Com as peças acima de Equipamentos e Consumíveis configuradas, é possível criar três tipos de Protocolos – Tratamento de Superfície, Mancha Negativa e Vitrificação. 8. Registre pelo menos um Protocolo de Tratamento de Superfície Na seção Protocolos, selecione Tratamento de superfície. Clique em Criar novo protocolo. Digite um rótulo para identificar o Protocolo. Selecione uma das Máquinas de Tratamento de Superfície. Especifique as configurações utilizadas durante este protocolo: duração, corrente e polaridade da descarga e pressão, bem como quaisquer aditivos na atmosfera. Clique em Salvar. 9. Crie pelo menos um protocolo de manchas negativas Na seção Protocolos, selecione Mancha Negativa. Clique em Criar novo protocolo. Digite um rótulo de protocolo. Descreva a mancha dando valores para seu nome, o pH e concentração de sal metálico pesado. Especifique o tempo de incubação da mancha antes de borrar. Digite a descrição do texto livre do protocolo. Clique em Salvar. 10. Registre pelo menos um protocolo de congelamento de grade Na seção Protocolos, selecione Vitrificação. Clique em Criar novo protocolo. Digite um rótulo de protocolo. Escolha a máquina de vitrificação relevante na lista de entrega. Escolha o papel de mancha usado neste protocolo. Em seguida, forneça as demais informações experimentais: umidade relativa, temperatura, força de manchas, número de manchas, tempo de mancha, tempo de espera, tempo de drenagem, número de aplicações amostrais. Digite uma descrição de texto livre. Clique em Salvar.NOTA: Após a configuração dos Protocolos, é possível criar redes criogenas e manchas negativas. Para usar o gP2S para registrar os próximos passos no fluxo de trabalho, a partir de sessões de Microscopia, é necessário configurar um microscópio, um detector de elétrons e um suporte de amostra. 11. Registre pelo menos um microscópio Na seção Equipamento, selecione Microscópio. Clique em Criar novo microscópio. Digite um rótulo de microscópio. Forneça seu Fabricante, Modelo e Localização. Selecione quais tensões de aceleração estão configuradas e utilizáveis neste microscópio, fora da lista predefinida de 80, 120, 200 e 300 kV. Especifique a lista de condensadores (“C2”) e aberturas objetivas instaladas. NOTA: para cada tipo, até 4 slots de abertura podem ser configurados, um dos quais é designado como a abertura padrão para este microscópio. No caso das aberturas objetivas, indique que uma ou mais das ranhuras são tomadas por uma placa de fase, caso em que o parâmetro de diâmetro esteja desativado. Indique se este microscópio está equipado com um carregador automático ou requer um suporte de entrada lateral. Indique se o microscópio está equipado com um filtro de energia. Forneça valores padrão para tensão de extração, configuração da lente da arma, tamanho do ponto e largura da fenda do filtro de energia (se for relevante). Os valores fornecidos serão usados quando os usuários criarem Sessões de Microscopia. 12. Registre pelo menos um detector de elétrons Na seção Equipamento, selecione Detector de Elétrons. Clique em Criar novo detector de elétrons. Digite um rótulo, fabricante e modelo. Selecione a partir de uma lista suspensa o Microscópio no qual este detector está montado. Adicione pelo menos uma ampliação calibrada para esta combinação microscópio-detector: Sob ampliações, selecione Adicionar novo. Fornecer valores de ampliação nominais e calibrados. Repita estas etapas para todas as configurações de ampliação esperadas. Essas configurações de ampliação estarão mais tarde disponíveis em um seletor de drop-down para usuários que registram sessões de microscopia. Use caixas de seleção para especificar se o detector é capaz de contagem de elétrons, fracionamento de dose e super resolução. Finalmente, forneça especificações adicionais do detector: fator contagem por elétrons (o número médio de contagens registradas por elétron incidente), a dimensão linear de cada pixel (em μm) e o número de linhas e colunas de pixels. Clique em Salvar 13. Se houver um ou mais microscópios que exijam titulares de amostras de entrada lateral, registre os titulares de amostras disponíveis no gP2S. Na seção Equipamento, selecione Suporte de amostra. Clique em Criar novo suporte. Digite uma etiqueta, fabricante, modelo e localização. Especifique a inclinação máxima (em graus) para o suporte da amostra. Use as caixas de seleção para especificar se ela é capaz de segurar grades EM criogênicas e se ela é capaz de inclinação de dois eixos. A partir de uma lista de drop-down, selecione todos os microscópios com os quais este suporte pode ser usado.NOTA: isso garantirá que apenas os titulares relevantes sejam listados quando os usuários registrarem sessões de microscopia usando microscópios de entrada lateral. Clique em Salvar. 14. Especifique o padrão que o gP2S seguirá na definição do nome do diretório associado a cada Sessão de Microcopia. NOTA: Pode ser muito útil ter gP2S gerando automaticamente um nome de diretório para o armazenamento de dados de imagem gravados durante uma Sessão de Microscopia. Isso garante a nomeação sistemática e rica em informações de diretórios de armazenamento. Especifique o padrão que o gP2S seguirá na definição do nome do diretório associado a cada Sessão de Microscopia. Na seção Administração, selecione Configurações. Edite a sequência de padrão de nome do diretório.NOTA: esta sequência pode conter as seguintes variáveis: rótulo do projeto, ID da grade, etiqueta grade, etiqueta De Sessão de Microscopia, ID de sessão de microscopia, data de início da sessão de microscopia, hora de início da sessão de microscopia e etiqueta microscópio, delimitada por ${}. Além dessas variáveis, os padrões de nomes do diretório podem conter a maioria dos caracteres. O padrão de nome do diretório padrão, por exemplo, é ${GridLabel}__${MicroscopyStartDate}__{MicroscopeLabel}_grid_${GridID}_session_${MicroscopySessionID}. Agora, configuram-se configurações suficientes para permitir o registro de entidades experimentais até e incluindo sessões de microscopia. 15. Registre o software de processamento de imagens disponível para os usuários. NOTA: Isso permitirá o registro de Sessões de Processamento e posteriores tipos de entidades (Mapas e Modelos). Selecione Processamento de imagem. Clique em Criar novo software de processamento de imagens. Digite o nome do software Liste todas as versões disponíveis aos usuários: Em versão de software(s), selecione Adicionar novo. Digite a versão do software.NOTA: Isso permitirá que os usuários especifiquem exatamente qual versão do software que usaram para alcançar seus resultados ao registrar sessões de processamento de imagens. Isso completa a configuração necessária do gP2S. Os usuários agora devem ser capazes de capturar com precisão metadados-chave descrevendo seus experimentos de microscopia eletrônica, conforme descrito na seção a seguir.

Representative Results

Padrão geral de design e navegaçãoO aplicativo gP2S é orientado para projetos, de tal forma que uma entidade só pode ser criada no contexto de um projeto. O projeto relevante é selecionado pela primeira vez a partir do dropdown localizado perto do canto superior esquerdo do aplicativo. Por conveniência, a lista de projetos é filtrada e é classificada com os projetos recentemente utilizados mostrados no topo. Ao selecionar um projeto, o número de entidades de cada tipo que estão associadas a este projeto é exibido na seção de fluxo de trabalho da barra de navegação do lado esquerdo. Em seguida, o usuário pode clicar em qualquer um dos tipos de entidades de fluxo de trabalho (por exemplo, Sessões de Microscopia) para exibir uma lista dessas entidades dentro do projeto selecionado (Figura 4). Esta lista consiste, para cada entidade, de um rótulo, data e hora de criação, o nome do usuário que a criou, uma indicação de se algum comentário foi feito sobre essa entidade, e até seis campos de metadados principais (por exemplo, para cada Sessão de Microscopia: Grade, número de imagens, horários de partida e acabamento e quais microscópio e Detector foram usados). A seleção de uma das entidades listadas abre uma página de detalhes listando todas as informações disponíveis para este item, incluindo uma lista de resumo de todas as entidades ancestrais (por exemplo, para uma Sessão de Microscopia, sua Grade e Amostra pai estão listadas). Isso permite uma navegação muito rápida através da “linhagem” de uma entidade, por exemplo, permitindo a navegação de um único clique a partir de um modelo atômico para os detalhes da Amostra(Figura 5). Além disso, qualquer entidade no gP2S pode ser comentada, selecionando “Comentários” na parte superior direita de sua página de detalhes, inserindo um comentário de texto livre e anexando opcionalmente um ou mais arquivos. Preparação da amostraNa primeira etapa do fluxo de trabalho, descreva a Amostra. Para isso, primeiro defina pelo menos um componente: Proteína ou Ligante. Adicionar uma nova proteína requer apenas um rótulo de proteína, mas para ajudar a descrever melhor a proteína adicione um ID PUR (para identificador de purificação). Este campo aceita qualquer texto e pode, por exemplo, conter um número de lote/lote ou servir como um lugar para um rótulo de código de barras. Se o gP2S foi personalizado para se integrar a um sistema de registro de proteínas (ver Discussão), o ID PUR pode ser validado automaticamente e usado para recuperar e exibir informações detalhadas sobre esse lote de proteínas. Para Ligands, um rótulo e concentração de estoque são informações obrigatórias. Todos os outros campos são opcionais e incluem: conceito (código de barras, nome comum ou outro identificador de ligantes) e identificador de lote/lote. Novamente, se o gP2S tiver sido configurado para se integrar a um sistema de registro de ligantes, o conceito e os identificadores de lote podem ser usados para buscar e exibir dados armazenados externamente descrevendo o ligante (por exemplo, sua estrutura química, resultados de ensaio). Uma Amostra é definida por qualquer combinação de Proteínas e Ligantes e suas concentrações finais. Opcionalmente, especifique outros detalhes experimentais da amostra, como tempo de incubação e temperatura, buffer e uma descrição do protocolo de texto livre. Preparação da gradeQuando a amostra estiver pronta, navegue até grades. Na lista, sob o rótulo de cada Grade, encontre uma ou duas tags coloridas que indiquem o tipo de grade (crio ou mancha) e se essa grade está disponível para uso. Para criar uma nova Grade, selecione Criar nova grade. Digite um rótulo, selecione o tipo de grade e o protocolo de tratamento de superfície (por exemplo, descarga de brilho) utilizados. Em seguida, indique se prepara uma grade de manchas criogenada ou negativa e selecione um dos protocolos de preparação pré-configurados da lista suspensa, que é preenchido com Protocolos de Manchas Negativas ou Protocolos de Vitrificação, dependendo do tipo de preparação da grade selecionado anteriormente. Em seguida, selecione a amostra apropriada da lista suspensa e use um interruptor de alternância para indicar se a amostra permanece disponível (descrita com mais detalhes abaixo). Se optar por diluir ou concentrar a amostra selecionada, indique-a usando o alternador “diluído/concentrado?” e especifique o fator de diluição ou concentração relevante. Especifique o volume aplicado na grade (em μL) e, opcionalmente, também pode registrar um tempo de incubação. Finalmente, defina o local de armazenamento da Grade. Para grades de manchas negativas, registique a etiqueta/número da caixa de armazenamento e a posição da Grade dentro da caixa. Para grades criogênicos, primeiro selecione um dispositivo de armazenamento da lista e, em seguida, forneça informações para os campos disponíveis e apropriados (cilindro, tubo e/ou caixa, dependendo das propriedades do Dispositivo de Armazenamento Cryo previamente definidas nas Configurações). As partes do fluxo de trabalho descritas acima, Samples and Grids, fazem parte de um sistema de gerenciamento de estoque. Este recurso acompanha se os componentes ainda estão disponíveis para uso. Uma proteína ou Ligante pode ser indisponível a partir do nível de amostra. Ao criar uma Amostra, selecionar “última gota” para qualquer um dos componentes dessa amostra marca esses componentes como indisponíveis para uso futuro: eles não estarão mais disponíveis na lista de downloads e não serão marcados pela tag “Disponível” na exibição da lista. Uma amostra selecionada pode ser marcada como indisponível usando um dos dois interruptores – “Disponível para fabricação de grade?” (em Amostras) ou “A amostra está disponível para uso posterior?” (sob grades). Para gerenciar a disponibilidade da rede, use o alternador “Grade devolvida ao armazenamento?” (em Microscopia Sessions). Por padrão, este valor é definido como “Sim” para todas as grades de manchas negativas e para “Não” para grades crioEM. recolha de dadosUma vez que as grades sejam registradas, registre experimentos de coleta de dados criando Sessões de Microscopia no gP2S. A Sessão de Microscopia é a entidade experimental mais complexa rastreada pelo aplicativo e está organizada em quatro seções: informações básicas, configurações de microscópio, configurações de exposição e controle de microscópio. A primeira seção contém informações básicas: um rótulo de Sessão de Microscopia, suas datas e horários de início e término, o que grade foi imageado, qual microscópio, detector e suporte de amostra (se aplicável) foram usados e quantas imagens foram coletadas. Ao criar uma nova Sessão de Microscopia, o sistema preenche automaticamente a data e a hora de início. A data e a hora de término são opcionais. Isso ocorre porque uma Sessão pode ser registrada no sistema enquanto o experimento ainda está em andamento e, portanto, seu tempo final não seria precisamente conhecido. Se a data e a hora de término não forem conhecidas, digite-a manualmente ou use o botão “agora” para digitar a data e a hora atuais. Outra maneira é aproveitar o fato de que o gP2S não permite mais de uma sessões de microscopia inacabadas em qualquer microscópio. Iniciar uma nova Sessão de Microscopia no mesmo Microscópio marca automaticamente qualquer sessão iniciada anteriormente como terminada. Na próxima etapa, escolha a Grade. A lista suspensa terá todas as grades disponíveis no projeto atual. Após a escolha de uma Grade, algumas de suas informações básicas serão vistas: quem a criou e quando, e qual amostra foi aplicada a ela. Dependendo do tipo de grade selecionada, a Sessão de Microscopia será marcada como “mancha” ou “crio” na exibição da lista. Por padrão, o Microscópio mais recentemente usado no projeto atual é pré-selecionado. Se um microscópio específico tiver um mecanismo de inserção de amostra definido como um carregador automático, essas são as informações exibidas como o Suporte de Amostra. No entanto, se o Microscópio selecionado exigir o uso de suportes de entrada laterais, selecione o titular usado na lista de Suportes de Amostra configurados para trabalhar com este microscópio (se a grade selecionada for uma grade criogenada, apenas os detentores capazes de crio são listados). A segunda seção de um formulário de Sessão de Microscopia contém informações sobre configurações de microscópio, como tensões de extração e aceleração, lente de arma, diâmetro da abertura C2, abertura objetiva e largura da fenda do filtro de energia. Durante o uso de rotina, essas configurações raramente são alteradas porque os usuários geralmente não têm que se desviar dos valores padrão. A terceira seção da Sessão de Microscopia contém informações sobre as configurações de exposição. Nesta seção são registrados os seguintes metadados: ampliação (tamanho do pixel), tamanho da mancha, diâmetro da área iluminada, duração da exposição e se nanoprobe, modo de contagem, fracionamento de dose e super resolução foram usados (modo de contagem, fracionamento de dose e configurações de super resolução só são habilitadas se o Detector selecionado tiver essas características). Se for utilizado fracionamento de dose, o número de quadros e a taxa de exposição também são registrados. Para conveniência, uma série de parâmetros experimentalmente importantes são calculados na mosca e exibidos dentro da forma: o tamanho final do pixel da imagem (Å), taxa de exposição (elétrons/Å2/s), exposição total (elétrons/Å2),duração do quadro (s) e exposição por quadro (elétron/Å2). A quarta e última seção da Sessão de Microscopia pode ser usada para registrar o subfoco mínimo e máximo de alvo, e o número de exposições por buraco. Embora as Sessões de Microscopia no gP2S possam ser usadas para registrar qualquer tipo de trabalho de microscopia, seja para fins de triagem ou coleta de dados, descobrimos que é suficiente e mais eficiente pedir aos usuários que se concentrem no registro de sessões de coleta de dados, e que sessões de triagem, em que uma grade é apenas brevemente inspecionada para controle de qualidade não precisam necessariamente ser registradas como Sessões de Microscopia. Processamento de imagensO trabalho de processamento de imagens é registrado em gP2S como entidades de Sessão de Processamento. Cada Sessão de Processamento está relacionada a uma ou mais sessão de microscopia, que deve ser selecionada a partir de uma lista suspensa. Indique quais pacotes de software (programas e versões) foram utilizados, o número de micrografos e o número de partículas colhidas. Opcionalmente, registo o nome do diretório do processamento. Deposição do mapaUma vez que uma ou mais reconstruções tridimensionais tenham sido obtidas, os Mapas podem ser depositados em gP2S. Cada Mapa está associado a uma Sessão de Processamento, e consiste no arquivo de mapa real (tipicamente um arquivo formatado por MRC, mas o gP2S permite qualquer tipo de arquivo) e metadados principais: tamanho do pixel (Å), nível de isocontour recomendado para renderização de superfície, qual simetria é aplicada, número de imagens usadas para criar o mapa e a resolução estimada : em suas melhores e piores partes, bem como a resolução global média. Os mapas podem estar associados entre si usando os seguintes tipos de relacionamentos: versões filtradas, mascaradas, reamostradas ou refinadas. Ao registrar tal associação, selecione o tipo de relacionamento (por exemplo, “é versão filtrada de ” ou “tem versão filtrada”). Deposição de modeloUma vez obtido um modelo atômico, ele pode ser depositado na seção modelo do gP2S para o projeto relevante. O recurso Modelo na primeira versão do gP2S é barebones: além do arquivo modelo real (tipicamente um arquivo PDB ou mmCIF), apenas a resolução (em Å) e o Mapa (ou lista de Mapas) do qual o modelo foi derivado, são necessários. Além disso, é possível indicar que um Modelo é uma versão refinada de um modelo previamente depositado. Recursos adicionais, incluindo validação de modelos, estão em desenvolvimento e podem ser adicionados à versão de código aberto do gP2S no futuro. RelatóriosPode ser necessário gerar documentos sumários a serem distribuídos aos colaboradores, que podem não ter acesso ao gP2S ou serem arquivados em um sistema de arquivos. o gP2S fornece uma funcionalidade de relatório para este fim, disponível através de um ícone de impressora no canto superior direito de cada página de visualização de detalhes da entidade. Isso gera um arquivo PDF imprimível que inclui todos os metadados descrevendo a entidade e cada uma de suas entidades ancestrais, incluindo todos os comentários. Este recurso é particularmente valioso após a deposição do modelo, uma vez que todos os dados e metadados traçando a linhagem do modelo atômico final todo o caminho de volta para os lotes de ligantes de proteínas específicas e pequenas moléculas via Microscopia Session(s) e Grid(s) estarão disponíveis em um único documento. Figura 1. gP2S rodando em um iPad em um banco de laboratório de vitrificação. A interface do usuário foi projetada para operação usando telas sensíveis ao toque, o que facilita o uso em laboratório e a entrada precisa de metadados. Clique aqui para ver uma versão maior desta figura. Figura 2: arquitetura do sistema gP2S. o gP2S segue uma organização clássica de três níveis e conta com dois servidores de banco de dados para armazenamento de dados e um servidor LDAP para autenticação do usuário. Clique aqui para ver uma versão maior desta figura. Figura 3: O modelo de dados gP2S. As entidades são retratadas como retângulos (laranja escuro para entidades de fluxo de trabalho, laranja para equipamentos e protocolos, amarelo para outros tipos de entidades), e suas relações são (um para um, um para muitos, muitos para muitos) denotados por linhas contínuas. Clique aqui para ver uma versão maior desta figura. Figura 4. Visualização da lista de sessões de microscopia. Nesta visão, todas as Sessões de Microscopia registradas no projeto selecionado (“CARD9” nesta captura de tela) estão listadas. Uma etiqueta verde ou roxa diferencia entre a temperatura ambiente (mancha negativa) e as Sessões de Microscopia criogênica, e alguns metadados-chave descrevendo cada sessão são listados (por exemplo, o usuário que a registrou, na extrema direita). Clicar no nome de uma Sessão de Microscopia abre uma visão detalhada dessa Sessão (uma visão detalhada de um modelo é mostrada na Figura 5). Clique aqui para ver uma versão maior desta figura. Figura 5. Visualização de detalhes do modelo. A parte superior da página mostra metadados disponíveis para o modelo selecionado. O painel de comentários à direita pode ser escondido clicando na cruz (canto superior direito) ou no “Comentários (1)” à esquerda. Abaixo, um conjunto de ícones permite a geração de um relatório PDF (ícone da impressora, ver texto principal), edição da entrada (ícone de lápis) ou duplicação (ícone de retângulos duplos). A parte inferior da página contém uma lista de estrutura de todas as entidades das quais este Modelo é descendente, de Amostras a Mapas. Clique aqui para ver uma versão maior desta figura. Nome da biblioteca ou estrutura tipo Versão Apacheds Servidor LDAP 0.7.0 estivador ferramenta de desenvolvimento n/a elemento biblioteca 1.4.10 hibernar biblioteca 5.0.12 Java linguagem de programação 1.8+ JavaScript linguagem de programação EcmaScript 2017 JUnit biblioteca 4.12 karma biblioteca 1.4.1 especialista ferramenta de desenvolvimento 3+ MongoDB Servidor DB 4.0.6 Banco de dados MySQL Servidor DB 5.7 Nó.js estrutura 6.9.1 SASS (nó-sass) biblioteca 4.5.3 SpringBoot estrutura 1.3 Swagger UI biblioteca 2.6.1 gato servidor de aplicativos 8.5.15 Vue.js estrutura 2.4.2 vue-cli ferramenta de desenvolvimento 2.6.12 Mesa 1. Bibliotecas e frameworks usados pelo gP2S

Discussion

Quando usado de forma adequada e consistente, o gP2S ajuda a alcançar a manutenção adequada dos metadados de alta qualidade, aplicando o registro de metadados experimentais críticos usando modelos de dados estruturados e vocabulários definidos, mas o valor agregado disso só é totalmente realizado quando um alto nível de conformidade é alcançado em laboratório. O protocolo acima não cobre como conseguir isso. Descobrimos que uma técnica eficaz de aplicação era fazer com que os operadores de microscópio se recusassem a coletar dados em redes não registradas no gP2S. Isso levou a conformidade muito rapidamente e estabeleceu o terreno para o surgimento, ao longo dos meses seguintes, de um grande corpo de detalhes experimentais detalhados e precisos e memória corporativa. Após alguns meses de uso, o valor do corpus de metadados armazenados no gP2S tornou-se tão óbvio para a maioria dos usuários que a conformidade permaneceu alta sem intervenção explícita.

Aproveitar totalmente essa memória coletiva requer que os metadados armazenados no gP2S sejam acessíveis a sistemas externos e facilmente associados aos dados experimentais (micrografos) e resultados (mapas e modelos). O protocolo acima não descreve como integrar o gP2S com outros sistemas de informática e processamento de dados. As mais simples são as integrações potenciais através da API REST do gP2S, que não requerem nenhuma modificação do gP2S. Por exemplo, cada computador que controla nossos detectores de coleta de dados executa um script que consulta periodicamente o ponto final do gP2S “getItemByMicroscope” sob o controlador REST de gerenciamento de sessão de microscopia, para verificar se uma Sessão de Microscopia está em andamento em seu microscópio. Se assim for, o script recupera do gP2S o nome apropriado do diretório de armazenamento de dados (conforme configurado na página Configurações, veja acima) e cria um diretório no dispositivo local de armazenamento de dados usando esse nome. Isso garante a nomeação sistemática de diretórios de armazenamento de dados e reduz o risco de erro devido a erros de digitação.

Embora tenham sido comentadas na fonte da versão pública do gP2S, outras integrações envolvendo os dados de sistemas externos que consomem gP2S também são possíveis. Em nosso laboratório, nossa implantação do gP2S integra-se a (i) um sistema de gerenciamento de projetos, para que cada projeto configurado no gP2S possa ser vinculado a um projeto de portfólio em toda a empresa, e os metadados do portfólio possam ser exibidos dentro do gP2S; (ii) um sistema de registro de proteínas, de modo que cada proteína adicionada ao gP2S esteja vinculada, através de um identificador armazenado localmente, a um conjunto completo de registros detalhando a procedência da proteína, incluindo detalhes da biologia molecular relevante, sistema de expressão e purificação; (iii) um sistema de gerenciamento composto de moléculas pequenas, permitindo que o gP2S exiba informações-chave sobre cada ligante, como sua estrutura química. As modificações de código necessárias para habilitar essas integrações estão descritas na seção “Integração” do documento README-BUILD.md disponível no repositório gP2S (https://github.com/arohou/gP2S).

A versão atual do gP2S tem limitações, a primeira delas é o modelo de dados excessivamente simplista e o frontend para deposição de estrutura (Modelo). Isso foi intencionalmente deixado em um estado de “ossos nus” na versão lançada do gP2S porque um recurso de deposição e validação de estrutura completa está atualmente em desenvolvimento, juntamente com o suporte para cristalografia de raios-X. Outra decisão de design foi não implementar nenhum sistema de privilégio ou permissão: todos os usuários do gP2S têm acesso igual aos seus recursos e dados. Isso pode torná-lo uma má escolha para instalações que atendem grupos de usuários com interesses concorrentes e requisitos de confidencialidade, mas não era uma preocupação para nossa instalação.

O desenvolvimento da nossa versão interna do gP2S está em andamento e esperamos que a versão de código aberto descrita aqui seja útil para outros grupos crioemoEM, e que alguns possam contribuir com sugestões ou melhorias de código no futuro. Desenvolvimentos futuros de alto valor poderiam, por exemplo, focar em integrações com equipamentos de laboratório (robôs de vitrificação, microscópios eletrônicos), software (por exemplo, para coletar metadados de processamento de imagens) e repositórios públicos externos (por exemplo, para facilitar depoimentos estruturais).

A coleta sistemática de metadados de alta qualidade possibilitados pelo uso rotineiro de gP2S no laboratório e na instalação crioEM pode ter um impacto significativo e positivo na capacidade de processar vários projetos em paralelo ao longo de um período de anos. À medida que grupos e instalações crioEM cada vez mais compartilhadas e centralizadas são estabelecidas, antecipamos a necessidade de sistemas de gerenciamento de informações, como o gP2S, continuar a crescer.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Os autores agradecem a todos os outros membros da equipe de desenvolvimento do GP2S que trabalharam no projeto desde a sua criação: Rafał Udziela, Cezary Krzyżanowski, Przemysław Stankowski, Jacek Ziemski, Piotr Suchcicki, Karolina Pająk, Ewout Vanden Eyden, Damian Mierzwiński, Michał Wojtkowski, Piotr Pikusa, Anna Surdacka, Kamil Łuczak e Artur Kusak. Agradecemos também a Raymond Ha e Claudio Ciferri por ajudarem a montar a equipe e moldar o projeto.

Materials

n/a n/a n/a n/a

References

  1. Cheng, Y., Grigorieff, N., Penczek, P. A., Walz, T. A Primer to Single-Particle Cryo-Electron Microscopy. Cell. 161 (3), 438-449 (2015).
  2. . High-End Cryo-EMs Worldwide Available from: https://www.google.com/maps/d/u/0/viewer?mid=1eQ1r8BiDYfaK7D1S9EeFJEgkLggMyoaT (2021)
  3. Renaud, J. -. P., et al. Cryo-EM in drug discovery: achievements, limitations and prospects. Nature Reviews Drug Discovery. 17 (7), 471-492 (2018).
  4. Alewijnse, B., et al. Best practices for managing large CryoEM facilities. Journal of Structural Biology. 199 (3), 225-236 (2017).
  5. Rees, I., Langley, E., Chiu, W., Ludtke, S. J. EMEN2: An Object Oriented Database and Electronic Lab Notebook. Microscopy and Microanalysis. 19 (1), 1-10 (2013).
  6. Delagenière, S., et al. ISPyB: an information management system for synchrotron macromolecular crystallography. Bioinformatics. 27 (22), 3186-3192 (2011).
  7. dela Rosa-Trevín, J. M., et al. Scipion: A software framework toward integration, reproducibility and validation in 3D electron microscopy. Journal of Structural Biology. 195 (1), 93-99 (2016).
  8. . EMPIAR deposition manual Available from: https://www.ebi.ac.u/pdbe/emdb/empiar/depostion/manual/#manScipion (2021)
  9. Iudin, A., Korir, P. K., Salavert-Torres, J., Kleywegt, G. J., Patwardhan, A. EMPIAR: a public archive for raw electron microscopy image data. Nature Methods. 13 (5), 387-388 (2016).
  10. . Vue.js Available from: https://vuejs.org (2021)
  11. . Spring Boot Available from: https://spring.io/projects/spring-boot (2021)
  12. . Lightweight Directory Access Protocol Available from: https://ldap.com (2021)
  13. . Vue CLI Available from: https://cli.vuejs.org (2021)
  14. . Element, A Desktop UI Library Available from: https://element.eleme.io (2021)
  15. . Sass Available from: https://sass-lang.com/ (2021)
  16. . Node.js Available from: https://nodejs.org/ (2021)
  17. . Java Available from: https://www.java.com/ (2021)
  18. . Hibernate Available from: https://hibernate.org (2021)
  19. . Swagger UI Available from: https://swagger.io/tools/swagger-ui/ (2021)
  20. . JUnit Available from: https://junit.org/junit4/ (2020)
  21. . Apache Maven Project Available from: https://maven.apache.org/ (2020)
  22. . MySQL Available from: https://www.mysql.com/ (2020)
  23. . mongoDB Available from: https://www.mongodb.com/ (2020)
  24. . Apache license, version 2.0 Available from: https://www.apache.org/licenses/license-2.0 (2004)
  25. . mysql Docker Official Image Available from: https://hub.docker.com/_/mysql (2021)
  26. . mongo Docker Official Image Available from: https://hub.docker.com/_/mongo (2021)
  27. . openmicroscopy apacheds Available from: https://hub.docker.com/r/openmicroscopy/apacheds (2021)

Play Video

Cite This Article
Wypych, D., Kierecki, D., Golebiowski, F. M., Rohou, A. gP2S, an Information Management System for CryoEM Experiments. J. Vis. Exp. (172), e62377, doi:10.3791/62377 (2021).

View Video