L’analyse d’une seule particule en cryo-microscopie électronique est l’une des principales techniques utilisées pour déterminer la structure des ensembles biologiques à haute résolution. Scipion fournit les outils pour créer l’ensemble du pipeline afin de traiter les informations acquises par le microscope et de réaliser une reconstruction 3D du spécimen biologique.
La cryo-microscopie électronique est devenue l’un des outils les plus importants de la recherche biologique pour révéler l’information structurelle des macromolécules à une résolution quasi atomique. Dans l’analyse d’une seule particule, l’échantillon vitrifié est imagé par un faisceau d’électrons et les détecteurs à l’extrémité de la colonne du microscope produisent des films de cet échantillon. Ces films contiennent des milliers d’images de particules identiques dans des orientations aléatoires. Les données doivent passer par un flux de travail de traitement d’image avec plusieurs étapes pour obtenir le volume final reconstruit en 3D. L’objectif du flux de travail de traitement d’images est d’identifier les paramètres d’acquisition pour pouvoir reconstruire le spécimen à l’étude. Scipion fournit tous les outils pour créer ce workflow en utilisant plusieurs packages de traitement d’image dans un cadre intégratif, permettant également la traçabilité des résultats. Dans cet article, l’ensemble du flux de travail de traitement d’image dans Scipion est présenté et discuté avec des données provenant d’un cas de test réel, donnant tous les détails nécessaires pour passer des films obtenus par le microscope à une reconstruction 3D finale haute résolution. En outre, la puissance de l’utilisation d’outils de consensus qui permettent de combiner des méthodes et de confirmer les résultats à chaque étape du flux de travail, améliorant ainsi la précision des résultats obtenus, est discutée.
En cryo-microscopie électronique (cryo-EM), l’analyse de particules uniques (SPA) d’échantillons vitrifiés congelés-hydratés est l’une des variantes d’imagerie les plus largement utilisées et les plus réussies pour les macromolécules biologiques, car elle permet de comprendre les interactions moléculaires et la fonction des ensembles biologiques1. C’est grâce aux progrès récents de cette technique d’imagerie qui ont donné lieu à la « révolution de la résolution »2 et ont permis la détermination réussie de structures 3D biologiques avec une résolution quasi atomique. Actuellement, la résolution la plus élevée atteinte dans SPA cryo-EM était de 1,15 Å pour l’apoferritine3 (entrée EMDB: 11668). Ces avancées technologiques comprennent des améliorations dans la préparation des échantillons4, l’acquisition d’images5 et les méthodes de traitement des images6. Cet article est axé sur ce dernier point.
En bref, l’objectif des méthodes de traitement d’image est d’identifier tous les paramètres d’acquisition pour inverser le processus d’imagerie du microscope et récupérer la structure 3D du spécimen biologique étudié. Ces paramètres sont le gain de la caméra, le mouvement induit par le faisceau, les aberrations du microscope (principalement la mise au point), l’orientation angulaire 3D et la translation de chaque particule, et l’état conformationnel en cas d’avoir un échantillon avec des changements conformationnels. Cependant, le nombre de paramètres est très élevé et cryo-EM nécessite l’utilisation d’images à faible dose pour éviter les dommages causés par les radiations, ce qui réduit considérablement le rapport signal/bruit (SNR) des images acquises. Ainsi, le problème ne peut pas être résolu sans équivoque et tous les paramètres à calculer uniquement peuvent être des estimations. Tout au long du flux de travail de traitement d’image, les paramètres corrects doivent être identifiés, en éliminant les paramètres restants pour finalement obtenir une reconstruction 3D haute résolution.
Les données générées par le microscope sont rassemblées dans des images. En simplifiant, une image contient le nombre d’électrons qui sont arrivés à une position particulière (pixel) dans l’image, chaque fois que des détecteurs de comptage d’électrons sont utilisés. Dans un champ de vision particulier, plusieurs images sont collectées et c’est ce qu’on appelle un film. Comme de faibles doses d’électrons sont utilisées pour éviter les dommages causés par le rayonnement qui pourraient détruire l’échantillon, le SNR est très faible et les images correspondant au même film doivent être moyennées pour obtenir une image révélant des informations structurelles sur l’échantillon. Cependant, non seulement une moyenne simple est appliquée, mais l’échantillon peut subir des décalages et d’autres types de mouvements pendant le temps d’imagerie en raison du mouvement induit par le faisceau qui doit être compensé. Les cadres compensés par décalage et moyennés sont à l’origine d’une micrographie.
Une fois les micrographies obtenues, nous devons estimer les aberrations introduites par le microscope pour chacune d’elles, appelées fonction de transfert de contraste (CTF), qui représente les changements de contraste de la micrographie en fonction de la fréquence. Ensuite, les particules peuvent être sélectionnées et extraites, ce qui s’appelle la cueillette de particules. Chaque particule doit être une petite image contenant une seule copie du spécimen étudié. Il existe trois familles d’algorithmes pour la sélection de particules: 1) ceux qui n’utilisent qu’un certain paramétrage de base de l’apparence de la particule pour les trouver dans l’ensemble des micrographies (par exemple, la taille des particules), 2) ceux qui apprennent à quoi ressemblent les particules de l’utilisateur ou d’un ensemble préentraîné, et 3) ceux qui utilisent des modèles d’image. Chaque famille a des propriétés différentes qui seront montrées plus tard.
L’ensemble extrait de particules trouvées dans les micrographies sera utilisé dans un processus de classification 2D qui a deux objectifs: 1) nettoyer l’ensemble de particules en éliminant le sous-ensemble contenant des images de bruit pur, des particules qui se chevauchent ou d’autres artefacts, et 2) les particules moyennes représentant chaque classe pourraient être utilisées comme informations initiales pour calculer un volume initial 3D.
Le calcul du volume initial 3D est la prochaine étape cruciale. Le problème de l’obtention de la structure 3D peut être considéré comme un problème d’optimisation dans un paysage de solutions multidimensionnelles, où le minimum global est le meilleur volume 3D qui représente la structure d’origine, mais plusieurs minima locaux représentant des solutions sous-optimales peuvent être trouvés, et où il est très facile de se faire piéger. Le volume initial représente le point de départ du processus de recherche, de sorte qu’une mauvaise estimation initiale du volume pourrait nous empêcher de trouver le minimum global. Dès le volume initial, une étape de classification 3D permettra de découvrir différents états conformationnels et de nettoyer à nouveau l’ensemble des particules ; l’objectif est d’obtenir une population structurellement homogène de particules. Après cela, une étape de raffinement 3D sera chargée d’affiner les paramètres angulaires et de traduction de chaque particule afin d’obtenir le meilleur volume 3D possible.
Enfin, dans les dernières étapes, la reconstruction 3D obtenue peut être affûtée et polie. L’affûtage est un processus d’augmentation des hautes fréquences du volume reconstruit, et le polissage est une étape pour affiner davantage certains paramètres, comme le CTF ou la compensation de mouvement induit par le faisceau, au niveau des particules. En outre, certaines procédures de validation pourraient être utilisées pour mieux comprendre la résolution obtenue à la fin du flux de travail.
Après toutes ces étapes, les processus de traçage et d’amarrage7 contribueront à donner un sens biologique à la reconstruction 3D obtenue, en construisant des modèles atomiques de novo ou en adaptant des modèles existants. Si une haute résolution est atteinte, ces processus nous indiqueront les positions des structures biologiques, même des différents atomes, dans notre structure.
Scipion8 permet de créer l’ensemble du flux de travail en combinant les packages de traitement d’image les plus pertinents de manière intégrative. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17 et bien d’autres packages peuvent être inclus dans Scipion. En outre, il intègre tous les outils nécessaires pour bénéficier de l’intégration, de l’interopérabilité, de la traçabilité et de la reproductibilité afin de faire un suivi complet de l’ensemble du flux de travail de traitement d’image8.
L’un des outils les plus puissants que Scipion nous permet d’utiliser est le consensus, qui signifie comparer les résultats obtenus avec plusieurs méthodes en une seule étape du traitement, en combinant les informations véhiculées par différentes méthodes pour générer une sortie plus précise. Cela pourrait aider à augmenter les performances et à améliorer la qualité obtenue dans les paramètres estimés. Notez qu’un flux de travail plus simple peut être construit sans l’utilisation de méthodes consensuelles; cependant, nous avons vu la puissance de cet outil22,25 et le flux de travail présenté dans ce manuscrit l’utilisera en plusieurs étapes.
Toutes les étapes qui ont été résumées dans les paragraphes précédents seront expliquées en détail dans la section suivante et combinées dans un flux de travail complet à l’aide de Scipion. En outre, la façon d’utiliser les outils de consensus pour parvenir à un accord plus élevé dans les résultats générés sera montrée. À cette fin, l’exemple de jeu de données du ribosome Plasmodium falciparum 80S a été choisi (entrée EMPIAR: 10028, entrée EMDB: 2660). L’ensemble de données est formé par 600 films de 16 images de taille 4096×4096 pixels à une taille de pixel de 1,34Å prises à un FEI POLARA 300 avec une caméra FEI FALCON II, avec une résolution signalée à EMDB est de 3,2Å18 .
Actuellement, cryo-EM est un outil clé pour révéler la structure 3D des échantillons biologiques. Lorsque de bonnes données sont collectées au microscope, les outils de traitement disponibles nous permettront d’obtenir une reconstruction 3D de la macromolécule étudiée. Le traitement des données Cryo-EM est capable d’atteindre une résolution quasi atomique, ce qui est essentiel pour comprendre le comportement fonctionnel d’une macromolécule et est également crucial dans la découverte de médicaments.
Scipion est un logiciel qui permet de créer l’ensemble du flux de travail en combinant les packages de traitement d’image les plus pertinents de manière intégrative, ce qui contribue à la traçabilité et à la reproductibilité de l’ensemble du flux de travail de traitement d’image. Scipion fournit un ensemble très complet d’outils pour effectuer le traitement; cependant, l’obtention de reconstructions à haute résolution dépend entièrement de la qualité des données acquises et de la manière dont ces données sont traitées.
Pour obtenir une reconstruction 3D haute résolution, la première exigence est d’obtenir de bons films à partir du microscope, qui préservent les informations structurelles à haute résolution. Si ce n’est pas le cas, le workflow ne sera pas en mesure d’extraire des informations haute définition des données. Ensuite, un flux de travail de traitement réussi devrait être capable d’extraire des particules qui correspondent vraiment à la structure et de trouver les orientations de ces particules dans l’espace 3D. Si l’une des étapes du flux de travail échoue, la qualité du volume reconstruit sera dégradée. Scipion permet d’utiliser différents packages dans n’importe quelle étape de traitement, ce qui aide à trouver l’approche la plus adéquate pour traiter les données. De plus, grâce à la disponibilité de nombreux packages, des outils de consensus, qui augmentent la précision en trouvant un accord dans les résultats estimés de différentes méthodes, peuvent être utilisés. En outre, il a été discuté en détail dans la section Résultats représentatifs plusieurs outils de validation et comment identifier des résultats précis et inexacts à chaque étape du flux de travail, pour détecter les problèmes potentiels et comment essayer de les résoudre. Il existe plusieurs points de contrôle le long du protocole qui pourraient aider à réaliser si le protocole fonctionne correctement ou non. Certains des plus pertinents sont: le picking, la classification 2D, l’estimation initiale du volume et l’alignement 3D. La vérification des entrées, la répétition de l’étape avec une méthode différente ou l’utilisation du consensus sont des options disponibles dans Scipion que l’utilisateur peut utiliser pour trouver des solutions lorsque des problèmes apparaissent.
En ce qui concerne les approches précédentes de l’intégration de paquets dans le domaine Cryo-EM, Appion31 est le seul qui permet une intégration réelle de différents progiciels. Cependant, Appion est étroitement lié à Leginon32, un système de collecte automatisée d’images à partir de microscopes électroniques. La principale différence avec Scipion est que le modèle de données et le stockage sont moins couplés. De cette façon, pour créer un nouveau protocole dans Scipion, seul un script Python doit être développé. Toutefois, dans Appion, le développeur doit écrire le script et modifier la base de données sous-jacente. En résumé, Scipion a été développé pour simplifier la maintenance et l’extensibilité.
Nous avons présenté dans ce manuscrit un flux de travail complet pour le traitement Cryo-EM, en utilisant l’ensemble de données de cas réels du ribosome Plasmodium falciparum 80S (entrée EMPIAR: 10028, entrée EMDB: 2660). Les étapes couvertes et discutées ici peuvent être résumées comme l’alignement du film, l’estimation CTF, la sélection des particules, la classification 2D, l’estimation initiale de la carte, la classification 3D, le raffinement 3D, l’évaluation et le post-traitement. Différents packages ont été utilisés et des outils de consensus ont été appliqués dans plusieurs de ces étapes. Le volume final reconstruit en 3D a atteint une résolution de 3 Å et, dans le volume post-traité, certaines structures secondaires peuvent être distinguées, comme les hélices alpha, ce qui aide à décrire comment les atomes sont disposés dans l’espace.
Le flux de travail présenté dans ce manuscrit montre comment Scipion peut être utilisé pour combiner différents packages Cryo-EM de manière simple et intégrative afin de simplifier le traitement et d’obtenir des résultats plus fiables en même temps.
À l’avenir, le développement de nouvelles méthodes et de nouveaux packages continuera de croître et des logiciels comme Scipion pour les intégrer facilement seront encore plus importants pour les chercheurs. Les approches consensuelles seront plus pertinentes même dans ce cas, lorsque de nombreuses méthodes avec des bases différentes seront disponibles, ce qui aidera à obtenir des estimations plus précises de tous les paramètres impliqués dans le processus de reconstruction dans Cryo-EM. Le suivi et la reproductibilité sont essentiels dans le processus de recherche et plus faciles à réaliser avec Scipion grâce à un cadre commun pour l’exécution de flux de travail complets.
The authors have nothing to disclose.
Les auteurs souhaitent reconnaître le soutien économique du ministère espagnol de la Science et de l’Innovation par le biais de subventions: PID2019-104757RB-I00/AEI/10.13039/501100011033, de la « Comunidad Autónoma de Madrid » par le biais d’une subvention: S2017/BMD-3817, Instituto de Salud Carlos III, PT17/0009/0010 (ISCIII-SGEFI/ERDF), de l’Union européenne (UE) et d’Horizon 2020 par le biais d’une subvention: INSTRUCT – ULTRA (INFRADEV-03-2016-2017, Proposition: 731005), EOSC Life (INFRAEOSC-04-2018, Proposition: 824087), iNEXT – Discovery (Proposition : 871037) et HighResCells (ERC – 2018 – SyG, Proposition : 810057). Le projet qui a donné lieu à ces résultats a reçu le soutien d’une bourse de la Fondation « la Caixa » (ID 100010434). Le code de bourse est LCF/BQ/DI18/11660021. Ce projet a reçu un financement du programme de recherche et d’innovation Horizon 2020 de l’Union européenne dans le cadre de la convention de subvention Marie Skłodowska-Curie n° 713673. Les auteurs reconnaissent le soutien et l’utilisation des ressources d’Instruct, un projet Landmark ESFRI.