Il s’agit d’une méthode d’entraînement d’un U-Net multi-coupes pour la segmentation multi-classe de tomogrammes cryo-électroniques en utilisant une partie d’un tomogramme comme entrée d’apprentissage. Nous décrivons comment déduire ce réseau à d’autres tomogrammes et comment extraire des segmentations pour des analyses plus approfondies, telles que la moyenne des sous-tomogrammes et le traçage filamentaire.
La cryotomographie électronique (cryo-ET) permet aux chercheurs d’imager les cellules dans leur état natif et hydraté à la plus haute résolution actuellement possible. La technique présente toutefois plusieurs limites qui rendent l’analyse des données qu’elle génère longue et difficile. La segmentation manuelle d’un seul tomogramme peut prendre de quelques heures à plusieurs jours, mais un microscope peut facilement générer 50 tomogrammes ou plus par jour. Les programmes actuels de segmentation de l’apprentissage profond pour les cryo-ET existent, mais se limitent à segmenter une structure à la fois. Ici, les réseaux neuronaux convolutifs U-Net multi-coupes sont entraînés et appliqués pour segmenter automatiquement plusieurs structures simultanément dans des cryo-tomogrammes. Avec un prétraitement approprié, ces réseaux peuvent être déduits de manière robuste à de nombreux tomogrammes sans avoir besoin de former des réseaux individuels pour chaque tomogramme. Ce flux de travail améliore considérablement la vitesse à laquelle les cryo-tomogrammes électroniques peuvent être analysés en réduisant le temps de segmentation à moins de 30 minutes dans la plupart des cas. En outre, les segmentations peuvent être utilisées pour améliorer la précision du traçage filamentaire dans un contexte cellulaire et pour extraire rapidement les coordonnées pour la moyenne des sous-tomogrammes.
Les développements matériels et logiciels de la dernière décennie ont entraîné une « révolution de résolution » pour la cryo-microscopie électronique (cryo-EM)1,2. Avec des détecteurs 3 meilleurs et plus rapides, des logiciels pour automatiser la collecte de données4,5 et des avancées en matière d’amplification de signal telles que les plaques de phase6, la collecte de grandes quantités de données cryo-EM à haute résolution est relativement simple.
Cryo-ET offre un aperçu sans précédent de l’ultrastructure cellulaire dans un état natif et hydraté 7,8,9,10. La principale limitation est l’épaisseur de l’échantillon, mais avec l’adoption de méthodes telles que le broyage par faisceau d’ions focalisés (FIB), où des échantillons cellulaires et tissulaires épais sont amincis pour la tomographie11, l’horizon de ce qui peut être imagé avec cryo-ET est en constante expansion. Les microscopes les plus récents sont capables de produire bien plus de 50 tomogrammes par jour, et ce taux ne devrait augmenter qu’en raison du développement de systèmes de collecte rapide de données12,13. L’analyse des grandes quantités de données produites par cryo-ET reste un goulot d’étranglement pour cette modalité d’imagerie.
L’analyse quantitative de l’information tomographique nécessite qu’elle soit d’abord annotée. Traditionnellement, cela nécessite une segmentation manuelle par un expert, ce qui prend du temps; Selon la complexité moléculaire contenue dans le cryo-tomogramme, cela peut prendre des heures ou des jours d’attention particulière. Les réseaux de neurones artificiels sont une solution attrayante à ce problème car ils peuvent être formés pour effectuer la majeure partie du travail de segmentation en une fraction du temps. Les réseaux de neurones convolutifs (CNN) sont particulièrement adaptés aux tâches de vision par ordinateur14 et ont récemment été adaptés pour l’analyse des cryotomogrammesélectroniques 15,16,17.
Les CNN traditionnels nécessitent plusieurs milliers d’échantillons d’entraînement annotés, ce qui n’est pas souvent possible pour les tâches d’analyse d’images biologiques. Par conséquent, l’architecture U-Net a excellé dans cet espace18 parce qu’elle s’appuie sur l’augmentation des données pour former avec succès le réseau, minimisant ainsi la dépendance à l’égard de grands ensembles d’entraînement. Par exemple, une architecture U-Net peut être entraînée avec seulement quelques tranches d’un seul tomogramme (quatre ou cinq tranches) et déduite de manière robuste à d’autres tomogrammes sans rééducation. Ce protocole fournit un guide étape par étape pour la formation des architectures de réseaux neuronaux U-Net à segmenter les cryotomographies électroniques dans Dragonfly 2022.119.
Dragonfly est un logiciel développé commercialement utilisé pour la segmentation et l’analyse d’images 3D par des modèles d’apprentissage profond, et il est disponible gratuitement pour un usage académique (certaines restrictions géographiques s’appliquent). Il dispose d’une interface graphique avancée qui permet à un non-expert de tirer pleinement parti des pouvoirs de l’apprentissage profond pour la segmentation sémantique et le débruitage d’images. Ce protocole montre comment prétraiter et annoter des tomogrammes cryo-électroniques dans Dragonfly pour former des réseaux de neurones artificiels, qui peuvent ensuite être déduits pour segmenter rapidement de grands ensembles de données. Il traite et montre brièvement comment utiliser des données segmentées pour une analyse plus approfondie telle que le traçage filamentaire et l’extraction de coordonnées pour la moyenne des sous-tomogrammes.
Ce protocole définit une procédure d’utilisation du logiciel Dragonfly 2022.1 pour former un U-Net multiclasse à partir d’un seul tomogramme, et comment déduire ce réseau à d’autres tomogrammes qui n’ont pas besoin d’être du même ensemble de données. La formation est relativement rapide (peut être aussi rapide que 3-5 minutes par époque ou aussi lente que quelques heures, selon le réseau qui est formé et le matériel utilisé), et le recyclage d’un réseau pour améliorer son apprentissage est intuitif. Tant que les étapes de prétraitement sont effectuées pour chaque tomogramme, l’inférence est généralement robuste.
Un prétraitement cohérent est l’étape la plus critique pour l’inférence d’apprentissage profond. Il existe de nombreux filtres d’imagerie dans le logiciel et l’utilisateur peut expérimenter pour déterminer quels filtres fonctionnent le mieux pour des ensembles de données particuliers; Notez que quel que soit le filtrage utilisé sur le tomogramme d’entraînement, il doit être appliqué de la même manière aux tomogrammes d’inférence. Il faut également veiller à fournir au réseau des informations de formation exactes et suffisantes. Il est essentiel que toutes les fonctionnalités segmentées dans les tranches d’entraînement soient segmentées aussi soigneusement et précisément que possible.
La segmentation des images est facilitée par une interface utilisateur sophistiquée de qualité commerciale. Il fournit tous les outils nécessaires à la segmentation des mains et permet la réaffectation simple des voxels d’une classe à une autre avant la formation et le recyclage. L’utilisateur est autorisé à segmenter manuellement les voxels dans tout le contexte du tomogramme, et ils ont plusieurs vues et la possibilité de faire pivoter le volume librement. De plus, le logiciel offre la possibilité d’utiliser des réseaux multiclasses, qui ont tendance à mieux fonctionner16 et sont plus rapides que la segmentation avec plusieurs réseaux à classe unique.
Il y a, bien sûr, des limites aux capacités d’un réseau neuronal. Les données cryo-ET sont, par nature, très bruyantes et limitées dans l’échantillonnage angulaire, ce qui conduit à des distorsions spécifiques à l’orientation dans des objets identiques21. La formation repose sur un expert pour segmenter les structures avec précision, et un réseau performant est aussi bon (ou aussi mauvais) que les données de formation qui lui sont données. Le filtrage d’image pour amplifier le signal est utile pour le formateur, mais il existe encore de nombreux cas où il est difficile d’identifier avec précision tous les pixels d’une structure donnée. Il est donc important de faire très attention lors de la création de la segmentation de la formation afin que le réseau dispose des meilleures informations possibles pour apprendre pendant la formation.
Ce flux de travail peut être facilement modifié selon les préférences de chaque utilisateur. Bien qu’il soit essentiel que tous les tomogrammes soient prétraités exactement de la même manière, il n’est pas nécessaire d’utiliser les filtres exacts utilisés dans le protocole. Le logiciel dispose de nombreuses options de filtrage d’images, et il est recommandé de les optimiser pour les données particulières de l’utilisateur avant de se lancer dans un grand projet de segmentation couvrant de nombreux tomogrammes. Il existe également un certain nombre d’architectures réseau disponibles à utiliser: un U-Net multi-tranches s’est avéré fonctionner le mieux pour les données de ce laboratoire, mais un autre utilisateur pourrait trouver qu’une autre architecture (telle qu’un U-Net 3D ou un capteur 3D) fonctionne mieux. L’assistant de segmentation fournit une interface pratique pour comparer les performances de plusieurs réseaux à l’aide des mêmes données d’apprentissage.
Des outils comme ceux présentés ici feront de la segmentation manuelle des tomogrammes complets une tâche du passé. Avec des réseaux neuronaux bien entraînés et robustement inférables, il est tout à fait possible de créer un flux de travail où les données tomographiques sont reconstruites, traitées et entièrement segmentées aussi rapidement que le microscope peut les collecter.
The authors have nothing to disclose.
Cette étude a été financée par le Penn State College of Medicine et le Département de biochimie et de biologie moléculaire, ainsi que par la subvention 4100079742-EXT du Tobacco Settlement Fund (TSF). Les services et instruments CryoEM et CryoET Core (RRID:SCR_021178) utilisés dans ce projet ont été financés, en partie, par le Pennsylvania State University College of Medicine par l’intermédiaire du Bureau du vice-doyen à la recherche et des étudiants diplômés et du ministère de la Santé de Pennsylvanie à l’aide de Tobacco Settlement Funds (CURE). Le contenu relève de la seule responsabilité des auteurs et ne représente pas nécessairement les opinions officielles de l’Université ou du Collège de médecine. Le ministère de la Santé de Pennsylvanie décline spécifiquement toute responsabilité pour toute analyse, interprétation ou conclusion.
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |