Un protocole de segmentation d’objets pour les images orbitales de tomodensitométrie (CT) est introduit. Les méthodes d’étiquetage de la réalité terrestre des structures orbitales en utilisant la super-résolution, l’extraction du volume d’intérêt des images CT et la modélisation de la segmentation multi-étiquettes à l’aide de U-Net séquentiel 2D pour les images CT orbitales sont expliquées pour l’apprentissage supervisé.
Récemment, les modèles de segmentation basés sur l’apprentissage profond ont été largement appliqués dans le domaine ophtalmique. Cette étude présente le processus complet de construction d’un modèle de segmentation orbitale par tomodensitométrie (TDM) basé sur U-Net. Pour l’apprentissage supervisé, un processus laborieux et chronophage est nécessaire. La méthode d’étiquetage avec une super-résolution pour masquer efficacement la réalité du terrain sur les images CT orbitales est introduite. En outre, le volume d’intérêt est recadré dans le cadre du prétraitement de l’ensemble de données. Ensuite, après avoir extrait les volumes d’intérêt des structures orbitales, le modèle de segmentation des structures clés de la CT orbitale est construit à l’aide de U-Net, avec des tranches 2D séquentielles qui sont utilisées comme entrées et deux mémoires courtes convolutives bidirectionnelles à long terme pour conserver les corrélations inter-tranches. Cette étude se concentre principalement sur la segmentation du globe oculaire, du nerf optique et des muscles extraoculaires. L’évaluation de la segmentation révèle l’application potentielle de la segmentation aux images CT orbitales à l’aide de méthodes d’apprentissage profond.
L’orbite est un espace petit et compliqué d’environ 30,1cm3 qui contient des structures importantes telles que le globe oculaire, les nerfs, les muscles extraoculaires, les tissus de soutien et les vaisseaux pour la vision et les mouvements du globe oculaire1. Les tumeurs orbitaires sont des excroissances tissulaires anormales dans l’orbite, et certaines d’entre elles menacent la vision ou le mouvement du globe oculaire des patients, ce qui peut entraîner un dysfonctionnement fatal. Pour conserver la fonction visuelle des patients, les cliniciens doivent décider des modalités de traitement en fonction des caractéristiques de la tumeur, et une biopsie chirurgicale est généralement inévitable. Cette zone compacte et encombrée rend souvent difficile pour les cliniciens d’effectuer une biopsie sans endommager la structure normale. L’analyse d’images de pathologie basée sur l’apprentissage profond pour déterminer l’état de l’orbite pourrait aider à éviter des blessures inutiles ou évitables aux tissus orbitaires lors de la biopsie2. Une méthode d’analyse d’images pour les tumeurs orbitaires est la détection et la segmentation des tumeurs. Cependant, la collecte de grandes quantités de données pour les images CT contenant des tumeurs orbitaires est limitée en raison de leur faible incidence3. L’autre méthode efficace pour le diagnostic tumoralcomputationnel 4 consiste à comparer la tumeur aux structures normales de l’orbite. Le nombre d’images CT orbitaires dans les structures normales est relativement plus important que celui des tumeurs. Par conséquent, la segmentation des structures orbitales normales est la première étape pour atteindre cet objectif.
Cette étude présente l’ensemble du processus de segmentation de la structure orbitale basée sur l’apprentissage profond, y compris la collecte de données, le prétraitement et la modélisation ultérieure. L’étude est destinée à être une ressource pour les cliniciens intéressés à utiliser la méthode actuelle pour générer efficacement un ensemble de données masquées et pour les ophtalmologistes qui ont besoin d’informations sur le prétraitement et la modélisation des images CT orbitales. Cet article présente une nouvelle méthode de segmentation de structure orbitale et de U-Net séquentiel, un modèle de segmentation 2D séquentielle basé sur une solution d’apprentissage profond représentative dans U-Net pour la segmentation d’images médicales. Le protocole décrit la procédure détaillée de segmentation de l’orbite, y compris (1) comment utiliser un outil de masquage pour la réalité au sol de la segmentation de la structure orbitale, (2) les étapes requises pour le prétraitement des images orbitales, et (3) comment entraîner le modèle de segmentation et évaluer les performances de segmentation.
Pour l’apprentissage supervisé, quatre ophtalmologistes expérimentés certifiés depuis plus de 5 ans ont annoté manuellement les masques du globe oculaire, du nerf optique et des muscles extraoculaires. Tous les ophtalmologistes ont utilisé le logiciel de masquage (MediLabel, voir le tableau des matériaux), qui utilise la super-résolution pour un masquage efficace sur les tomodensitogrammes. Le logiciel de masquage dispose des fonctionnalités semi-automatiques suivantes: (1) SmartPencil, qui génère des grappes de cartes super pixels avec des valeurs similaires d’intensité d’image5; (2) SmartFill, qui génère des masques de segmentation en calculant la fonction énergétique du premier plan et de l’arrière-plan en cours 6,7; et (3) la correction automatique, qui rend les bordures des masques de segmentation propres et cohérentes avec l’image d’origine. Des exemples d’images des fonctions semi-automatiques sont présentés à la figure 1. Les étapes détaillées du masquage manuel sont fournies dans la section protocole (étape 1).
L’étape suivante est le prétraitement des tomodensitogrammes orbitaux. Pour obtenir les volumes orbitaux d’intérêt (VOI), les zones de l’orbite où le globe oculaire, le muscle et le nerf sont situés dans des conditions normales sont identifiées, et ces zones sont recadrées. Le jeu de données a une haute résolution, avec une résolution voxel de <1 mm dans le plan et une épaisseur de tranche, de sorte que le processus d’interpolation est ignoré. Au lieu de cela, l’écrêtage de fenêtre est effectué au niveau de l’écrêtage 48 HU et de la fenêtre 400 HU. Après le recadrage et l’écrêtage de fenêtre, trois tranches en série des VOI orbitales sont générées pour l’entrée8 du modèle de segmentation. La section du protocole (étape 2) fournit des détails sur les étapes de prétraitement.
U-Net9 est un modèle de segmentation largement utilisé pour les images médicales. L’architecture U-Net comprend un codeur, qui extrait les caractéristiques des images médicales, et un décodeur, qui présente sémantiquement les caractéristiques discriminantes. Lors de l’utilisation de U-Net pour les tomodensitométries, les couches convolutives sont constituées de filtres 3D10,11. C’est un défi car le calcul des filtres 3D nécessite une grande capacité de mémoire. Pour réduire les besoins en mémoire pour 3D U-Net, SEQ-UNET8, dans lequel un ensemble de tranches 2D séquentielles sont utilisées dans le U-Net, a été proposé. Pour éviter la perte de corrélations spatio-temporelles entre les tranches d’image 2D de la tomodensitométrie 3D, deux mémoires courtes à long terme convolutives bidirectionnelles (C-LSTM)12 sont utilisées dans U-Net de base. Le premier C-LSTM bidirectionnel extrait les corrélations entre tranches à la fin du codeur. Le deuxième C-LSTM bidirectionnel, après la sortie du décodeur, transforme les informations de segmentation sémantique dans les dimensions de la séquence de tranches en une segmentation d’image unique. L’architecture de SEQ-UNET est illustrée à la figure 2. Les codes d’implémentation sont disponibles à github.com/SleepyChild1005/OrbitSeg, et l’utilisation des codes est détaillée dans la section protocole (étape 3).
L’analyse d’images médicales basée sur l’apprentissage profond est largement utilisée pour la détection des maladies. Dans le domaine de l’ophtalmologie, les modèles de détection et de segmentation sont utilisés dans la rétinopathie diabétique, le glaucome, la dégénérescence maculaire liée à l’âge et la rétinopathie du prématuré. Cependant, d’autres maladies rares en dehors de celles en ophtalmologie n’ont pas été étudiées en raison de l’accès limité à de grands ensembles de données publiques ouvertes pour l’analyse de l’apprentissage profond. Lors de l’application de cette méthode dans des situations où aucun jeu de données public n’est disponible, l’étape de masquage, qui est une tâche laborieuse et chronophage, est inévitable. Cependant, l’étape de masquage proposée (section protocole, étape 1) permet de générer le masquage avec une grande précision en peu de temps. À l’aide de super pixels et d’un remplissage basé sur un réseau neuronal, qui regroupent des pixels similaires dans les propriétés d’image de bas niveau, les cliniciens peuvent étiqueter les masques en cliquant sur les groupes de pixels au lieu de pointer les pixels spécifiques. En outre, les fonctions de correction automatique aident à affiner les processus de masque. L’efficience et l’efficacité de cette méthode aideront à générer plus d’images masquées dans la recherche médicale.
Parmi les nombreuses possibilités de prétraitement, l’extraction des VOI et l’écrêtage de fenêtre sont des méthodes efficaces. Ici, l’extraction des VOI et l’écrêtage de fenêtre sont introduits à l’étape 2 du protocole. Lorsque les cliniciens préparent l’ensemble de données, l’extraction de la VOI de l’ensemble de données donnée est l’étape la plus importante du processus, car la plupart des cas de segmentation se concentrent sur des régions petites et spécifiques de l’ensemble de l’image médicale. En ce qui concerne les VOI, les régions du globe oculaire, du nerf optique et des muscles extraoculaires sont recadrées en fonction de l’emplacement, mais des méthodes plus efficaces pour extraire les VOI ont le potentiel d’améliorer les performances de segmentation14.
Pour la segmentation, SEQ-UNET est utilisé dans l’étude. Les images médicales 3D ont de grands volumes, de sorte que les modèles de réseaux neuronaux profonds nécessitent de grandes capacités de mémoire. Dans SEQ-UNET, le modèle de segmentation est implémenté avec un petit nombre de tranches pour réduire la taille de mémoire requise sans perdre les fonctionnalités des informations 3D.
Le modèle a été formé avec 46 VOI, ce qui n’est pas un grand nombre pour la formation du modèle. En raison du petit nombre d’ensembles de données d’entraînement, la performance de la segmentation du nerf optique et du muscle extraoculaire est limitée. Transfer learning15 et domain adaptation8 pourraient apporter une solution pour améliorer les performances de segmentation.
L’ensemble du processus de segmentation introduit ici ne se limite pas à la segmentation orbitale CT. La méthode d’étiquetage efficace permet de créer un nouvel ensemble de données d’images médicales lorsque le domaine d’application est unique au domaine de recherche. Les codes python de GitHub concernant la modélisation de prétraitement et de segmentation peuvent être appliqués à d’autres domaines avec la modification de la région de recadrage, du niveau d’écrêtage de fenêtre et des hyperparamètres du modèle, tels que le nombre de tranches séquentielles, les architectures U-Net, etc.
The authors have nothing to disclose.
Ce travail a été soutenu par la Fondation nationale de recherche de Corée (NRF), subvention financée par le ministère des Sciences et des TIC de Corée (MSIT) (numéro: 2020R1C1C1010079). Pour l’ensemble de données CMC-ORBIT, le Central Institutional Review Board (IRB) du Catholic Medical Center a donné son approbation (XC19REGI0076). Ce travail a été soutenu par le Fonds de recherche de l’Université Hongik 2022.
GitHub link | github.com/SleepyChild1005/OrbitSeg | ||
MediLabel | INGRADIENT (Seoul, Korea) | a medical image labeling software promgram for segmentation with fewer click and higher speed | |
SEQ-UNET | downloadable from GitHub | ||
SmartFil | wizard in MediLabel | ||
SmartPencil | wizard in MediLabel |