Se introduce un protocolo de segmentación de objetos para imágenes de tomografía computarizada (TC) orbital. Los métodos para etiquetar la verdad en tierra de las estructuras orbitales mediante el uso de superresolución, extraer el volumen de interés de las imágenes de TC y modelar la segmentación de múltiples etiquetas utilizando U-Net secuencial 2D para imágenes de TC orbitales se explican para el aprendizaje supervisado.
Recientemente, los modelos de segmentación basados en el aprendizaje profundo se han aplicado ampliamente en el campo oftálmico. Este estudio presenta el proceso completo de construcción de un modelo de segmentación de tomografía computarizada orbital (TC) basado en U-Net. Para el aprendizaje supervisado, se requiere un proceso laborioso y lento. Se introduce el método de etiquetado con súper resolución para enmascarar eficientemente la verdad del suelo en las imágenes de TC orbitales. Además, el volumen de interés se recorta como parte del preprocesamiento del conjunto de datos. Luego, después de extraer los volúmenes de interés de las estructuras orbitales, el modelo para segmentar las estructuras clave de la TC orbital se construye utilizando U-Net, con cortes 2D secuenciales que se utilizan como entradas y dos memorias cortas convolucionales bidireccionales a largo plazo para conservar las correlaciones entre cortes. Este estudio se centra principalmente en la segmentación del globo ocular, el nervio óptico y los músculos extraoculares. La evaluación de la segmentación revela la aplicación potencial de la segmentación a las imágenes orbitales de TC utilizando métodos de aprendizaje profundo.
La órbita es un espacio pequeño y complicado de aproximadamente 30,1cm3 que contiene estructuras importantes como el globo ocular, los nervios, los músculos extraoculares, los tejidos de soporte y los vasos para la visión y los movimientos del globo ocular1. Los tumores orbitarios son crecimientos anormales de tejido en la órbita, y algunos de ellos amenazan la visión o el movimiento del globo ocular de los pacientes, lo que puede conducir a una disfunción fatal. Para conservar la función visual de los pacientes, los médicos deben decidir sobre las modalidades de tratamiento en función de las características del tumor, y una biopsia quirúrgica es generalmente inevitable. Esta área compacta y abarrotada a menudo hace que sea difícil para los médicos realizar una biopsia sin dañar la estructura normal. El análisis de imágenes de patología basado en el aprendizaje profundo para determinar la condición de la órbita podría ayudar a evitar lesiones innecesarias o evitables en los tejidos orbitarios durante la biopsia2. Un método de análisis de imágenes para los tumores orbitarios es la detección y segmentación de tumores. Sin embargo, la recolección de grandes cantidades de datos para imágenes de TC que contienen tumores orbitarios es limitada debido a su baja incidencia3. El otro método eficiente para el diagnóstico computacional de tumores4 consiste en comparar el tumor con las estructuras normales de la órbita. El número de imágenes de TC orbitaria en estructuras normales es relativamente mayor que en los tumores. Por lo tanto, la segmentación de las estructuras orbitales normales es el primer paso para lograr este objetivo.
Este estudio presenta todo el proceso de segmentación de la estructura orbital basada en el aprendizaje profundo, incluida la recopilación de datos, el preprocesamiento y el modelado posterior. El estudio pretende ser un recurso para los médicos interesados en utilizar el método actual para generar eficientemente un conjunto de datos enmascarados y para los oftalmólogos que requieren información sobre el preprocesamiento y el modelado de imágenes de TC orbitaria. Este artículo presenta un nuevo método para la segmentación de la estructura orbital y secuencial de U-Net, un modelo de segmentación 2D secuencial basado en una solución representativa de aprendizaje profundo en U-Net para la segmentación de imágenes médicas. El protocolo describe el procedimiento detallado de segmentación de órbitas, que incluye (1) cómo usar una herramienta de enmascaramiento para la verdad sobre el terreno de la segmentación de la estructura orbital, (2) los pasos necesarios para el preprocesamiento de las imágenes orbitales, y (3) cómo entrenar el modelo de segmentación y evaluar el rendimiento de segmentación.
Para el aprendizaje supervisado, cuatro oftalmólogos experimentados que habían sido certificados por la junta durante más de 5 años anotaron manualmente las máscaras del globo ocular, el nervio óptico y los músculos extraoculares. Todos los oftalmólogos utilizaron el programa de software de enmascaramiento (MediLabel, consulte la Tabla de materiales), que utiliza superresolución para un enmascaramiento eficiente en las tomografías computarizadas. El software de enmascaramiento tiene las siguientes características semiautomáticas: (1) SmartPencil, que genera grupos de mapas de súper píxeles con valores similares de intensidad de imagen5; (2) SmartFill, que genera máscaras de segmentación calculando la función energética del primer plano y el fondo en curso 6,7; y (3) Autocorrección, que hace que los bordes de las máscaras de segmentación sean limpios y consistentes con la imagen original. En la figura 1 se muestran imágenes de ejemplo de las entidades semiautomáticas. Los pasos detallados del enmascaramiento manual se proporcionan en la sección de protocolo (paso 1).
El siguiente paso es el preprocesamiento de las tomografías computarizadas orbitarias. Para obtener los volúmenes orbitales de interés (VOI), se identifican las áreas de la órbita donde se encuentran el globo ocular, el músculo y el nervio en condiciones normales, y estas áreas se recortan. El conjunto de datos tiene una alta resolución, con una resolución de vóxel en el plano de <1 mm y un grosor de corte, por lo que se omite el proceso de interpolación. En su lugar, el recorte de ventanas se realiza en el nivel de recorte de 48 HU y en la ventana de 400 HU. Después del recorte y el recorte de ventanas, se generan tres cortes en serie de los VOI de órbita para la entrada8 del modelo de segmentación. La sección de protocolo (paso 2) proporciona detalles sobre los pasos de preprocesamiento.
U-Net9 es un modelo de segmentación ampliamente utilizado para imágenes médicas. La arquitectura U-Net comprende un codificador, que extrae las características de las imágenes médicas, y un decodificador, que presenta las características discriminatorias semánticamente. Cuando se emplea U-Net para tomografías computarizadas, las capas convolucionales consisten en filtros 3D10,11. Esto es un desafío porque el cálculo de filtros 3D requiere una gran capacidad de memoria. Para reducir los requisitos de memoria para 3D U-Net, se propuso SEQ-UNET8, en el que se utiliza un conjunto de cortes 2D secuenciales en U-Net. Para evitar la pérdida de correlaciones espaciotemporales entre los cortes de imagen 2D de la tomografía computarizada 3D, se emplean dos memorias cortas convolucionales bidireccionales a largo plazo (C-LSTM)12 en U-Net básica. El primer C-LSTM bidireccional extrae las correlaciones entre cortes al final del codificador. El segundo C-LSTM bidireccional, después de la salida del decodificador, transforma la información de segmentación semántica en las dimensiones de la secuencia de corte en una sola segmentación de imagen. La arquitectura de SEQ-UNET se muestra en la Figura 2. Los códigos de implementación están disponibles en github.com/SleepyChild1005/OrbitSeg, y el uso de los códigos se detalla en la sección de protocolo (paso 3).
El análisis de imágenes médicas basado en el aprendizaje profundo se utiliza ampliamente para la detección de enfermedades. En el dominio de la oftalmología, los modelos de detección y segmentación se utilizan en retinopatía diabética, glaucoma, degeneración macular asociada a la edad y retinopatía del prematuro. Sin embargo, otras enfermedades raras, aparte de las de oftalmología, no se han estudiado debido al acceso limitado a grandes conjuntos de datos públicos abiertos para el análisis de aprendizaje profundo. Al aplicar este método en situaciones en las que no hay un conjunto de datos público disponible, el paso de enmascaramiento, que es una tarea laboriosa y que requiere mucho tiempo, es inevitable. Sin embargo, el paso de enmascaramiento propuesto (sección de protocolo, paso 1) ayuda a generar enmascaramiento con alta precisión en poco tiempo. Usando superpíxeles y relleno basado en redes neuronales, que agrupan píxeles que son similares en propiedades de imagen de bajo nivel, los médicos pueden etiquetar las máscaras haciendo clic en los grupos de píxeles en lugar de señalar los píxeles específicos. Además, las funciones de corrección automática ayudan a refinar los procesos de máscara. La eficiencia y efectividad de este método ayudará a generar más imágenes enmascaradas en la investigación médica.
Entre las muchas posibilidades en el preprocesamiento, la extracción de VOI y el recorte de ventanas son métodos efectivos. Aquí, la extracción de VOI y el recorte de ventanas se introducen en el paso 2 del protocolo. Cuando los médicos preparan el conjunto de datos, extraer el VOI del conjunto de datos dado es el paso más importante en el proceso porque la mayoría de los casos de segmentación se centran en regiones pequeñas y específicas en toda la imagen médica. En cuanto a los VOI, las regiones del globo ocular, el nervio óptico y los músculos extraoculares se recortan en función de la ubicación, pero los métodos más efectivos para extraer los VOI tienen el potencial de mejorar el rendimiento de la segmentación14.
Para la segmentación, SEQ-UNET es empleada en el estudio. Las imágenes médicas en 3D tienen grandes volúmenes, por lo que los modelos de redes neuronales profundas requieren grandes capacidades de memoria. En SEQ-UNET, el modelo de segmentación se implementa con un pequeño número de cortes para reducir el tamaño de memoria requerido sin perder las características de la información 3D.
El modelo fue entrenado con 46 VOIs, que no es un gran número para el entrenamiento del modelo. Debido al pequeño número de conjuntos de datos de entrenamiento, el rendimiento de la segmentación del nervio óptico y del músculo extraocular es limitado. El aprendizaje por transferencia15 y la adaptación al dominio8 podrían proporcionar una solución para mejorar el rendimiento de la segmentación.
Todo el proceso de segmentación introducido aquí no se limita a la segmentación orbital CT. El método de etiquetado eficiente ayuda a crear un nuevo conjunto de datos de imágenes médicas para cuando el dominio de aplicación es exclusivo del área de investigación. Los códigos python de GitHub relacionados con el preprocesamiento y el modelado de segmentación se pueden aplicar a otros dominios con la modificación de la región de recorte, el nivel de recorte de ventana y los hiperparámetros del modelo, como el número de segmentos secuenciales, las arquitecturas U-Net, etc.
The authors have nothing to disclose.
Este trabajo fue apoyado por la Fundación Nacional de Investigación de Corea (NRF), subvención financiada por el Ministerio de Ciencia y TIC de Corea (MSIT) (número: 2020R1C1C1010079). Para el conjunto de datos CMC-ORBIT, la Junta de Revisión Institucional (IRB) central del Centro Médico Católico proporcionó la aprobación (XC19REGI0076). Este trabajo fue apoyado por el Fondo de Investigación de la Universidad de Hongik 2022.
GitHub link | github.com/SleepyChild1005/OrbitSeg | ||
MediLabel | INGRADIENT (Seoul, Korea) | a medical image labeling software promgram for segmentation with fewer click and higher speed | |
SEQ-UNET | downloadable from GitHub | ||
SmartFil | wizard in MediLabel | ||
SmartPencil | wizard in MediLabel |