Este es un método para entrenar una U-Net multicorte para la segmentación multiclase de tomogramas crioelectrónicos utilizando una porción de un tomograma como entrada de entrenamiento. Describimos cómo inferir esta red a otros tomogramas y cómo extraer segmentaciones para análisis adicionales, como el promedio de subtomogramas y el rastreo de filamentos.
La criotomografía electrónica (crio-ET) permite a los investigadores obtener imágenes de las células en su estado nativo e hidratado a la resolución más alta posible actualmente. Sin embargo, la técnica tiene varias limitaciones que hacen que el análisis de los datos que genera requiera mucho tiempo y sea difícil. La segmentación manual de una sola tomograma puede tomar de horas a días, pero un microscopio puede generar fácilmente 50 o más tomografías al día. Existen programas actuales de segmentación de aprendizaje profundo para crio-ET, pero se limitan a segmentar una estructura a la vez. Aquí, las redes neuronales convolucionales U-Net de múltiples cortes se entrenan y aplican para segmentar automáticamente múltiples estructuras simultáneamente dentro de los criotomogramas. Con un preprocesamiento adecuado, estas redes se pueden inferir robustamente a muchos tomogramas sin la necesidad de entrenar redes individuales para cada tomograma. Este flujo de trabajo mejora drásticamente la velocidad con la que se pueden analizar los tomogramas crioelectrónicos al reducir el tiempo de segmentación a menos de 30 minutos en la mayoría de los casos. Además, las segmentaciones se pueden utilizar para mejorar la precisión del trazado de filamentos dentro de un contexto celular y para extraer rápidamente las coordenadas para el promedio de subtomograma.
Los desarrollos de hardware y software en la última década han resultado en una “revolución de resolución” para la criomicroscopía electrónica (crio-EM)1,2. Con detectores mejores y más rápidos3, software para automatizar la recopilación de datos4,5 y avances de aumento de señal como las placas de fase6, la recopilación de grandes cantidades de datos crio-EM de alta resolución es relativamente sencilla.
Cryo-ET ofrece una visión sin precedentes de la ultraestructura celular en un estado nativo e hidratado 7,8,9,10. La limitación principal es el grosor de la muestra, pero con la adopción de métodos como el fresado de haz de iones enfocado (FIB), donde las muestras gruesas de células y tejidos se adelgazan para la tomografía11, el horizonte de lo que se puede obtener una imagen con crio-ET se expande constantemente. Los microscopios más nuevos son capaces de producir más de 50 tomogramas al día, y se prevé que esta tasa aumente debido al desarrollo de esquemas rápidos de recolección de datos12,13. El análisis de las grandes cantidades de datos producidos por cryo-ET sigue siendo un cuello de botella para esta modalidad de imagen.
El análisis cuantitativo de la información tomográfica requiere que primero se anote. Tradicionalmente, esto requiere la segmentación de la mano por parte de un experto, lo que lleva mucho tiempo; Dependiendo de la complejidad molecular contenida en el crio-tomograma, puede tomar horas o días de atención dedicada. Las redes neuronales artificiales son una solución atractiva para este problema, ya que pueden ser entrenadas para hacer la mayor parte del trabajo de segmentación en una fracción del tiempo. Las redes neuronales convolucionales (CNN) son especialmente adecuadas para tareas de visión artificial14 y recientemente han sido adaptadas para el análisis de tomogramas crioelectrónicos15,16,17.
Las CNN tradicionales requieren muchos miles de muestras de entrenamiento anotadas, lo que a menudo no es posible para las tareas de análisis de imágenes biológicas. Por lo tanto, la arquitectura U-Net se ha destacado en este espacio18 porque se basa en el aumento de datos para entrenar con éxito la red, minimizando la dependencia de grandes conjuntos de entrenamiento. Por ejemplo, una arquitectura U-Net puede ser entrenada con sólo unas pocas rebanadas de una sola tomograma (cuatro o cinco rebanadas) y robustamente inferida a otros tomogramas sin volver a entrenar. Este protocolo proporciona una guía paso a paso para entrenar arquitecturas de redes neuronales U-Net para segmentar criotomogramas de electrones dentro de Dragonfly 2022.119.
Dragonfly es un software desarrollado comercialmente utilizado para la segmentación y análisis de imágenes 3D mediante modelos de aprendizaje profundo, y está disponible gratuitamente para uso académico (se aplican algunas restricciones geográficas). Tiene una interfaz gráfica avanzada que permite a un no experto aprovechar al máximo los poderes del aprendizaje profundo tanto para la segmentación semántica como para la eliminación de ruido de imágenes. Este protocolo demuestra cómo preprocesar y anotar tomogramas crioelectrónicos dentro de Dragonfly para entrenar redes neuronales artificiales, que luego se pueden inferir para segmentar rápidamente grandes conjuntos de datos. Además, discute y demuestra brevemente cómo usar datos segmentados para análisis adicionales, como el rastreo de filamentos y la extracción de coordenadas para el promedio de subtogramas.
Este protocolo establece un procedimiento para usar el software Dragonfly 2022.1 para entrenar una U-Net multiclase a partir de un solo tomograma, y cómo inferir esa red a otros tomogramas que no necesitan ser del mismo conjunto de datos. El entrenamiento es relativamente rápido (puede ser tan rápido como 3-5 minutos por época o tan lento como unas pocas horas, dependiendo completamente de la red que se está entrenando y el hardware utilizado), y volver a entrenar una red para mejorar su aprendizaje es intuitivo. Siempre que los pasos de preprocesamiento se lleven a cabo para cada tomografía, la inferencia suele ser robusta.
El preprocesamiento coherente es el paso más crítico para la inferencia de aprendizaje profundo. Hay muchos filtros de imágenes en el software y el usuario puede experimentar para determinar qué filtros funcionan mejor para conjuntos de datos particulares; Tenga en cuenta que cualquier filtrado que se use en el tomograma de entrenamiento debe aplicarse de la misma manera a los tomogramas de inferencia. También se debe tener cuidado de proporcionar a la red información de capacitación precisa y suficiente. Es vital que todas las características segmentadas dentro de las secciones de entrenamiento se segmenten con el mayor cuidado y precisión posible.
La segmentación de imágenes se ve facilitada por una sofisticada interfaz de usuario de nivel comercial. Proporciona todas las herramientas necesarias para la segmentación de manos y permite la simple reasignación de vóxeles de cualquier clase a otra antes del entrenamiento y el reciclaje. Al usuario se le permite segmentar a mano los vóxeles dentro de todo el contexto del tomograma, y se le dan múltiples vistas y la capacidad de girar el volumen libremente. Además, el software proporciona la capacidad de utilizar redes multiclase, que tienden a funcionar mejor16 y son más rápidas que la segmentación con múltiples redes de clase única.
Hay, por supuesto, limitaciones a las capacidades de una red neuronal. Los datos crio-ET son, por naturaleza, muy ruidosos y limitados en el muestreo angular, lo que conduce a distorsiones específicas de orientación en objetos idénticos21. La capacitación depende de un experto para segmentar las estructuras con precisión, y una red exitosa es tan buena (o tan mala) como los datos de capacitación que se le dan. El filtrado de imágenes para aumentar la señal es útil para el entrenador, pero todavía hay muchos casos en los que es difícil identificar con precisión todos los píxeles de una estructura determinada. Por lo tanto, es importante que se tenga mucho cuidado al crear la segmentación de capacitación para que la red tenga la mejor información posible para aprender durante la capacitación.
Este flujo de trabajo se puede modificar fácilmente según las preferencias de cada usuario. Si bien es esencial que todos los tomogramas se procesen exactamente de la misma manera, no es necesario utilizar los filtros exactos utilizados en el protocolo. El software tiene numerosas opciones de filtrado de imágenes, y se recomienda optimizarlas para los datos particulares del usuario antes de emprender un gran proyecto de segmentación que abarque muchos tomogramas. También hay bastantes arquitecturas de red disponibles para usar: se ha encontrado que una U-Net multisegmento funciona mejor para los datos de este laboratorio, pero otro usuario podría encontrar que otra arquitectura (como una U-Net 3D o un Sensor 3D) funciona mejor. El asistente de segmentación proporciona una interfaz cómoda para comparar el rendimiento de varias redes utilizando los mismos datos de entrenamiento.
Herramientas como las que se presentan aquí harán que la segmentación manual de tomogramas completos sea una tarea del pasado. Con redes neuronales bien entrenadas que son robustamente inferibles, es completamente factible crear un flujo de trabajo donde los datos tomográficos se reconstruyan, procesen y segmenten completamente tan rápido como el microscopio pueda recopilarlos.
The authors have nothing to disclose.
Este estudio fue apoyado por la Facultad de Medicina de Penn State y el Departamento de Bioquímica y Biología Molecular, así como por la subvención 4100079742-EXT del Fondo de Liquidación del Tabaco (TSF). Los servicios e instrumentos CryoEM y CryoET Core (RRID: SCR_021178) utilizados en este proyecto fueron financiados, en parte, por la Facultad de Medicina de la Universidad Estatal de Pensilvania a través de la Oficina del Vicedecano de Investigación y Estudiantes de Posgrado y el Departamento de Salud de Pensilvania utilizando Fondos de Liquidación de Tabaco (CURE). El contenido es responsabilidad exclusiva de los autores y no representa necesariamente las opiniones oficiales de la Universidad o Facultad de Medicina. El Departamento de Salud de Pensilvania se exime específicamente de responsabilidad por cualquier análisis, interpretación o conclusión.
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |