El análisis de partículas individuales en microscopía crioelectrónica es una de las principales técnicas utilizadas para determinar la estructura de conjuntos biológicos a alta resolución. Scipion proporciona las herramientas para crear toda la tubería para procesar la información adquirida por el microscopio y lograr una reconstrucción en 3D del espécimen biológico.
La microscopía crioelectrónica se ha convertido en una de las herramientas más importantes en la investigación biológica para revelar la información estructural de las macromoléculas a una resolución casi atómica. En el análisis de una sola partícula, la muestra vitrificada es fotografiada por un haz de electrones y los detectores al final de la columna del microscopio producen películas de esa muestra. Estas películas contienen miles de imágenes de partículas idénticas en orientaciones aleatorias. Los datos deben pasar por un flujo de trabajo de procesamiento de imágenes con múltiples pasos para obtener el volumen final reconstruido en 3D. El objetivo del flujo de trabajo de procesamiento de imágenes es identificar los parámetros de adquisición para poder reconstruir el espécimen en estudio. Scipion proporciona todas las herramientas para crear este flujo de trabajo utilizando varios paquetes de procesamiento de imágenes en un marco integrador, lo que también permite la trazabilidad de los resultados. En este artículo se presenta y discute todo el flujo de trabajo de procesamiento de imágenes en Scipion con datos procedentes de un caso de prueba real, dando todos los detalles necesarios para pasar de las películas obtenidas por el microscopio a una reconstrucción 3D final de alta resolución. Además, se discute el poder de usar herramientas de consenso que permiten combinar métodos y confirmar resultados a lo largo de cada paso del flujo de trabajo, mejorando la precisión de los resultados obtenidos.
En la microscopía crioelectrónica (crio-EM), el análisis de partículas individuales (SPA) de especímenes vitrificados congelados-hidratados es una de las variantes de imagen más utilizadas y exitosas para macromoléculas biológicas, ya que permite comprender las interacciones moleculares y la función de los conjuntos biológicos1. Esto es gracias a los recientes avances en esta técnica de imagen que dieron lugar a la “revolución de la resolución”2 y han permitido la determinación exitosa de estructuras biológicas 3D con resolución casi atómica. Actualmente, la resolución más alta alcanzada en SPA cryo-EM fue de 1,15 Å para apoferritina3 (entrada EMDB: 11668). Estos avances tecnológicos comprenden mejoras en la preparación de muestras4, la adquisición de imágenes5 y los métodos de procesamiento de imágenes6. Este artículo se centra en este último punto.
Brevemente, el objetivo de los métodos de procesamiento de imágenes es identificar todos los parámetros de adquisición para invertir el proceso de imagen del microscopio y recuperar la estructura 3D del espécimen biológico en estudio. Estos parámetros son la ganancia de la cámara, el movimiento inducido por el haz, las aberraciones del microscopio (principalmente el desenfoque), la orientación angular 3D y la traslación de cada partícula, y el estado conformacional en caso de tener un ejemplar con cambios conformacionales. Sin embargo, el número de parámetros es muy alto y la crio-EM requiere el uso de imágenes de dosis bajas para evitar el daño por radiación, lo que reduce significativamente la relación señal-ruido (SNR) de las imágenes adquiridas. Por lo tanto, el problema no se puede resolver inequívocamente y todos los parámetros a calcular solo pueden ser estimaciones. A lo largo del flujo de trabajo de procesamiento de imágenes, se deben identificar los parámetros correctos, descartando los restantes para finalmente obtener una reconstrucción 3D de alta resolución.
Los datos generados por el microscopio se recogen en marcos. Simplificando, un marco contiene el número de electrones que han llegado a una posición particular (píxel) en la imagen, siempre que se utilicen detectores de conteo de electrones. En un campo de visión particular, se recopilan varios fotogramas y esto se llama película. Como se utilizan dosis bajas de electrones para evitar daños por radiación que podrían destruir la muestra, el SNR es muy bajo y los fotogramas correspondientes a la misma película deben promediarse para obtener una imagen que revele información estructural sobre la muestra. Sin embargo, no solo se aplica un promedio simple, la muestra puede sufrir cambios y otros tipos de movimientos durante el tiempo de imagen debido al movimiento inducido por el haz que deben compensarse. Los fotogramas compensados por desplazamiento y promediados originan una micrografía.
Una vez obtenidas las micrografías, necesitamos estimar las aberraciones introducidas por el microscopio para cada una de ellas, llamada Función de Transferencia de Contraste (CTF), que representa los cambios en el contraste de la micrografía en función de la frecuencia. Luego, las partículas se pueden seleccionar y extraer, lo que se denomina recolección de partículas. Cada partícula debe ser una pequeña imagen que contenga solo una copia de la muestra en estudio. Hay tres familias de algoritmos para la selección de partículas: 1) los que solo utilizan cierta parametrización básica de la apariencia de la partícula para encontrarlos en todo el conjunto de micrografías (por ejemplo, el tamaño de partícula), 2) los que aprenden cómo se ven las partículas del usuario o un conjunto preentrenado, y 3) los que usan plantillas de imágenes. Cada familia tiene diferentes propiedades que se mostrarán más adelante.
El conjunto extraído de partículas que se encuentran en las micrografías se utilizará en un proceso de clasificación 2D que tiene dos objetivos: 1) limpiar el conjunto de partículas descartando el subconjunto que contiene imágenes de ruido puro, partículas superpuestas u otros artefactos, y 2) las partículas promediadas que representan cada clase podrían usarse como información inicial para calcular un volumen inicial 3D.
El cálculo del volumen inicial en 3D es el siguiente paso crucial. El problema de obtener la estructura 3D puede verse como un problema de optimización en un panorama de soluciones multidimensionales, donde el mínimo global es el mejor volumen 3D que representa la estructura original, pero se pueden encontrar varios mínimos locales que representan soluciones subóptimas, y donde es muy fácil quedar atrapado. El volumen inicial representa el punto de partida para el proceso de búsqueda, por lo que una mala estimación del volumen inicial podría impedirnos encontrar el mínimo global. A partir del volumen inicial, un paso de clasificación 3D ayudará a descubrir diferentes estados conformacionales y a limpiar nuevamente el conjunto de partículas; el objetivo es obtener una población estructuralmente homogénea de partículas. Después de eso, un paso de refinamiento 3D se encargará de refinar los parámetros angulares y de traslación para cada partícula para obtener el mejor volumen 3D posible.
Finalmente, en los últimos pasos, la reconstrucción 3D obtenida se puede afilar y pulir. El afilado es un proceso de aumento de las altas frecuencias del volumen reconstruido, y el pulido es un paso para refinar aún más algunos parámetros, como CTF o compensación de movimiento inducida por haz, a nivel de partículas. Además, se podrían utilizar algunos procedimientos de validación para comprender mejor la resolución lograda al final del flujo de trabajo.
Después de todos estos pasos, los procesos de trazado y acoplamiento7 ayudarán a dar un significado biológico a la reconstrucción 3D obtenida, mediante la construcción de modelos atómicos de novo o el ajuste de modelos existentes. Si se logra una alta resolución, estos procesos nos dirán las posiciones de las estructuras biológicas, incluso de los diferentes átomos, en nuestra estructura.
Scipion8 permite crear todo el flujo de trabajo combinando los paquetes de procesamiento de imágenes más relevantes de forma integradora. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17 y muchos más paquetes se pueden incluir en Scipion. Además, incorpora todas las herramientas necesarias para beneficiar la integración, interoperabilidad, trazabilidad y reproducibilidad para realizar un seguimiento completo de todo el flujo de trabajo de procesamiento de imágenes8.
Una de las herramientas más poderosas que Scipion nos permite utilizar es el consenso, que significa comparar los resultados obtenidos con varios métodos en un paso del procesamiento, haciendo una combinación de la información transmitida por diferentes métodos para generar una salida más precisa. Esto podría ayudar a aumentar el rendimiento y mejorar la calidad alcanzada en los parámetros estimados. Tenga en cuenta que se puede crear un flujo de trabajo más simple sin el uso de métodos de consenso; sin embargo, hemos visto el poder de esta herramienta22,25 y el flujo de trabajo presentado en este manuscrito la utilizará en varios pasos.
Todos los pasos que se han resumido en los párrafos anteriores se explicarán en detalle en la siguiente sección y se combinarán en un flujo de trabajo completo utilizando Scipion. Asimismo, se mostrará cómo utilizar las herramientas de consenso para lograr un mayor acuerdo en los outputs generados. Con ese fin, se ha elegido el conjunto de datos de ejemplo del ribosoma Plasmodium falciparum 80S (entrada EMPIAR: 10028, entrada EMDB: 2660). El conjunto de datos está formado por 600 películas de 16 fotogramas de tamaño 4096×4096 píxeles a un tamaño de píxel de 1.34Å tomadas en una FEI POLARA 300 con una cámara FEI FALCON II, con una resolución reportada en EMDB es 3.2Å18.
Actualmente, la crio-EM es una herramienta clave para revelar la estructura 3D de las muestras biológicas. Cuando se recogen buenos datos con el microscopio, las herramientas de procesamiento disponibles nos permitirán obtener una reconstrucción 3D de la macromolécula en estudio. El procesamiento de datos cryo-EM es capaz de lograr una resolución casi atómica, que es clave para comprender el comportamiento funcional de una macromolécula y también es crucial en el descubrimiento de fármacos.
Scipion es un software que permite crear todo el flujo de trabajo combinando los paquetes de procesamiento de imágenes más relevantes de forma integradora, lo que ayuda a la trazabilidad y reproducibilidad de todo el flujo de trabajo de procesamiento de imágenes. Scipion proporciona un conjunto muy completo de herramientas para llevar a cabo el procesamiento; sin embargo, la obtención de reconstrucciones de alta resolución depende completamente de la calidad de los datos adquiridos y de cómo se procesan estos datos.
Para obtener una reconstrucción 3D de alta resolución, el primer requisito es obtener buenas películas del microscopio, que conserven la información estructural a alta resolución. Si este no es el caso, el flujo de trabajo no podrá extraer información de alta definición de los datos. Luego, un flujo de trabajo de procesamiento exitoso debería poder extraer partículas que realmente correspondan a la estructura y encontrar las orientaciones de estas partículas en el espacio 3D. Si se produce un error en alguno de los pasos del flujo de trabajo, la calidad del volumen reconstruido se degradará. Scipion permite utilizar diferentes paquetes en cualquiera de los pasos de procesamiento, lo que ayuda a encontrar el enfoque más adecuado para procesar los datos. Además, gracias a tener muchos paquetes disponibles, se pueden utilizar herramientas de consenso que aumentan la precisión al encontrar un acuerdo en los resultados estimados de diferentes métodos. Además, se han discutido en detalle en la sección de Resultados Representativos varias herramientas de validación y cómo identificar resultados precisos e inexactos en cada paso del flujo de trabajo, para detectar problemas potenciales y cómo tratar de resolverlos. Hay varios puntos de control a lo largo del protocolo que podrían ayudar a darse cuenta de si el protocolo se está ejecutando correctamente o no. Algunos de los más relevantes son: picking, clasificación 2D, estimación inicial de volumen y alineación 3D. Comprobar las entradas, repetir el paso con un método diferente, o utilizar el consenso, son opciones disponibles en Scipion que el usuario puede utilizar para encontrar soluciones cuando aparecen problemas.
Con respecto a los enfoques anteriores para la integración de paquetes en el campo Cryo-EM, Appion31 es el único que permite la integración real de diferentes paquetes de software. Sin embargo, Appion está estrechamente conectado con Leginon32, un sistema para la recopilación automatizada de imágenes de microscopios electrónicos. La principal diferencia con Scipion es que el modelo de datos y el almacenamiento están menos acoplados. De tal manera, para crear un nuevo protocolo en Scipion, solo se necesita desarrollar un script de Python. Sin embargo, en Appion, el desarrollador debe escribir el script y cambiar la base de datos subyacente. En resumen, Scipion fue desarrollado para simplificar el mantenimiento y la extensibilidad.
Hemos presentado en este manuscrito un flujo de trabajo completo para el procesamiento cryo-EM, utilizando el conjunto de datos de casos reales del plasmodium falciparum 80S Ribosoma (entrada EMPIAR: 10028, entrada EMDB: 2660). Los pasos cubiertos y discutidos aquí se pueden resumir como alineación de películas, estimación de CTF, selección de partículas, clasificación 2D, estimación de mapas iniciales, clasificación 3D, refinamiento 3D, evaluación y post-procesamiento. Se han utilizado diferentes paquetes y se han aplicado herramientas de consenso en varios de estos pasos. El volumen final reconstruido en 3D alcanzó una resolución de 3 Å y, en el volumen postprocesado, se pueden distinguir algunas estructuras secundarias, como las hélices alfa, lo que ayuda a describir cómo se organizan los átomos en el espacio.
El flujo de trabajo presentado en este manuscrito muestra cómo Scipion se puede utilizar para combinar diferentes paquetes Cryo-EM de una manera directa e integradora para simplificar el procesamiento y obtener resultados más confiables al mismo tiempo.
En el futuro, el desarrollo de nuevos métodos y paquetes seguirá creciendo y el software como Scipion para integrar fácilmente todos ellos será aún más importante para los investigadores. Los enfoques de consenso serán más relevantes incluso entonces, cuando haya muchos métodos con diferentes bases disponibles, lo que ayudará a obtener estimaciones más precisas de todos los parámetros involucrados en el proceso de reconstrucción en Cryo-EM. El seguimiento y la reproducibilidad son claves en el proceso de investigación y más fáciles de lograr con Scipion gracias a tener un marco común para la ejecución de flujos de trabajo completos.
The authors have nothing to disclose.
Los autores desean agradecer el apoyo económico de: El Ministerio de Ciencia e Innovación de España a través de Subvenciones: PID2019-104757RB-I00/AEI/10.13039/501100011033, la “Comunidad Autónoma de Madrid” a través de la Subvención: S2017/BMD-3817, Instituto de Salud Carlos III, PT17/0009/0010 (ISCIII-SGEFI/FEDER), Unión Europea (UE) y Horizonte 2020 a través de la subvención: INSTRUCT – ULTRA (INFRADEV-03-2016-2017, Propuesta: 731005), EOSC Life (INFRAEOSC-04-2018, Propuesta: 824087), iNEXT – Discovery (Propuesta: 871037) y HighResCells (ERC – 2018 – SyG, Propuesta: 810057). El proyecto que dio lugar a estos resultados recibió el apoyo de una beca de la Fundación “la Caixa” (ID 100010434). El código de la beca es LCF/BQ/DI18/11660021. Este proyecto ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea en el marco del acuerdo de subvención Marie Skłodowska-Curie n.º 713673. Los autores reconocen el apoyo y el uso de los recursos de Instruct, un proyecto de Landmark ESFRI.