La espectrometría de masas de reticulación dirigida crea modelos de estructura de proteínas cuaternarias utilizando datos de espectrometría de masas adquiridos utilizando hasta tres protocolos de adquisición diferentes. Cuando se ejecuta como un flujo de trabajo simplificado en el servidor web Cheetah-MS, los resultados se informan en un Jupyter Notebook. Aquí, demostramos los aspectos técnicos de cómo se puede extender el Jupyter Notebook para un análisis más profundo.
Las interacciones proteína-proteína pueden ser difíciles de estudiar, pero proporcionan información sobre cómo funcionan los sistemas biológicos. La espectrometría de masas de reticulación dirigida (TX-MS), un método que combina el modelado de la estructura de proteínas cuaternarias y la espectrometría de masas de reticulación química, crea modelos de estructura de alta precisión utilizando datos obtenidos de muestras complejas y no fraccionadas. Esto elimina uno de los principales obstáculos para el análisis de la estructura compleja de proteínas porque las proteínas de interés ya no necesitan ser purificadas en grandes cantidades. El servidor web Cheetah-MS fue desarrollado para hacer que la versión simplificada del protocolo sea más accesible para la comunidad. Teniendo en cuenta los datos en tándem MS / MS, Cheetah-MS genera un Jupyter Notebook, un informe gráfico que resume los resultados de análisis más importantes. La ampliación del Jupyter Notebook puede proporcionar información más detallada y comprender mejor el modelo y los datos de espectrometría de masas que lo respaldan. El protocolo técnico presentado aquí muestra algunas de las extensiones más comunes y explica qué información se puede obtener. Contiene bloques para ayudar a analizar los datos de adquisición de MS / MS en tándem y el impacto general de los XL detectados en los modelos cuaternarios informados. El resultado de tales análisis se puede aplicar a los modelos estructurales que están incrustados en el portátil utilizando NGLView.
Las interacciones proteína-proteína sustentan la estructura y función de los sistemas biológicos. Tener acceso a estructuras cuaternarias de proteínas puede proporcionar información sobre cómo dos o más proteínas interactúan para formar estructuras de alto orden. Desafortunadamente, la obtención de estructuras cuaternarias sigue siendo un desafío; esto se refleja en el número comparativamente pequeño de entradas1 del Banco de Datos de Proteínas (PDB) que contienen más de un polipéptido. Las interacciones proteína-proteína se pueden estudiar con tecnologías como la cristalografía de rayos X, la RMN y la crio-EM, pero obtener una cantidad suficiente de proteína purificada en condiciones en las que se pueden aplicar los métodos puede llevar mucho tiempo.
La espectrometría de masas de reticulación química se desarrolló para obtener datos experimentales sobre las interacciones proteína-proteína con menos restricciones en la preparación de la muestra, ya que la espectrometría de masas se puede utilizar para adquirir datos sobre muestras arbitrariamente complejas 2,3,4,5,6,7,8,9 . Sin embargo, la naturaleza combinatoria del análisis de datos y el número relativamente pequeño de péptidos reticulados requieren que las muestras se fraccionen antes del análisis. Para abordar esta deficiencia, desarrollamos TX-MS, un método que combina el modelado computacional con la espectrometría de masas de reticulación química10. TX-MS se puede utilizar en muestras arbitrariamente complejas y es significativamente más sensible en comparación con los métodos anteriores10. Esto se logra al calificar todos los datos asociados con una interacción proteína-proteína dada como un conjunto en lugar de interpretar cada espectro de EM de forma independiente. TX-MS también utiliza hasta tres protocolos diferentes de adquisición de MS: MS1 de alta resolución (hrMS1), adquisición dependiente de datos (DDA) y adquisición independiente de datos (DIA), lo que brinda oportunidades para identificar un péptido reticulado mediante la combinación de múltiples observaciones. El flujo de trabajo computacional TX-MS es complejo por varias razones. En primer lugar, se basa en múltiples programas de software de análisis de EM 11,12,13 para crear modelos de estructura de proteínas 14,15. En segundo lugar, la cantidad de datos puede ser considerable. En tercer lugar, el paso de modelado puede consumir cantidades significativas de potencia de procesamiento de la computadora.
En consecuencia, TX-MS se utiliza mejor como un flujo de trabajo computacional automatizado y simplificado a través del servidor web Cheetah-MS16 que se ejecuta en grandes infraestructuras computacionales, como nubes o clústeres informáticos. Para facilitar la interpretación de los resultados, elaboramos un Jupyter Notebook17 interactivo. Aquí, demostramos cómo se puede ampliar el informe de Jupyter Notebook para producir un análisis más profundo de un resultado determinado.
Los flujos de trabajo computacionales modernos a menudo son complejos, con múltiples herramientas de muchos proveedores diferentes, interdependencias complejas, altos volúmenes de datos y resultados multifacéticos. En consecuencia, es cada vez más difícil documentar con precisión todos los pasos necesarios para obtener un resultado, lo que dificulta la reproducción del resultado dado. Aquí, demostramos una estrategia general que combina la automatización y la facilidad de un flujo de trabajo automatizado que produce un informe genérico, con la flexibilidad de personalizar el informe de una manera reproducible.
Deben cumplirse tres requisitos para que el protocolo funcione: en primer lugar, las proteínas seleccionadas para el análisis deben interactuar de tal manera que el experimento de reticulación química pueda producir especies reticuladas a una concentración suficientemente alta para ser detectadas por el espectrómetro de masas; diferentes espectrómetros de masas tienen diferentes niveles de detección y también dependen del protocolo de adquisición, así como de la elección del reactivo de reticulación. La versión actual del protocolo TX-MS solo permite DSS, un reactivo reticulado homobifuncional de lisina-lisina. Aún así, esta limitación se debe principalmente a la posibilidad de que el paso de aprendizaje automático deba ajustarse para otros reactivos. Esta limitación se ha mejorado en el servidor web Cheetah-MS, ya que se pueden considerar dos reactivos de reticulación más, pero los tres son reactivos no escindibles. En segundo lugar, las dos proteínas necesitan tener una estructura determinada experimentalmente o ser modeladas utilizando técnicas de modelado comparativo o técnicas de novo . No todas las proteínas pueden ser modeladas, pero una combinación de software mejorado y una deposición constante de estructuras experimentales en el PDB amplía el número de proteínas que se pueden modelar. En tercer lugar, las proteínas que interactúan deben permanecer lo suficientemente similares en sus estados unidos y no unidos para que los algoritmos de acoplamiento utilizados por TX-MS y Cheetah-MS puedan crear estructuras cuaternarias de calidad adecuada para permitir la puntuación. Este requisito es relativamente vago, ya que la calidad aceptable depende en gran medida del sistema, donde las proteínas más pequeñas de estructura conocida son generalmente más fáciles de comparar que las proteínas más grandes de estructura desconocida.
En caso de un resultado negativo, primero verifique que TX-MS encontró intra-enlaces, enlaces cruzados entre residuos que forman parte de la misma cadena polipeptídica. Si no se descubre ninguno, la explicación más probable es que algo salió mal con la preparación de la muestra o la adquisición de datos. Si las restricciones de distancia múltiples no admiten los modelos, inspeccione visualmente los modelos para asegurarse de que la conformación esté soportada por residuos reticulados. No hay una forma obvia de pivotar uno de los interactores sin interrumpir al menos un enlace cruzado. Si hay enlaces cruzados más largos que la distancia permitida para el reactivo de reticulación dado, intente mejorar el modelado de los interactores incorporando datos de reticulación.
Es posible utilizar aplicaciones de software alternativas para lograr resultados equivalentes siempre que la sensibilidad del software elegido sea comparable a la sensibilidad de TX-MS. Por ejemplo, hay versiones en línea de RosettaDock, HADDOCK y otros. También es posible analizar datos de reticulación química a través de xQuest/xProphet 5,6, plink7 y SIM-XL26.
Estamos aplicando continuamente TX-MS y Cheetah-MS a nuevos proyectos 27,28,29, mejorando así los informes producidos por estos enfoques para permitir un análisis más detallado de los resultados sin hacer que los informes sean más grandes.
The authors have nothing to disclose.
Este trabajo fue apoyado por la Fundación de Knut y Alice Wallenberg (subvención no. 2016.0023) y la Fundación Nacional de Ciencias de Suiza (subvención no. P2ZHP3_191289). Además, agradecemos a S3IT, Universidad de Zurich, por su infraestructura computacional y soporte técnico.
Two Protein DataBank files of the proteins of interest. | N/A | N/A | Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621 |
An mzML data file acquired on a sample where the proteins of interest were crosslinked. | N/A | N/A | Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621 |