Summary

Modelado de estructuras cuaternarias a través de espectrometría de masas de reticulación química: ampliación de los informes de JUpyter TX-MS

Published: October 20, 2021
doi:

Summary

La espectrometría de masas de reticulación dirigida crea modelos de estructura de proteínas cuaternarias utilizando datos de espectrometría de masas adquiridos utilizando hasta tres protocolos de adquisición diferentes. Cuando se ejecuta como un flujo de trabajo simplificado en el servidor web Cheetah-MS, los resultados se informan en un Jupyter Notebook. Aquí, demostramos los aspectos técnicos de cómo se puede extender el Jupyter Notebook para un análisis más profundo.

Abstract

Las interacciones proteína-proteína pueden ser difíciles de estudiar, pero proporcionan información sobre cómo funcionan los sistemas biológicos. La espectrometría de masas de reticulación dirigida (TX-MS), un método que combina el modelado de la estructura de proteínas cuaternarias y la espectrometría de masas de reticulación química, crea modelos de estructura de alta precisión utilizando datos obtenidos de muestras complejas y no fraccionadas. Esto elimina uno de los principales obstáculos para el análisis de la estructura compleja de proteínas porque las proteínas de interés ya no necesitan ser purificadas en grandes cantidades. El servidor web Cheetah-MS fue desarrollado para hacer que la versión simplificada del protocolo sea más accesible para la comunidad. Teniendo en cuenta los datos en tándem MS / MS, Cheetah-MS genera un Jupyter Notebook, un informe gráfico que resume los resultados de análisis más importantes. La ampliación del Jupyter Notebook puede proporcionar información más detallada y comprender mejor el modelo y los datos de espectrometría de masas que lo respaldan. El protocolo técnico presentado aquí muestra algunas de las extensiones más comunes y explica qué información se puede obtener. Contiene bloques para ayudar a analizar los datos de adquisición de MS / MS en tándem y el impacto general de los XL detectados en los modelos cuaternarios informados. El resultado de tales análisis se puede aplicar a los modelos estructurales que están incrustados en el portátil utilizando NGLView.

Introduction

Las interacciones proteína-proteína sustentan la estructura y función de los sistemas biológicos. Tener acceso a estructuras cuaternarias de proteínas puede proporcionar información sobre cómo dos o más proteínas interactúan para formar estructuras de alto orden. Desafortunadamente, la obtención de estructuras cuaternarias sigue siendo un desafío; esto se refleja en el número comparativamente pequeño de entradas1 del Banco de Datos de Proteínas (PDB) que contienen más de un polipéptido. Las interacciones proteína-proteína se pueden estudiar con tecnologías como la cristalografía de rayos X, la RMN y la crio-EM, pero obtener una cantidad suficiente de proteína purificada en condiciones en las que se pueden aplicar los métodos puede llevar mucho tiempo.

La espectrometría de masas de reticulación química se desarrolló para obtener datos experimentales sobre las interacciones proteína-proteína con menos restricciones en la preparación de la muestra, ya que la espectrometría de masas se puede utilizar para adquirir datos sobre muestras arbitrariamente complejas 2,3,4,5,6,7,8,9 . Sin embargo, la naturaleza combinatoria del análisis de datos y el número relativamente pequeño de péptidos reticulados requieren que las muestras se fraccionen antes del análisis. Para abordar esta deficiencia, desarrollamos TX-MS, un método que combina el modelado computacional con la espectrometría de masas de reticulación química10. TX-MS se puede utilizar en muestras arbitrariamente complejas y es significativamente más sensible en comparación con los métodos anteriores10. Esto se logra al calificar todos los datos asociados con una interacción proteína-proteína dada como un conjunto en lugar de interpretar cada espectro de EM de forma independiente. TX-MS también utiliza hasta tres protocolos diferentes de adquisición de MS: MS1 de alta resolución (hrMS1), adquisición dependiente de datos (DDA) y adquisición independiente de datos (DIA), lo que brinda oportunidades para identificar un péptido reticulado mediante la combinación de múltiples observaciones. El flujo de trabajo computacional TX-MS es complejo por varias razones. En primer lugar, se basa en múltiples programas de software de análisis de EM 11,12,13 para crear modelos de estructura de proteínas 14,15. En segundo lugar, la cantidad de datos puede ser considerable. En tercer lugar, el paso de modelado puede consumir cantidades significativas de potencia de procesamiento de la computadora.

En consecuencia, TX-MS se utiliza mejor como un flujo de trabajo computacional automatizado y simplificado a través del servidor web Cheetah-MS16 que se ejecuta en grandes infraestructuras computacionales, como nubes o clústeres informáticos. Para facilitar la interpretación de los resultados, elaboramos un Jupyter Notebook17 interactivo. Aquí, demostramos cómo se puede ampliar el informe de Jupyter Notebook para producir un análisis más profundo de un resultado determinado.

Protocol

1. Envíe el flujo de trabajo en https://txms.org. Vaya a https://txms.org y haga clic en “Usar Cheetah-MS”. Para enviar el flujo de trabajo, debe proporcionar dos archivos PDB y un archivo MS/MS mzML o MGF. También puede hacer clic en “cargar datos de muestra” para ver la versión de demostración del flujo de trabajo.NOTA: Consulte la página del manual del servidor web para obtener información detallada sobre cómo enviar un trabajo. El servidor web admite diferentes agentes de enlace cruzado no escindibles, hasta 12 modificaciones post-traduccionales (PTM), opciones relacionadas con el modelado computacional y el análisis de datos de MS. También se diseñan pequeños botones de ayuda en la página de envío para mostrar más información sobre cada opción. 2. Ejecute Cheetah-MS. NOTA: Convierta los formatos específicos del proveedor a mzML o MGF utilizando el software ProteoWizard MSConvert19. Cargue los datos de MS en https://txms.org. Luego, haga clic en “Elegir archivo” y seleccione los datos de MS, que deben estar en los formatos de datos mzML / MGF18.NOTA: Los datos de ejemplo están disponibles en https://txms.org. Estos datos también son directamente accesibles a través de zenodo.org, DOI 10.5281/zenodo.3361621. Cargue dos archivos PDB en https://txms.org. Haga clic en “Elegir archivo” y seleccione los archivos PDB para cargar.NOTA: Si no existen estructuras experimentales, cree modelos utilizando, por ejemplo, SWISS-MODEL20 si hay estructuras de homólogo disponibles, o servidores web trRosetta21,22 o Robetta23,24 para predicciones de estructuras de novo. Envíe un nuevo flujo de trabajo. Haga clic en “Enviar” para recibir una etiqueta de identificador de trabajo. Luego, siga el formulario hasta la sección de resultados usando esta etiqueta.NOTA: Calcular el resultado lleva tiempo, así que espere hasta que finalice el flujo de trabajo y almacene la etiqueta de identificador de trabajo para volver a la página de resultados. El cálculo se lleva a cabo en una infraestructura computacional remota. Si desea ejecutar TX-MS localmente, consulte Hauri et al.10. Inspeccione el informe de Jupyter Notebook con el visor en línea. Luego, desplácese hacia abajo hasta “Informe” en la sección de resultados usando la etiqueta de identificador de trabajo. 3. Instale JupyterHub. Instale docker según las instrucciones de https://docs.docker.com/install/. Descargue el contenedor docker de JupyterHub con la extensión Jupyter openBIS25. El comando general es “docker pull malmstroem/jove:latest”, pero puede diferir en otras plataformas.NOTA: Para obtener una discusión general sobre cómo descargar contenedores, consulte https://www.docker.com/get-started. También es posible descargar el contenedor desde zenodo.org, DOI 10.5281/zenodo.3361621.NOTA: El código fuente de la extensión Jupyter openBIS está disponible aquí: https://pypi.org/project/jupyter-openbis-extension/. Inicie el contenedor docker: docker run -p 8178:8000 malmstroem/jove:latest.NOTA: El puerto que JupyterHub utiliza de forma predeterminada es 8000. Este puerto es configurable, y los comandos anteriores deben ajustarse en consecuencia si se cambian. El puerto 8178 es una elección arbitraria y se puede cambiar. Las URL de ejemplo que se proporcionan a continuación deben ajustarse en consecuencia. Vaya a la siguiente dirección: http://127.0.0.1:8178. Inicie sesión con el nombre de usuario “usuario” y la contraseña “usuario”.Nota : la dirección http://127.0.0.1 implica que el contenedor docker se está ejecutando en el equipo local. Si el contenedor docker se ejecuta en un servidor, utilice la dirección IP o URL del servidor (por ejemplo, https://example.com). El contenedor docker se basa en Ubuntu Bionic 18.04, JupyterHub 0.9.6 y Jupyter openBIS extension 0.2. Es posible instalar esto en otros sistemas operativos, pero esto no se probó. 4. Descargue el informe. Cree un nuevo bloc de notas haciendo clic en Nuevo| Python 3 usando el menú ubicado cerca de la parte superior derecha de la página. Esto abrirá una nueva pestaña con un bloc de notas llamado Sin título (o algo similar). Haga clic en “Configurar conexiones openBIS” en el menú de herramientas de Jupyter. Rellene el nombre: txms; URL: https://txms.org; usuario: invitado; contraseña: guestpasswd. Haga clic en “Conectar”. Elija la nueva conexión y haga clic en “Elegir conexión”. Busque la plantilla de informe (por ejemplo, /CHEETAH/WF70) y haga clic en Descargar.Nota : debe ajustar la plantilla de informe en función de los resultados y el informe que obtuvo al ejecutar su trabajo en el servidor web Cheetah-MS. Vuelva a ejecutar el informe haciendo clic en celda | Ejecutar todo. 5. Ampliar el informe. Agregar una nueva celda en la parte inferior: Celda | Insertar a continuación. Escriba el código deseado. Para obtener un ejemplo, consulte la sección Resultados representativos a continuación. Ejecute la celda presionando “Shift-Enter”.

Representative Results

TX-MS proporciona resultados estructurales soportados por restricciones experimentales derivadas de MS. Funciona combinando diferentes tipos de adquisición de datos de MS con modelos computacionales. Por lo tanto, es útil analizar cada dato de MS por separado y proporcionar visualización de la estructura de salida. Supplementary Data 1 contiene un portátil de ejemplo que puede analizar datos DDA y DIA producidos como salida TX-MS. Los usuarios pueden seleccionar el XL de interés. Al ejecutar el cuaderno, se mostrará el espectro MS2 de ese XL donde diferentes colores ayudan a discriminar entre fragmentos relacionados con el primer péptido, el segundo péptido y los iones de fragmento combinatorio. El XL también se puede asignar a la estructura utilizando el widget NGLView incrustado en un Jupyter Notebook. Otra celda de este bloc de notas puede ayudar a los usuarios a analizar y visualizar los datos de DIA. Sin embargo, visualizar los datos dia es más difícil porque los datos analizados deben prepararse en el formato correcto. La Figura 1 muestra una estructura de ejemplo de M1 y albúmina con XLs superiores mapeados en la estructura. TX-MS obtuvo todos los XL después de analizar los datos hrMS1, DDA y DIA, y el protocolo RosettaDock proporcionó los modelos computacionales. Como este informe es un jupyter Notebook, cualquier código Python válido se puede agregar a las nuevas celdas del bloc de notas. Por ejemplo, el código siguiente creará un histograma sobre los recuentos de MS2, indicando qué tan bien soportado está cada enlace cruzado por los datos subyacentes.importar nacidos en el mar como SNSsns.distplot(ms2[‘conde’]); Figura 1: Modelo estructural de la proteína M1 de Streptococcus pyogenes y albúmina humana con XL mapeados en la estructura. La proteína M1 se muestra en gris y constituye un homodímero. Las seis moléculas de albúmina se presentan como pares en varios tonos de azul. Los enlaces cruzados y las distancias se dan en rojo con texto negro. Haga clic aquí para ver una versión más grande de esta figura. Expediente complementario. Datos del cuaderno Jupyter. Haga clic aquí para descargar este archivo.

Discussion

Los flujos de trabajo computacionales modernos a menudo son complejos, con múltiples herramientas de muchos proveedores diferentes, interdependencias complejas, altos volúmenes de datos y resultados multifacéticos. En consecuencia, es cada vez más difícil documentar con precisión todos los pasos necesarios para obtener un resultado, lo que dificulta la reproducción del resultado dado. Aquí, demostramos una estrategia general que combina la automatización y la facilidad de un flujo de trabajo automatizado que produce un informe genérico, con la flexibilidad de personalizar el informe de una manera reproducible.

Deben cumplirse tres requisitos para que el protocolo funcione: en primer lugar, las proteínas seleccionadas para el análisis deben interactuar de tal manera que el experimento de reticulación química pueda producir especies reticuladas a una concentración suficientemente alta para ser detectadas por el espectrómetro de masas; diferentes espectrómetros de masas tienen diferentes niveles de detección y también dependen del protocolo de adquisición, así como de la elección del reactivo de reticulación. La versión actual del protocolo TX-MS solo permite DSS, un reactivo reticulado homobifuncional de lisina-lisina. Aún así, esta limitación se debe principalmente a la posibilidad de que el paso de aprendizaje automático deba ajustarse para otros reactivos. Esta limitación se ha mejorado en el servidor web Cheetah-MS, ya que se pueden considerar dos reactivos de reticulación más, pero los tres son reactivos no escindibles. En segundo lugar, las dos proteínas necesitan tener una estructura determinada experimentalmente o ser modeladas utilizando técnicas de modelado comparativo o técnicas de novo . No todas las proteínas pueden ser modeladas, pero una combinación de software mejorado y una deposición constante de estructuras experimentales en el PDB amplía el número de proteínas que se pueden modelar. En tercer lugar, las proteínas que interactúan deben permanecer lo suficientemente similares en sus estados unidos y no unidos para que los algoritmos de acoplamiento utilizados por TX-MS y Cheetah-MS puedan crear estructuras cuaternarias de calidad adecuada para permitir la puntuación. Este requisito es relativamente vago, ya que la calidad aceptable depende en gran medida del sistema, donde las proteínas más pequeñas de estructura conocida son generalmente más fáciles de comparar que las proteínas más grandes de estructura desconocida.

En caso de un resultado negativo, primero verifique que TX-MS encontró intra-enlaces, enlaces cruzados entre residuos que forman parte de la misma cadena polipeptídica. Si no se descubre ninguno, la explicación más probable es que algo salió mal con la preparación de la muestra o la adquisición de datos. Si las restricciones de distancia múltiples no admiten los modelos, inspeccione visualmente los modelos para asegurarse de que la conformación esté soportada por residuos reticulados. No hay una forma obvia de pivotar uno de los interactores sin interrumpir al menos un enlace cruzado. Si hay enlaces cruzados más largos que la distancia permitida para el reactivo de reticulación dado, intente mejorar el modelado de los interactores incorporando datos de reticulación.

Es posible utilizar aplicaciones de software alternativas para lograr resultados equivalentes siempre que la sensibilidad del software elegido sea comparable a la sensibilidad de TX-MS. Por ejemplo, hay versiones en línea de RosettaDock, HADDOCK y otros. También es posible analizar datos de reticulación química a través de xQuest/xProphet 5,6, plink7 y SIM-XL26.

Estamos aplicando continuamente TX-MS y Cheetah-MS a nuevos proyectos 27,28,29, mejorando así los informes producidos por estos enfoques para permitir un análisis más detallado de los resultados sin hacer que los informes sean más grandes.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por la Fundación de Knut y Alice Wallenberg (subvención no. 2016.0023) y la Fundación Nacional de Ciencias de Suiza (subvención no. P2ZHP3_191289). Además, agradecemos a S3IT, Universidad de Zurich, por su infraestructura computacional y soporte técnico.

Materials

Two Protein DataBank files of the proteins of interest. N/A N/A Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked. N/A N/A Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

References

  1. Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
  2. Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
  3. Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
  4. Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
  5. Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
  6. Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
  7. Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
  8. Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
  9. Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
  10. Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
  11. Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
  12. Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
  13. Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
  14. Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
  15. Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
  16. Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
  17. Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, 237-248 (1977).
  18. Martens, L., et al. mzML–a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
  19. Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
  20. Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
  21. Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
  22. Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
  23. Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
  24. Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
  25. Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
  26. Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
  27. Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
  28. Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
  29. Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Play Video

Cite This Article
Khakzad, H., Vermeul, S., Malmström, L. Quaternary Structure Modeling Through Chemical Cross-Linking Mass Spectrometry: Extending TX-MS Jupyter Reports. J. Vis. Exp. (176), e60311, doi:10.3791/60311 (2021).

View Video