La spettrometria di massa a reticolazione mirata crea modelli di struttura proteica quaternaria utilizzando i dati della spettrometria di massa acquisiti utilizzando fino a tre diversi protocolli di acquisizione. Quando viene eseguito come flusso di lavoro semplificato sul server Web Cheetah-MS, i risultati vengono riportati in un notebook Jupyter. Qui, dimostriamo gli aspetti tecnici di come il Jupyter Notebook può essere esteso per un’analisi più approfondita.
Le interazioni proteina-proteina possono essere difficili da studiare, ma forniscono informazioni su come funzionano i sistemi biologici. La spettrometria di massa a reticolazione mirata (TX-MS), un metodo che combina la modellazione della struttura proteica quaternaria e la spettrometria di massa a reticolazione chimica, crea modelli di struttura ad alta precisione utilizzando dati ottenuti da campioni complessi e non frazionati. Questo rimuove uno dei maggiori ostacoli all’analisi della struttura del complesso proteico perché le proteine di interesse non hanno più bisogno di essere purificate in grandi quantità. Il server web Cheetah-MS è stato sviluppato per rendere la versione semplificata del protocollo più accessibile alla comunità. Considerando i dati MS/MS in tandem, Cheetah-MS genera un Jupyter Notebook, un report grafico che riassume i risultati delle analisi più importanti. L’estensione del Notebook Jupyter può fornire informazioni più approfondite e comprendere meglio il modello e i dati della spettrometria di massa che lo supportano. Il protocollo tecnico qui presentato dimostra alcune delle estensioni più comuni e spiega quali informazioni possono essere ottenute. Contiene blocchi per aiutare ad analizzare i dati di acquisizione MS / MS in tandem e l’impatto complessivo degli XL rilevati sui modelli quaternari segnalati. Il risultato di tali analisi può essere applicato a modelli strutturali incorporati nel notebook utilizzando NGLView.
Le interazioni proteina-proteina sono alla base della struttura e della funzione dei sistemi biologici. Avere accesso a strutture quaternarie di proteine può fornire informazioni su come due o più proteine interagiscono per formare strutture di alto ordine. Sfortunatamente, ottenere strutture quaternarie rimane impegnativo; ciò si riflette nel numero relativamente piccolo di voci1 della Protein DataBank (PDB) contenenti più di un polipeptide. Le interazioni proteina-proteina possono essere studiate con tecnologie come la cristallografia a raggi X, la NMR e la crio-EM, ma ottenere una quantità sufficiente di proteine purificate in condizioni in cui i metodi possono essere applicati può richiedere molto tempo.
La spettrometria di massa a reticolazione chimica è stata sviluppata per ottenere dati sperimentali sulle interazioni proteina-proteina con meno restrizioni sulla preparazione del campione in quanto la spettrometria di massa può essere utilizzata per acquisire dati su campioni arbitrariamente complessi 2,3,4,5,6,7,8,9 . Tuttavia, la natura combinatoria dell’analisi dei dati e il numero relativamente piccolo di peptidi reticolati richiedono che i campioni siano frazionati prima dell’analisi. Per affrontare questa lacuna, abbiamo sviluppato TX-MS, un metodo che combina la modellazione computazionale con la spettrometria di massa a reticolazione chimica10. TX-MS può essere utilizzato su campioni arbitrariamente complessi ed è significativamente più sensibile rispetto ai metodi precedenti10. Lo fa assegnando un punteggio a tutti i dati associati a una determinata interazione proteina-proteina come un insieme invece di interpretare ogni spettro MS in modo indipendente. TX-MS utilizza anche fino a tre diversi protocolli di acquisizione MS: MS1 ad alta risoluzione (hrMS1), acquisizione dipendente dai dati (DDA) e acquisizione indipendente dai dati (DIA), fornendo ulteriori opportunità per identificare un peptide reticolato combinando più osservazioni. Il flusso di lavoro computazionale TX-MS è complesso per diversi motivi. In primo luogo, si basa su più programmi software di analisi della SM 11,12,13 per creare modelli di struttura proteica 14,15. In secondo luogo, la quantità di dati può essere considerevole. In terzo luogo, la fase di modellazione può consumare quantità significative di potenza di elaborazione del computer.
Di conseguenza, TX-MS è meglio utilizzato come flusso di lavoro computazionale automatizzato e semplificato attraverso il server web Cheetah-MS16 che viene eseguito su grandi infrastrutture computazionali come cloud di computer o cluster. Per facilitare l’interpretazione dei risultati, abbiamo prodotto un Jupyter Notebook17 interattivo. Qui dimostriamo come il report Jupyter Notebook può essere esteso per produrre un’analisi più approfondita di un determinato risultato.
I moderni flussi di lavoro computazionali sono spesso complessi, con più strumenti di molti fornitori diversi, interdipendenze complesse, volumi di dati elevati e risultati sfaccettati. Di conseguenza, è sempre più difficile documentare con precisione tutti i passaggi necessari per ottenere un risultato, rendendo difficile la riproduzione del risultato dato. Qui, dimostriamo una strategia generale che combina l’automazione e la facilità di un flusso di lavoro automatizzato che produce un report generico, con la flessibilità di personalizzare il report in modo riproducibile.
Affinché il protocollo funzioni, devono essere soddisfatti tre requisiti: in primo luogo, le proteine selezionate per l’analisi devono interagire in modo tale che l’esperimento di reticolazione chimica possa produrre specie reticolate a una concentrazione sufficientemente elevata da essere rilevata dallo spettrometro di massa; diversi spettrometri di massa hanno diversi livelli di rilevamento e dipendono anche dal protocollo di acquisizione e dalla scelta del reagente reticolante. L’attuale versione del protocollo TX-MS consente solo DSS, un reagente di reticolazione omobifunzionale lisina-lisina. Tuttavia, questa limitazione è dovuta principalmente alla possibilità che la fase di apprendimento automatico debba essere regolata per altri reagenti. Questa limitazione è stata migliorata nel server web Cheetah-MS in quanto possono essere considerati altri due reagenti cross-linking, ma tutti e tre sono reagenti non scissibili. In secondo luogo, le due proteine devono avere una struttura determinata sperimentalmente o essere modellate utilizzando tecniche di modellazione comparativa o tecniche de novo . Non tutte le proteine possono essere modellate, ma una combinazione di software migliorato e una deposizione costante di strutture sperimentali nel PDB espande il numero di proteine che possono essere modellate. In terzo luogo, le proteine interagenti dovrebbero rimanere sufficientemente simili nei loro stati legati e non legati in modo che gli algoritmi di docking in uso da TX-MS e Cheetah-MS possano creare strutture quaternarie di qualità adeguata per consentire il punteggio. Questo requisito è relativamente vago, poiché la qualità accettabile è altamente dipendente dal sistema, dove le proteine più piccole di struttura nota sono generalmente più facili da confrontare rispetto alle proteine più grandi di struttura sconosciuta.
In caso di risultato negativo, verificare innanzitutto che TX-MS abbia trovato intra-collegamenti, legami incrociati tra residui che fanno parte della stessa catena polipeptidica. Se non ne viene scoperto nessuno, la spiegazione più probabile è che qualcosa sia andato storto con la preparazione del campione o l’acquisizione dei dati. Se i modelli non supportano vincoli di distanza multipli, ispezionare visivamente i modelli per assicurarsi che la conformazione sia supportata da residui reticolati. Non esiste un modo ovvio per ruotare uno degli interattori senza interrompere almeno un collegamento incrociato. Se ci sono collegamenti incrociati più lunghi della distanza consentita per il reagente di reticolazione dato, cercare di migliorare la modellazione degli interattori incorporando i dati di reticolazione.
È possibile utilizzare applicazioni software alternative per ottenere risultati equivalenti a condizione che la sensibilità del software scelto sia paragonabile alla sensibilità di TX-MS. Ad esempio, ci sono versioni online di RosettaDock, HADDOCK e altri. È anche possibile analizzare i dati di reticolazione chimica tramite xQuest/xProphet 5,6, plink7 e SIM-XL26.
Applichiamo continuamente TX-MS e Cheetah-MS a nuovi progetti27,28,29, migliorando così i report prodotti da questi approcci per consentire un’analisi più dettagliata dei risultati senza ingrandire i report.
The authors have nothing to disclose.
Questo lavoro è stato sostenuto dalla Fondazione di Knut e Alice Wallenberg (sovvenzione n. 2016.0023) e dal Fondo nazionale svizzero per la ricerca scientifica (sovvenzione n. P2ZHP3_191289). Inoltre, ringraziamo S3IT, Università di Zurigo, per la sua infrastruttura computazionale e il supporto tecnico.
Two Protein DataBank files of the proteins of interest. | N/A | N/A | Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621 |
An mzML data file acquired on a sample where the proteins of interest were crosslinked. | N/A | N/A | Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621 |