L’analisi a singola particella in microscopia crioelettronica è una delle principali tecniche utilizzate per determinare la struttura degli insiemi biologici ad alta risoluzione. Scipion fornisce gli strumenti per creare l’intera pipeline per elaborare le informazioni acquisite dal microscopio e ottenere una ricostruzione 3D del campione biologico.
La crioscopia elettronica è diventata uno degli strumenti più importanti nella ricerca biologica per rivelare le informazioni strutturali delle macromolecole a risoluzione quasi atomica. Nell’analisi a singola particella, il campione vetrificato viene ripreso da un fascio di elettroni e i rivelatori all’estremità della colonna del microscopio producono filmati di quel campione. Questi filmati contengono migliaia di immagini di particelle identiche in orientamenti casuali. I dati devono passare attraverso un flusso di lavoro di elaborazione delle immagini con più passaggi per ottenere il volume finale ricostruito in 3D. L’obiettivo del flusso di lavoro di elaborazione delle immagini è quello di identificare i parametri di acquisizione per poter ricostruire il campione in studio. Scipion fornisce tutti gli strumenti per creare questo flusso di lavoro utilizzando diversi pacchetti di elaborazione delle immagini in un framework integrativo, consentendo anche la tracciabilità dei risultati. In questo articolo l’intero flusso di lavoro di elaborazione delle immagini in Scipion viene presentato e discusso con dati provenienti da un vero e proprio test case, fornendo tutti i dettagli necessari per passare dai filmati ottenuti al microscopio ad una ricostruzione 3D finale ad alta risoluzione. Inoltre, viene discusso il potere di utilizzare strumenti di consenso che consentono di combinare metodi e confermare i risultati lungo ogni fase del flusso di lavoro, migliorando l’accuratezza dei risultati ottenuti.
Nella microscopia crioelettronica (cryo-EM), l’analisi di singole particelle (SPA) di campioni vetrificati congelati-idratati è una delle varianti più utilizzate e di successo dell’imaging per macromolecole biologiche, in quanto consente di comprendere le interazioni molecolari e la funzione degli insiemi biologici1. Questo grazie ai recenti progressi in questa tecnica di imaging che hanno dato origine alla “rivoluzione della risoluzione”2 e hanno permesso la determinazione di successo di strutture biologiche 3D con risoluzione quasi atomica. Attualmente, la risoluzione più alta raggiunta in SPA cryo-EM è stata di 1,15 Å per apoferritin3 (voce EMDB: 11668). Questi progressi tecnologici comprendono miglioramenti nella preparazione dei campioni4, nell’acquisizione delle immagini5 e nei metodi di elaborazione delle immagini6. Questo articolo è focalizzato su quest’ultimo punto.
In breve, l’obiettivo dei metodi di elaborazione delle immagini è quello di identificare tutti i parametri di acquisizione per invertire il processo di imaging del microscopio e recuperare la struttura 3D del campione biologico in studio. Questi parametri sono il guadagno della fotocamera, il movimento indotto dal fascio, le aberrazioni del microscopio (principalmente il defocalizzato), l’orientamento angolare 3D e la traduzione di ogni particella e lo stato conformazionale in caso di avere un campione con cambiamenti conformazionali. Tuttavia, il numero di parametri è molto elevato e la crio-EM richiede l’utilizzo di immagini a basso dosaggio per evitare danni da radiazioni, il che riduce significativamente il rapporto segnale-rumore (SNR) delle immagini acquisite. Pertanto, il problema non può essere risolto in modo inequivocabile e tutti i parametri da calcolare solo possono essere stime. Lungo il flusso di lavoro di elaborazione delle immagini, è necessario identificare i parametri corretti, scartando quelli rimanenti per ottenere finalmente una ricostruzione 3D ad alta risoluzione.
I dati generati dal microscopio sono raccolti in fotogrammi. Semplificando, un fotogramma contiene il numero di elettroni che sono arrivati in una particolare posizione (pixel) nell’immagine, ogni volta che vengono utilizzati rilevatori di conteggio degli elettroni. In un particolare campo visivo, vengono raccolti diversi fotogrammi e questo è chiamato film. Poiché vengono utilizzate basse dosi di elettroni per evitare danni da radiazioni che potrebbero distruggere il campione, l’SNR è molto basso e i fotogrammi corrispondenti allo stesso film devono essere mediati per ottenere un’immagine che riveli informazioni strutturali sul campione. Tuttavia, non viene applicata solo una media semplice, il campione può subire spostamenti e altri tipi di movimenti durante il tempo di imaging a causa del movimento indotto dal fascio che deve essere compensato. I fotogrammi compensati e mediati dal cambio originano una micrografia.
Una volta ottenute le micrografie, dobbiamo stimare le aberrazioni introdotte dal microscopio per ciascuna di esse, chiamate Funzione di trasferimento di contrasto (CTF), che rappresenta i cambiamenti nel contrasto della micrografia in funzione della frequenza. Quindi, le particelle possono essere selezionate ed estratte, che si chiama raccolta di particelle. Ogni particella dovrebbe essere una piccola immagine contenente solo una copia del campione in studio. Esistono tre famiglie di algoritmi per il prelievo di particelle: 1) quelli che usano solo una parametrizzazione di base dell’aspetto della particella per trovarli nell’intero set di micrografie (ad esempio, la dimensione delle particelle), 2) quelli che imparano come appaiono le particelle dall’utente o da un set pre-addestrato e 3) quelli che usano modelli di immagine. Ogni famiglia ha proprietà diverse che verranno mostrate in seguito.
L’insieme estratto di particelle trovate nelle micrografie verrà utilizzato in un processo di classificazione 2D che ha due obiettivi: 1) pulire l’insieme di particelle scartando il sottoinsieme contenente immagini di rumore puro, particelle sovrapposte o altri artefatti e 2) le particelle medie che rappresentano ciascuna classe potrebbero essere utilizzate come informazioni iniziali per calcolare un volume iniziale 3D.
Il calcolo del volume iniziale 3D è il prossimo passo cruciale. Il problema di ottenere la struttura 3D può essere visto come un problema di ottimizzazione in un panorama di soluzioni multidimensionali, in cui il minimo globale è il miglior volume 3D che rappresenta la struttura originale, ma si possono trovare diversi minimi locali che rappresentano soluzioni non ottimali e dove è molto facile rimanere intrappolati. Il volume iniziale rappresenta il punto di partenza per il processo di ricerca, quindi una cattiva stima del volume iniziale potrebbe impedirci di trovare il minimo globale. Dal volume iniziale, una fase di classificazione 3D aiuterà a scoprire diversi stati conformazionali e a ripulire l’insieme delle particelle; l’obiettivo è quello di ottenere una popolazione strutturalmente omogenea di particelle. Successivamente, una fase di perfezionamento 3D sarà incaricata di perfezionare i parametri angolari e di traslazione per ogni particella per ottenere il miglior volume 3D possibile.
Infine, negli ultimi passaggi, la ricostruzione 3D ottenuta può essere affilata e lucidata. L’affilatura è un processo di potenziamento delle alte frequenze del volume ricostruito, e la lucidatura è un passo per perfezionare ulteriormente alcuni parametri, come CTF o compensazione del movimento indotta dal fascio, a livello di particelle. Inoltre, alcune procedure di convalida potrebbero essere utilizzate per comprendere meglio la risoluzione raggiunta alla fine del flusso di lavoro.
Dopo tutti questi passaggi, i processi di tracciamento e attracco7 aiuteranno a dare un significato biologico alla ricostruzione 3D ottenuta, costruendo modelli atomici de novo o adattando modelli esistenti. Se si raggiunge un’alta risoluzione, questi processi ci diranno le posizioni delle strutture biologiche, anche dei diversi atomi, nella nostra struttura.
Scipion8 consente di creare l’intero flusso di lavoro combinando i pacchetti di elaborazione delle immagini più rilevanti in modo integrativo. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17 e molti altri pacchetti possono essere inclusi in Scipion. Inoltre, incorpora tutti gli strumenti necessari per favorire l’integrazione, l’interoperabilità, la tracciabilità e la riproducibilità per effettuare un monitoraggio completo dell’intero flusso di lavoro di elaborazione delle immagini8.
Uno degli strumenti più potenti che Scipion ci consente di utilizzare è il consenso, il che significa confrontare i risultati ottenuti con diversi metodi in una fase dell’elaborazione, creando una combinazione delle informazioni veicolate con metodi diversi per generare un output più accurato. Ciò potrebbe contribuire a migliorare le prestazioni e migliorare la qualità raggiunta nei parametri stimati. Si noti che un flusso di lavoro più semplice può essere creato senza l’uso di metodi di consenso; tuttavia, abbiamo visto la potenza di questo strumento22,25 e il flusso di lavoro presentato in questo manoscritto lo utilizzerà in diversi passaggi.
Tutti i passaggi che sono stati riassunti nei paragrafi precedenti saranno spiegati in dettaglio nella sezione seguente e combinati in un flusso di lavoro completo utilizzando Scipion. Inoltre, verrà mostrato come utilizzare gli strumenti di consenso per raggiungere un accordo più elevato nei risultati generati. A tal fine, è stato scelto il set di dati di esempio del ribosoma Plasmodium falciparum 80S (voce EMPIAR: 10028, voce EMDB: 2660). Il set di dati è formato da 600 filmati di 16 fotogrammi di dimensioni 4096×4096 pixel a una dimensione di pixel di 1,34 Å ripresi a un FEI POLARA 300 con una fotocamera FEI FALCON II, con una risoluzione riportata su EMDB è 3.2Å18 .
Attualmente, cryo-EM è uno strumento chiave per rivelare la struttura 3D dei campioni biologici. Quando vengono raccolti buoni dati con il microscopio, gli strumenti di elaborazione disponibili ci permetteranno di ottenere una ricostruzione 3D della macromolecola in studio. L’elaborazione dei dati Cryo-EM è in grado di raggiungere una risoluzione quasi atomica, che è la chiave per comprendere il comportamento funzionale di una macromolecola ed è anche cruciale nella scoperta di farmaci.
Scipion è un software che consente di creare l’intero flusso di lavoro combinando i pacchetti di elaborazione delle immagini più rilevanti in modo integrativo, che aiuta la tracciabilità e la riproducibilità dell’intero flusso di lavoro di elaborazione delle immagini. Scipion fornisce un set molto completo di strumenti per effettuare l’elaborazione; tuttavia, l’ottenimento di ricostruzioni ad alta risoluzione dipende completamente dalla qualità dei dati acquisiti e dal modo in cui questi dati vengono elaborati.
Per ottenere una ricostruzione 3D ad alta risoluzione, il primo requisito è quello di ottenere buoni filmati dal microscopio, che preservino le informazioni strutturali ad alta risoluzione. In caso contrario, il flusso di lavoro non sarà in grado di estrarre informazioni ad alta definizione dai dati. Quindi, un flusso di lavoro di elaborazione di successo dovrebbe essere in grado di estrarre particelle che corrispondono realmente alla struttura e di trovare gli orientamenti di queste particelle nello spazio 3D. Se uno dei passaggi del flusso di lavoro non riesce, la qualità del volume ricostruito verrà ridotta. Scipion consente di utilizzare diversi pacchetti in una qualsiasi delle fasi di elaborazione, il che aiuta a trovare l’approccio più adeguato per elaborare i dati. Inoltre, grazie alla disponibilità di molti pacchetti, è possibile utilizzare strumenti di consenso che aumentano l’accuratezza trovando un accordo nei risultati stimati di diversi metodi. Inoltre, è stato discusso in dettaglio nella sezione Risultati rappresentativi diversi strumenti di convalida e come identificare risultati accurati e imprecisi in ogni fase del flusso di lavoro, per rilevare potenziali problemi e come cercare di risolverli. Ci sono diversi checkpoint lungo il protocollo che potrebbero aiutare a capire se il protocollo funziona correttamente o meno. Alcuni dei più rilevanti sono: picking, classificazione 2D, stima iniziale del volume e allineamento 3D. Controllare gli input, ripetere il passaggio con un metodo diverso o utilizzare il consenso, sono opzioni disponibili in Scipion che l’utente può utilizzare per trovare soluzioni quando si presentano problemi.
Per quanto riguarda i precedenti approcci all’integrazione dei pacchetti in ambito Cryo-EM, Appion31 è l’unico che consente una reale integrazione di diversi pacchetti software. Tuttavia, Appion è strettamente connesso con Leginon32, un sistema per la raccolta automatizzata di immagini da microscopi elettronici. La differenza principale con Scipion è che il modello di dati e l’archiviazione sono meno accoppiati. In tal modo, per creare un nuovo protocollo in Scipion, è necessario sviluppare solo uno script Python. Tuttavia, in Appion, lo sviluppatore deve scrivere lo script e modificare il database sottostante. In sintesi, Scipion è stato sviluppato per semplificare la manutenzione e l’estensibilità.
Abbiamo presentato in questo manoscritto un flusso di lavoro completo per l’elaborazione Cryo-EM, utilizzando il set di dati del caso reale del ribosoma Plasmodium falciparum 80S (voce EMPIAR: 10028, voce EMDB: 2660). I passaggi trattati e discussi qui possono essere riassunti come allineamento del film, stima CTF, raccolta delle particelle, classificazione 2D, stima iniziale della mappa, classificazione 3D, perfezionamento 3D, valutazione e post-elaborazione. Sono stati utilizzati diversi pacchetti e sono stati applicati strumenti di consenso in molti di questi passaggi. Il volume finale ricostruito in 3D ha raggiunto una risoluzione di 3 Å e, nel volume post-elaborato, si possono distinguere alcune strutture secondarie, come le alfa-eliche, che aiutano a descrivere come gli atomi sono disposti nello spazio.
Il flusso di lavoro presentato in questo manoscritto mostra come Scipion può essere utilizzato per combinare diversi pacchetti Cryo-EM in modo semplice e integrativo per semplificare l’elaborazione e ottenere risultati più affidabili allo stesso tempo.
In futuro, lo sviluppo di nuovi metodi e pacchetti continuerà a crescere e software come Scipion per integrarli facilmente tutti saranno ancora più importanti per i ricercatori. Gli approcci di consenso saranno più rilevanti anche allora, quando saranno disponibili molti metodi con basi diverse, contribuendo a ottenere stime più accurate di tutti i parametri coinvolti nel processo di ricostruzione in Cryo-EM. Il monitoraggio e la riproducibilità sono fondamentali nel processo di ricerca e più facili da raggiungere con Scipion grazie all’avere un framework comune per l’esecuzione di flussi di lavoro completi.
The authors have nothing to disclose.
Gli autori desiderano riconoscere il sostegno economico di: Il Ministero spagnolo della Scienza e dell’Innovazione attraverso sovvenzioni: PID2019-104757RB-I00/AEI/10.13039/501100011033, la “Comunidad Autónoma de Madrid” attraverso Grant: S2017/BMD-3817, Instituto de Salud Carlos III, PT17/0009/0010 (ISCIII-SGEFI/FESR), Unione Europea (UE) e Horizon 2020 attraverso la sovvenzione: INSTRUCT – ULTRA (INFRADEV-03-2016-2017, Proposta: 731005), EOSC Life (INFRAEOSC-04-2018, Proposta: 824087), iNEXT – Discovery (Proposta: 871037) e HighResCells (ERC – 2018 – SyG, Proposta: 810057). Il progetto che ha dato origine a questi risultati ha ricevuto il sostegno di una borsa di studio della Fondazione “la Caixa” (ID 100010434). Il codice della borsa di studio è LCF/BQ/DI18/11660021. Questo progetto ha ricevuto finanziamenti dal programma di ricerca e innovazione Horizon 2020 dell’Unione europea nell’ambito della convenzione di sovvenzione Marie Skłodowska-Curie n. 713673. Gli autori riconoscono il supporto e l’uso delle risorse di Instruct, un progetto Landmark ESFRI.