Analyse van één deeltje in cryo-elektronenmicroscopie is een van de belangrijkste technieken die worden gebruikt om de structuur van biologische ensembles met hoge resolutie te bepalen. Scipion biedt de tools om de hele pijplijn te creëren om de informatie die door de microscoop wordt verkregen te verwerken en een 3D-reconstructie van het biologische specimen te bereiken.
Cryo-elektronenmicroscopie is een van de belangrijkste hulpmiddelen in biologisch onderzoek geworden om de structurele informatie van macromoleculen met een bijna atomaire resolutie te onthullen. Bij analyse met één deeltje wordt het verglaasde monster in beeld gebracht door een elektronenbundel en de detectoren aan het einde van de microscoopkolom produceren films van dat monster. Deze films bevatten duizenden afbeeldingen van identieke deeltjes in willekeurige oriëntaties. De gegevens moeten een beeldverwerkingsworkflow doorlopen met meerdere stappen om het uiteindelijke 3D-gereconstrueerde volume te verkrijgen. Het doel van de beeldverwerkingsworkflow is om de acquisitieparameters te identificeren om het bestudeerde monster te kunnen reconstrueren. Scipion biedt alle tools om deze workflow te creëren met behulp van verschillende beeldverwerkingspakketten in een integratief kader, waardoor ook de traceerbaarheid van de resultaten mogelijk is. In dit artikel wordt de hele beeldverwerkingsworkflow in Scipion gepresenteerd en besproken met gegevens afkomstig van een echte testcase, die alle details geeft die nodig zijn om van de films verkregen door de microscoop naar een uiteindelijke 3D-reconstructie met hoge resolutie te gaan. Ook wordt de kracht besproken van het gebruik van consensustools die het combineren van methoden en het bevestigen van resultaten tijdens elke stap van de workflow mogelijk maken, waardoor de nauwkeurigheid van de verkregen resultaten wordt verbeterd.
In cryo-elektronenmicroscopie (cryo-EM) is single particle analysis (SPA) van verglaasde bevroren gehydrateerde monsters een van de meest gebruikte en succesvolle varianten van beeldvorming voor biologische macromoleculen, omdat het moleculaire interacties en de functie van biologische ensembles kan begrijpen1. Dit is te danken aan de recente vooruitgang in deze beeldvormingstechniek die aanleiding gaf tot de “resolutierevolutie”2 en die de succesvolle bepaling van biologische 3D-structuren met bijna atomaire resolutie mogelijk heeft gemaakt. Momenteel was de hoogste resolutie bereikt in SPA cryo-EM 1,15 Å voor apoferritin3 (EMDB-vermelding: 11668). Deze technologische vooruitgang omvat verbeteringen in de monstervoorbereiding4, de beeldacquisitie5 en de beeldverwerkingsmethoden6. Dit artikel is gericht op dit laatste punt.
Kortom, het doel van de beeldverwerkingsmethoden is om alle acquisitieparameters te identificeren om het beeldvormingsproces van de microscoop om te keren en de 3D-structuur van het bestudeerde biologische monster te herstellen. Deze parameters zijn de versterking van de camera, de door de bundel geïnduceerde beweging, de aberraties van de microscoop (voornamelijk de onscherpte), de 3D-hoekoriëntatie en vertaling van elk deeltje en de conformatietoestand in het geval van een monster met conformatieveranderingen. Het aantal parameters is echter zeer hoog en cryo-EM vereist het gebruik van lage dosisbeelden om stralingsschade te voorkomen, wat de signaal-ruisverhouding (SNR) van de verkregen beelden aanzienlijk vermindert. Het probleem kan dus niet ondubbelzinnig worden opgelost en alle te berekenen parameters kunnen alleen schattingen zijn. Tijdens de beeldverwerkingsworkflow moeten de juiste parameters worden geïdentificeerd, waarbij de resterende worden weggegooid om uiteindelijk een 3D-reconstructie met hoge resolutie te verkrijgen.
De gegevens die door de microscoop worden gegenereerd, worden verzameld in frames. Simpel gezegd, een frame bevat het aantal elektronen dat op een bepaalde positie (pixel) in het beeld is aangekomen, wanneer elektronenteldetectoren worden gebruikt. In een bepaald gezichtsveld worden verschillende frames verzameld en dit wordt een film genoemd. Omdat lage elektronendoses worden gebruikt om stralingsschade te voorkomen die het monster zou kunnen vernietigen, is de SNR erg laag en moeten de frames die overeenkomen met dezelfde film worden gemiddeld om een beeld te verkrijgen dat structurele informatie over het monster onthult. Er wordt echter niet alleen een eenvoudig gemiddelde toegepast, het monster kan tijdens de beeldvormingstijd verschuivingen en andere soorten bewegingen ondergaan als gevolg van de door de bundel geïnduceerde beweging die moet worden gecompenseerd. De shift-gecompenseerde en gemiddelde frames zijn afkomstig van een micrograaf.
Zodra de micrografieën zijn verkregen, moeten we de aberraties schatten die door de microscoop voor elk van hen worden geïntroduceerd, de contrastoverdrachtfunctie (CTF) genoemd, die de veranderingen in het contrast van de micrograaf als functie van de frequentie vertegenwoordigt. Vervolgens kunnen de deeltjes worden geselecteerd en geëxtraheerd, wat deeltjesplukken wordt genoemd. Elk deeltje moet een kleine afbeelding zijn die slechts één kopie van het bestudeerde monster bevat. Er zijn drie families van algoritmen voor deeltjesselectie: 1) degenen die alleen een basisparametrisatie van het uiterlijk van het deeltje gebruiken om ze te vinden in de hele set micrografieën (bijv. Deeltjesgrootte), 2) degenen die leren hoe de deeltjes eruit zien van de gebruiker of een voorgetrainde set, en 3) degenen die afbeeldingssjablonen gebruiken. Elke familie heeft andere eigenschappen die later worden getoond.
De geëxtraheerde set deeltjes in de micrografieën zal worden gebruikt in een 2D-classificatieproces dat twee doelen heeft: 1) het reinigen van de set deeltjes door de subset met zuivere ruisbeelden, overlappende deeltjes of andere artefacten weg te gooien, en 2) de gemiddelde deeltjes die elke klasse vertegenwoordigen, kunnen worden gebruikt als eerste informatie om een 3D-initieel volume te berekenen.
De 3D initiële volumeberekening is de volgende cruciale stap. Het probleem van het verkrijgen van de 3D-structuur kan worden gezien als een optimalisatieprobleem in een multidimensionaal oplossingslandschap, waar het globale minimum het beste 3D-volume is dat de oorspronkelijke structuur vertegenwoordigt, maar er verschillende lokale minima kunnen worden gevonden die suboptimale oplossingen vertegenwoordigen en waar het heel gemakkelijk is om gevangen te raken. Het initiële volume vertegenwoordigt het startpunt voor het zoekproces, dus een slechte initiële volumeschatting kan ons verhinderen om het globale minimum te vinden. Vanaf het eerste volume zal een 3D-classificatiestap helpen om verschillende conformatietoestanden te ontdekken en de set deeltjes opnieuw te reinigen; het doel is om een structureel homogene populatie van deeltjes te verkrijgen. Daarna zal een 3D-verfijningsstap verantwoordelijk zijn voor het verfijnen van de hoek- en translatieparameters voor elk deeltje om het best mogelijke 3D-volume te krijgen.
Ten slotte kan in de laatste stappen de verkregen 3D-reconstructie worden geslepen en gepolijst. Slijpen is een proces van het stimuleren van de hoge frequenties van het gereconstrueerde volume, en het polijsten is een stap om sommige parameters, zoals CTF of beam-geïnduceerde bewegingscompensatie, op het niveau van deeltjes verder te verfijnen. Ook kunnen sommige validatieprocedures worden gebruikt om de bereikte oplossing aan het einde van de workflow beter te begrijpen.
Na al deze stappen zullen de traceer- en koppelingsprocessen7 helpen om een biologische betekenis te geven aan de verkregen 3D-reconstructie, door atoommodellen de novo te bouwen of bestaande modellen aan te passen. Als een hoge resolutie wordt bereikt, zullen deze processen ons de posities van de biologische structuren, zelfs van de verschillende atomen, in onze structuur vertellen.
Met Scipion8 kunt u de hele workflow creëren door de meest relevante beeldverwerkingspakketten op een integratieve manier te combineren. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17 en nog veel meer pakketten kunnen worden opgenomen in Scipion. Het bevat ook alle benodigde tools om de integratie, interoperabiliteit, traceerbaarheid en reproduceerbaarheid ten goede te komen om de volledige beeldverwerkingsworkflow volledig te volgen8.
Een van de krachtigste tools die Scipion ons in staat stelt te gebruiken, is de consensus, wat betekent dat we de resultaten die zijn verkregen met verschillende methoden in één stap van de verwerking kunnen vergelijken, waardoor een combinatie van de informatie wordt gemaakt die door verschillende methoden wordt overgebracht om een nauwkeurigere uitvoer te genereren. Dit kan helpen om de prestaties te verbeteren en de bereikte kwaliteit in de geschatte parameters te verbeteren. Merk op dat een eenvoudigere workflow kan worden gebouwd zonder het gebruik van consensusmethoden; we hebben echter de kracht van deze tool gezien22,25 en de workflow die in dit manuscript wordt gepresenteerd, zal deze in verschillende stappen gebruiken.
Alle stappen die in de vorige paragrafen zijn samengevat, worden in de volgende sectie in detail uitgelegd en gecombineerd in een volledige workflow met behulp van Scipion. Ook zal worden getoond hoe de consensustools kunnen worden gebruikt om een hogere overeenstemming in de gegenereerde outputs te bereiken. Daartoe is gekozen voor de voorbeelddataset van het Plasmodium falciparum 80S Ribosoom (EMPIAR entry: 10028, EMDB entry: 2660). De dataset wordt gevormd door 600 films van 16 frames van grootte 4096×4096 pixels bij een pixelgrootte van 1,34Å genomen bij een FEI POLARA 300 met een FEI FALCON II-camera, met een gerapporteerde resolutie bij EMDB is 3,2Å18 .
Momenteel is cryo-EM een belangrijk hulpmiddel om de 3D-structuur van biologische monsters te onthullen. Wanneer goede gegevens met de microscoop worden verzameld, zullen de beschikbare verwerkingstools ons in staat stellen om een 3D-reconstructie van het bestudeerde macromolecuul te verkrijgen. Cryo-EM-gegevensverwerking is in staat om een bijna atomaire resolutie te bereiken, wat de sleutel is tot het begrijpen van het functionele gedrag van een macromolecuul en ook cruciaal is bij het ontdekken van geneesmiddelen.
Scipion is een software die het mogelijk maakt om de hele workflow te creëren door de meest relevante beeldverwerkingspakketten op een integratieve manier te combineren, wat de traceerbaarheid en reproduceerbaarheid van de volledige beeldverwerkingsworkflow ten goede komt. Scipion biedt een zeer complete set tools om de verwerking uit te voeren; het verkrijgen van hoge resolutie reconstructies hangt echter volledig af van de kwaliteit van de verkregen gegevens en hoe deze gegevens worden verwerkt.
Om een 3D-reconstructie met hoge resolutie te krijgen, is de eerste vereiste om goede films van de microscoop te verkrijgen, die structurele informatie tot hoge resolutie bewaren. Als dit niet het geval is, kan de workflow geen high-definition informatie uit de gegevens extraheren. Vervolgens moet een succesvolle verwerkingsworkflow in staat zijn om deeltjes te extraheren die echt overeenkomen met de structuur en om de oriëntaties van deze deeltjes in de 3D-ruimte te vinden. Als een van de stappen in de workflow mislukt, gaat de kwaliteit van het gereconstrueerde volume achteruit. Scipion maakt het mogelijk om verschillende pakketten te gebruiken in een van de verwerkingsstappen, wat helpt om de meest adequate aanpak te vinden om de gegevens te verwerken. Bovendien kunnen, dankzij het beschikbaar hebben van vele pakketten, consensustools worden gebruikt, die de nauwkeurigheid vergroten door overeenstemming te vinden in de geschatte outputs van verschillende methoden. Ook is het in detail besproken in de sectie Representatieve resultaten verschillende validatietools en hoe u nauwkeurige en onnauwkeurige resultaten in elke stap van de workflow kunt identificeren, potentiële problemen kunt detecteren en hoe u kunt proberen ze op te lossen. Er zijn verschillende checkpoints langs het protocol die kunnen helpen om te beseffen of het protocol goed werkt of niet. Enkele van de meest relevante zijn: picking, 2D-classificatie, initiële volumeschatting en 3D-uitlijning. Het controleren van de invoer, het herhalen van de stap met een andere methode of het gebruik van consensus zijn beschikbare opties in Scipion die de gebruiker kan gebruiken om oplossingen te vinden wanneer er problemen optreden.
Met betrekking tot de vorige benaderingen van pakketintegratie in het Cryo-EM-veld, is Appion31 de enige die echte integratie van verschillende softwarepakketten mogelijk maakt. Appion is echter nauw verbonden met Leginon32, een systeem voor het geautomatiseerd verzamelen van beelden van elektronenmicroscopen. Het belangrijkste verschil met Scipion is dat datamodel en opslag minder gekoppeld zijn. Op deze manier hoeft er voor het maken van een nieuw protocol in Scipion alleen een Python-script te worden ontwikkeld. In Appion moet de ontwikkelaar echter het script schrijven en de onderliggende database wijzigen. Samenvattend is Scipion ontwikkeld om onderhoud en uitbreidbaarheid te vereenvoudigen.
We hebben in dit manuscript een complete workflow voor Cryo-EM verwerking gepresenteerd, met behulp van de real case dataset van het Plasmodium falciparum 80S Ribosoom (EMPIAR entry: 10028, EMDB entry: 2660). De stappen die hier worden behandeld en besproken, kunnen worden samengevat als filmuitlijning, CTF-schatting, deeltjesselectie, 2D-classificatie, initiële kaartschatting, 3D-classificatie, 3D-verfijning, evaluatie en nabewerking. Er zijn verschillende pakketten gebruikt en in verschillende van deze stappen zijn consensustools toegepast. Het uiteindelijke 3D gereconstrueerde volume bereikte een resolutie van 3 Å en in het nabewerkte volume kunnen enkele secundaire structuren worden onderscheiden, zoals alfa-helices, die helpen beschrijven hoe atomen in de ruimte zijn gerangschikt.
De workflow die in dit manuscript wordt gepresenteerd, laat zien hoe Scipion kan worden gebruikt om verschillende Cryo-EM-pakketten op een eenvoudige en integratieve manier te combineren om de verwerking te vereenvoudigen en tegelijkertijd een betrouwbaarder resultaat te verkrijgen.
In de toekomst zal de ontwikkeling van nieuwe methoden en pakketten blijven groeien en software zoals Scipion om ze allemaal gemakkelijk te integreren zal nog belangrijker zijn voor de onderzoekers. Consensusbenaderingen zullen zelfs dan relevanter zijn, wanneer er veel methoden met verschillende basis beschikbaar zullen zijn, waardoor nauwkeurigere schattingen kunnen worden verkregen van alle parameters die betrokken zijn bij het reconstructieproces in Cryo-EM. Tracking en reproduceerbaarheid zijn de sleutel in het onderzoeksproces en gemakkelijker te bereiken met Scipion dankzij het hebben van een gemeenschappelijk kader voor de uitvoering van volledige workflows.
The authors have nothing to disclose.
De auteurs willen graag economische steun erkennen van: Het Spaanse ministerie van Wetenschap en Innovatie door middel van subsidies: PID2019-104757RB-I00 / AEI / 10.13039 / 501100011033, de “Comunidad Autónoma de Madrid” via Grant: S2017 / BMD-3817, Instituto de Salud Carlos III, PT17 / 0009 / 0010 (ISCIII-SGEFI / EFRO), Europese Unie (EU) en Horizon 2020 door middel van subsidie: INSTRUCT – ULTRA (INFRADEV-03-2016-2017, Voorstel: 731005), EOSC Life (INFRAEOSC-04-2018, Voorstel: 824087), iNEXT – Discovery (Voorstel: 871037) en HighResCells (ERC – 2018 – SyG, Voorstel: 810057). Het project dat aanleiding gaf tot deze resultaten kreeg de steun van een fellowship van “la Caixa” Foundation (ID 100010434). De fellowshipcode is LCF/BQ/DI18/11660021. Dit project heeft financiering ontvangen van het Horizon 2020 onderzoeks- en innovatieprogramma van de Europese Unie in het kader van de Marie Skłodowska-Curie-subsidieovereenkomst nr. 713673. De auteurs erkennen de steun en het gebruik van middelen van Instruct, een Landmark ESFRI-project.