Summary

Assemblaggio di genoma ibrido De Novo per la generazione di genomi completi di batteri urinari utilizzando tecnologie di sequenziamento a lettura breve e lunga

Published: August 20, 2021
doi:

Summary

Questo protocollo descrive un approccio completo per la coltura, il sequenziamento e l’assemblaggio del genoma ibrido de novo dei batteri urinari. Fornisce una procedura riproducibile per la generazione di sequenze genomiche circolari complete utili nello studio di elementi genetici sia cromosomici che extracromosomiali che contribuiscono alla colonizzazione urinaria, alla patogenesi e alla diffusione della resistenza antimicrobica.

Abstract

Le sequenze complete del genoma forniscono dati preziosi per la comprensione della diversità genetica e dei fattori di colonizzazione unici dei microbi urinari. Questi dati possono includere elementi genetici mobili, come plasmidi e fagi extracromosomiali, che contribuiscono alla diffusione della resistenza antimicrobica e complicano ulteriormente il trattamento dell’infezione del tratto urinario (UTI). Oltre a fornire una risoluzione fine della struttura del genoma, i genomi completi e chiusi consentono la genomica comparativa dettagliata e le analisi evolutive. La generazione di genomi completi de novo è stata a lungo un compito impegnativo a causa delle limitazioni della tecnologia di sequenziamento disponibile. Il sequenziamento di nuova generazione (NGS) di alta qualità produce brevi letture di alta qualità, spesso con conseguenti assemblaggi di genoma accurati ma frammentati. Al contrario, il sequenziamento a nanopori fornisce lunghe letture di qualità inferiore che normalmente portano a assemblaggi completi soggetti a errori. Tali errori possono ostacolare gli studi di associazione a livello di genoma o fornire risultati fuorvianti dell’analisi delle varianti. Pertanto, gli approcci ibridi che combinano letture brevi e lunghe sono emersi come metodi affidabili per ottenere genomi batterici chiusi altamente accurati. Qui riportato è riportato un metodo completo per la coltura di diversi batteri urinari, l’identificazione delle specie mediante sequenziamento del gene rRNA 16S, l’estrazione del DNA genomico (gDNA) e la generazione di letture brevi e lunghe da piattaforme NGS e Nanopore, rispettivamente. Inoltre, questo metodo descrive una pipeline bioinformatica di algoritmi di controllo qualità, assemblaggio e previsione genica per la generazione di sequenze genomiche complete annotate. La combinazione di strumenti bioinformatici consente la selezione di dati di lettura di alta qualità per l’assemblaggio del genoma ibrido e l’analisi a valle. L’approccio semplificato per l’assemblaggio del genoma ibrido de novo descritto in questo protocollo può essere adattato per l’uso in qualsiasi batterio coltivabile.

Introduction

Il microbioma urinario è un’area emergente di ricerca che ha frantumato un malinteso lungo decenni che il tratto urinario è sterile in individui sani. I membri del microbiota urinario possono servire a bilanciare l’ambiente urinario e prevenire l’infezione del tratto urinario (UTI)1,2. I batteri uropatogeni invadono le vie urinarie e impiegano diversi meccanismi di virulenza per spostare il microbiota residente, colonizzare l’urotelio, eludere le risposte immunitarie e contrastare le pressioni ambientali3,4. L’urina è un mezzo relativamente nutriente-limitato caratterizzato da alta osmolarità, limitata disponibilità di azoto e carboidrati, bassa ossigenazione e basso pH5,6,7. L’urina è anche considerata antimicrobica, composta da alte concentrazioni di urea inibitoria e peptidi antimicrobici come la catelicidina umana LL-378. Studiare i meccanismi impiegati sia dai batteri residenti che dagli uropatogeni per colonizzare il tratto urinario è fondamentale per comprendere ulteriormente la salute del tratto urinario e sviluppare nuove strategie per il trattamento delle UTI. Inoltre, poiché il fallimento delle terapie antimicrobiche di prima linea diventa più comune, è sempre più importante monitorare la diffusione di elementi genetici mobili portatori di determinanti di resistenza antimicrobica all’interno di popolazioni di batteri urinari9,10.

Per studiare genotipi e fenotipi di batteri urinari, la loro coltura di successo e il successivo sequenziamento dell’intero genoma (WGS) è imperativo. Sono necessari metodi dipendenti dalla coltura per rilevare e identificare microbi vitali nei campioni di urina11. La coltura clinica standard delle urine prevede la placcatura dell’urina sul 5% di agar di sangue di pecora (BAP) e l’agar MacConkey e l’incubazione aerobica a 35 °C per 24 ore12. Tuttavia, con una soglia di rilevazione di ≥105 CFU/mL13,molti membri del microbiota urinario non sono segnalati con questo metodo. Tecniche di coltivazione migliorate come Enhanced Quantitative Urine Culture (EQUC)11 impiegano varie combinazioni di diversi volumi di urina, tempi di incubazione, terreni di coltura e condizioni atmosferiche per identificare i microbi comunemente mancati dalla coltura delle urine standard. Descritto in questo protocollo è una versione modificata di EQUC, chiamato qui Modified Enhanced Urine Culture protocol, che consente la coltura di diversi batteri urinari e uropatogeni utilizzando mezzi selettivi e condizioni atmosferiche ottimali, ma non è intrinsecamente quantitativo. L’isolamento riuscito dei batteri urinari consente l’estrazione del DNA genomico (gDNA) per il WGS a valle e l’assemblaggio del genoma.

Gli assemblaggi del genoma, in particolare gli assemblaggi completi, consentono la scoperta di fattori genetici che possono contribuire alla colonizzazione, al mantenimento della nicchia e alla virulenza sia tra il microbiota residente che tra i batteri uropatogeni. Gli assemblaggi di genomi di bozza contengono un numero diversificato di sequenze contigue (contigs) che possono contenere errori di sequenziamento e mancano di informazioni sull’orientamento. In un assemblaggio completo del genoma, sia l’orientamento che l’accuratezza di ogni coppia di basi sono stati verificati14. Inoltre, ottenere sequenze genomiche complete fornisce informazioni sulla struttura del genoma, sulla diversità genetica e sugli elementi genetici mobili15. Brevi letture da sole possono identificare la presenza o l’assenza di geni importanti, ma potrebbero non individuare il loro contesto genomico16. Con l’abilitazione di tecnologie di sequenziamento a lunga lettura come Oxford Nanopore e PacBio, la generazione di assemblaggi de novo chiusi di genomi batterici non richiede più metodi faticosi come la chiusura manuale di assemblaggi de novo mediante multiplex PCR17,18. La combinazione di next generation short-read sequencing e nanopore long-read sequencing technologies consente la facile generazione di assemblaggi di genomi batterici accurati, completi e chiusi a costi relativamente bassi19. Il sequenziamento a lettura breve produce assemblaggi di genoma accurati ma frammentati generalmente costituiti da una media di 40-100 contig, mentre il sequenziamento nanoporo genera lunghe letture di circa 5-100 kb di lunghezza che sono meno accurate ma possono servire come impalcature per unire i contig e risolvere la sintenia genomica. Gli approcci ibridi che utilizzano tecnologie sia a lettura breve che a lettura lunga possono produrre genomi batterici accurati e completi19.

Qui è descritto un protocollo completo per l’isolamento e l’identificazione dei batteri dalle urine umane, l’estrazione del DNA genomico, il sequenziamento e l’assemblaggio completo del genoma utilizzando un approccio di assemblaggio ibrido. Questo protocollo fornisce un’enfasi particolare sui passaggi necessari per modificare correttamente le letture generate dal sequenziamento a lettura breve e a lunga lettura per l’assemblaggio accurato di un cromosoma batterico chiuso e di elementi extracromosomiali come i plasmidi.

Protocol

I batteri sono stati coltivati da urina raccolta da donne consenzienti come parte degli studi 19MR0011 (UTD) e STU 032016-006 (UTSW) approvati dal comitato di revisione istituzionale. 1. Coltura delle urine migliorata modificata NOTA: Tutte le fasi di coltura devono essere eseguite in condizioni sterili. Sterilizzare tutti gli strumenti, le soluzioni e i supporti. Pulire l’area di lavoro con il 70% di etanolo, quindi impostare un bruciatore Bunsen e lavorare con attenzione vicino alla fiamma per ridurre le possibilità di contaminazione. In alternativa, un armadio di biosicurezza di classe II può essere utilizzato per mantenere un ambiente sterile. Indossare adeguati dispositivi di protezione individuale (DPI) per evitare l’esposizione a microbi potenzialmente patogeni. Placcatura delle urine rifornite di glicerolo e isolamento delle colonie Scongelare l’urina rifornita di glicerolo a temperatura ambiente (RT). Una volta scongelato, ruotare il campione per 5 s da mescolare. In provette sterili di microcentrifuga, preparare le diluizioni 1:3 e 1:30 dell’urina in 1x soluzione salina sterile tamponata con fosfato (PBS) fino a un volume finale di 100 μL.NOTA: l’urina immagazzinata di glicerolo viene preparata mescolando 500 μL di urina non diluita e 500 μL di glicerolo sterile al 50% in crioviali e conservando a -80 °C. Piastre di agar preriscaldate a 37 °C per 15 minuti prima dell’uso. Si veda la Figura 1 per i tipi di media e le condizioni di coltura adatte ai comuni generi batterici urinari. Mescolare bene l’urina diluita pipettando prima della placcatura, piastrare 100 μL di urina diluita sulla piastra di agar desiderata e distribuire il campione utilizzando perline di vetro sterili. Piastra 100 μL del diluente PBS 1x su una piastra separata come controllo della crescita.NOTA: Se si tenta di coltivare specie uropatogene comuni (ad esempio, Escherichia coli, Klebsiella spp., Enterococcus faecalis, ecc.), si consiglia di utilizzare l’agar cromogenico (Tabella dei materiali) in quanto consente una facile identificazione delle specie batteriche uropatogene ( Figura1). L’acido colistino nalidixico (CNA) o l’agar MRS sono utili per isolare le specie Gram-positive fastidiose (ad esempio, Lactobacillus spp.)dalle urine note per contenere uropatogeni Gram-negativi, che possono superare le specie fastidiose negli agar non selettivi. Incubare la piastra invertita nella condizione atmosferica desiderata a 35 °C per un periodo di 24 ore per gli uropatogeni e 3-5 giorni per i batteri fastidiosi (Figura 1). Dopo il periodo di incubazione, rimuovere le piastre dall’incubatrice. Da ogni piatto, scegli le colonie che mostrano un colore, una morfologia o modelli emolitici unici. Ri-strisciare la colonia batterica usando un anello sterile sull’agar corrispondente e incubare la piastra invertita per 2-5 giorni nell’atmosfera desiderata per ottenere colonie ben isolate.NOTA: Se si utilizza BAP per la coltura primaria, l’applicazione di patch alle colonie sull’agar cromogenico può fornire informazioni utili sull’eterogeneità della popolazione batterica nel campione. Coltivazione in brodo liquido e isolati batterici per la produzione di glicerolo Una volta ottenute le colonie isolate che corrispondono alla morfologia della colonia madre, scegliere una singola colonia e inoculare in 3 ml di brodo liquido utilizzando un ciclo di inoculazione sterile. Fare riferimento alla Figura 1 per il brodo in grado di supportare la crescita di generi di microbiota urinario comuni. Sigillare le piastre di agar con parafilm e conservarle a 4 °C per 2-4 giorni. Incubare colture liquide nelle condizioni atmosferiche desiderate per 1-5 giorni fino a quando la coltura è visibilmente torbida. Dopo aver osservato la crescita, vortice la coltura, quindi aggiungere 1 mL della coltura notturna a 500 μL di glicerolo sterile al 50% in una crioviale da 2 ml; sigillare e mescolare delicatamente per inversione. Preparare due scorte di glicerolo per ogni colonia (una funge da backup) e conservare a -80 °C. 2. Identificazione di specie batteriche mediante sequenziamento Sanger del gene rRNA 16S NOTA: L’identità microbica può essere confermata in alternativa utilizzando la spettrometria di massa di ionizzazione del volo assistita da laser assistito da matrice (MALDI-TOF)20. Reazione a catena colonia-polimerasi (PCR) Preparare una reazione PCR di 25 μL in tubi PCR aggiungendo 12,5 μL di 2x Taq Polymerase Master Mix, 0,5 μL di primer 8F 10 μM, 0,5 μL di primer 10 μM 1492R (Tabella dei materiali) e 11,5 μL di acqua priva di nucleasi21.NOTA: se si esegue la PCR per più campioni, creare una miscela master di reazione di miscela di Taq polimerasi, primer e acqua sterile priva di nucleasi. Quindi aliquota 25 μL in ciascun tubo PCR. Per eseguire la PCR della colonia, strisciare una colonia ben isolata dalla ri-striscia usando uno stuzzicadenti sterile o una punta di pipetta. Risospese la colonia nella miscela di reazione PCR preparata al punto 2.1.1. Mescolare delicatamente. Raccogliere il liquido sul fondo del tubo con una rapida rotazione a 2000 x g.NOTA: assicurarsi che il campione sia privo di bolle d’aria. Includere un campione di controllo senza modello (NTC) contenente solo la miscela di reazione PCR. Posizionare le provette campione nel termociclatore ed eseguire il seguente programma: 95 °C per 3 min; 40 cicli di: 95 °C per 30 s, 51 °C per 30 s e 72 °C per 1 min 30 s; 72 °C per 10 min; tenere a 10 °C. Estrazione del gel e identificazione delle specie Al termine dell’esecuzione della PCR, controllare il prodotto PCR su un gel di agarosio all’1% preparato in un tampone Tris-Borato-EDTA (TBE) 0,5x. Prima di lanciare il gel, aggiungere bromuro di etidio (EtBr). Quindi, gettare il gel usando pettini per pozzetti che contengono almeno 20 μL di volume del campione.ATTENZIONE: EtBr è un agente intercalante sospettato di essere cancerogeno. Indossare sempre guanti e DPI quando lo si maneggia e smaltire i materiali contenenti EtBr secondo le linee guida dell’istituzione. Quando il gel è impostato, posizionare il gel nel serbatoio di elettroforesi riempito con tampone TBE 0,5x e rimuovere il pettine. Caricare la scala da 1 kb nel primo pozzo e 10-20 μL della reazione PCR nei pozzetti successivi. Eseguire a 100-140 V fino a quando non viene risolto. Visualizza il gel sotto luce UV e conferma la presenza di una banda chiaramente definita a ~ 1,5 kb che è assente nel pozzo NTC.ATTENZIONE: i raggi UV sono dannosi per la pelle e gli occhi, utilizzare una protezione appropriata quando si visualizza il gel e indossare DPI appropriati.NOTA: La PCR della colonia potrebbe non avere successo per alcuni batteri; procedendo con PCR da gDNA isolato è un’opzione alternativa22. Asportare le fasce ~ 1,5 kb usando un rasoio e trasferire le talee di gel in tubi microcentrifuga puliti. Procedere con il protocollo di estrazione del gel secondo le istruzioni del produttore (Tabella dei materiali). Misurare la concentrazione del DNA purificato mediante spettrofotometro a microvolume.NOTA: è auspicabile una concentrazione >10 ng/μL e A260/280 compresa tra 1,7-2,0 è accettabile. Preparare due reazioni di sequenziamento Sanger per ciascun campione, una utilizzando l’8F e l’altra utilizzando il primer 1492R in acqua priva di nucleasi secondo le linee guida di qualsiasi servizio di sequenziamento Sanger scelto. Una volta ricevuti i dati di sequenziamento, caricare le sequenze di DNA sul sito Web NCBI Basic Local Alignment Search Tool (BLAST) (blast.ncbi.nlm.nih.gov/Blast.cgi), scegliere Nucleotide BLAST (blastn), selezionare le sequenze di RNA ribosomiale 16S del database rRNA/ITS (Bacteria and Archaea) ed eseguire il programma Megablast. L’isolato può essere identificato dal riscontro di qualità più elevata a un riferimento dal database.NOTA: Alcune specie batteriche mostrano un’elevata identità nelle loro sequenze di rRNA 16S e possono essere indistinguibili solo con questo metodo. La speciazione richiederà l’omologia del DNA e le analisi biochimiche per distinguere con sicurezza i membri dello stesso genere23. 3. Estrazione del DNA genomico (gDNA) NOTA: Questa sezione utilizza reagenti e colonne di spin forniti nel kit di estrazione del gDNA a cui si fa riferimento nella Tabella dei materiali per l’estrazione ad alto rendimento di DNA genomico di qualità da diverse specie batteriche. Di seguito sono riportate le modifiche e le istruzioni consigliate. Preparare i reagenti del kit secondo le istruzioni del produttore. Preparare colture da 3-10 ml in brodo sterile appropriato (Figura 1) inoculando batteri da colonie ben isolate nel mezzo e incubando alla temperatura e alla pressione atmosferica indicate nella Figura 1 fino a quando non si osserva una crescita sufficiente. Dopo l’incubazione, misurare la densità ottica a 600 nm (OD600) della coltura utilizzando uno spettrofotometro24. Preparare il campione per la quantificazione diluendo le colture notturne in rapporto 1:10. Includere anche uno spazio vuoto del terreno di coltura sterile per la misurazione. Calcola la densità ottica sottraendo la lettura in bianco dalla lettura del campione e moltiplicando per il fattore di diluizione di dieci. Utilizzando la misurazione OD600 e un rapporto OD600 / CFU / mL prestabilito per la specie, calcolare quanti millilitri di coltura sono necessari per ottenere 2 x 109 celle. Centrifugare il volume di coltura richiesto per 5 minuti a 5000 x g a pellet. Aspirare il surnatante e risospesciare il pellet in un tampone TE freddo da 200 μL (pre-raffreddamento su ghiaccio all’inizio della procedura). Centrifugare il campione per 2 min a 5000 x g. Rimuovere il surnatante, quindi risospesciare il pellet in 180 μL di tampone di lisi enzimatica (ELB) e aggiungere 20 μL di RNasi A pre-bollita (10 mg/mL). Per una lisi efficiente dei batteri Gram-positivi, aggiungere 18 μL di mutanolisina (25 kU/mL). Vortice bene, quindi incubare i campioni a 37 °C sul rotatore per 2 ore.NOTA: Si consiglia di utilizzare l’ELB descritto nel protocollo del produttore sia per i batteri Gram-positivi che gram-negativi. Procedere secondo le istruzioni del produttore.NOTA: Ripetere le fasi di eluizione per una o due volte per ottenere una resa aggiuntiva di gDNA, se lo si desidera. Valutare la qualità del gDNA estratto come indicato nel paragrafo 4 e conservare il gDNA a 4 °C se verrà utilizzato entro 1 settimana. In alternativa, mantenere il gDNA a -20 °C per la conservazione a lungo termine. 4. Valutazione della qualità del gDNA estratto Per valutare la qualità mediante elettroforesi su gel, preparare il gel di agarosio all’1% come descritto nella sottosezione 2.2. Preparare il campione in un tubo pulito: mescolare 1-2 μL di gDNA estratto e 3 μL di colorante 2x di caricamento su parafilm. Esegui il gel una volta caricato, quindi visualizzalo sotto la luce UV.NOTA: Il successo dell’estrazione del gDNA sarà evidente da una banda discreta nella parte superiore del gel e da una sbavatura minima (Figura 2A). La sbavatura è indicativa di tosatura. Se nessuna banda di gDNA è evidente e/o lo spalmamento è sostanziale, ripetere l’estrazione del gDNA. Considerare la riduzione dei tempi di incubazione nella RNasi A e nella Proteinasi K. Se si osservano due bande intorno a 1,5-3 kb, ciò suggerisce la contaminazione da RNA (Figura 2B). Preparare la RNasi A fresca e ripetere l’estrazione. Per valutare la qualità mediante spettrofotometro a microvolume, misurare la concentrazione di gDNA e il rapporto di assorbanza A260/280 mediante spettrofotometro a microvolume. Le concentrazioni >50 ng/μL e A260/280 tra 1,7-2,0 sono accettabili.NOTA: la bassa resa di gDNA può essere dovuta a basso ingresso, alto ingresso, contaminazione delle nucleasi, lisi insufficiente. I rapporti di assorbanza superiori all’intervallo indicano la contaminazione da RNA. Ripetere l’estrazione se la qualità del gDNA è scarsa. Per valutare la qualità del fluorometro, seguire le istruzioni del produttore per quantificare la concentrazione di gDNA utilizzando il kit di analisi ad alta sensibilità e lo strumento fluorometro (Tabella dei materiali). È auspicabile una concentrazione >50 ng/μL. 5. Sequenziamento a lettura breve di nuova generazione accoppiato e preparazione della libreria NOTA: il sequenziamento a lettura breve può essere eseguito su vari strumenti a lunghezze e orientamenti di lettura distinti. Il sequenziamento accoppiato a 150 bp (300 cicli) è raccomandato per il WGS batterico. Sia la preparazione della biblioteca che il sequenziamento possono essere esternalizzati a strutture di base o laboratori commerciali. Preparare la libreria di sequenziamento secondo le istruzioni del produttore (Tabella dei materiali). Seguire la concentrazione della libreria di carico finale raccomandata dal produttore; tuttavia, una modifica consigliata consiste nel caricare la libreria in pool a 1,8 pM per una generazione di lettura ottimale sugli strumenti NextSeq. Sebbene facoltativo, utilizzare un Bioanalyzer (Table of Materials) per valutare la distribuzione dei frammenti della libreria in pool e garantire che la dimensione del frammento sia in media di 600 bp. 6. Preparazione della libreria di sequenziamento Nanopore MinION Preparare la libreria di sequenziamento secondo il protocollo del produttore (Tabella dei materiali). L’utilizzo di due kit di espansione di codici a barre consente il multiplexing di un massimo di 24 campioni su una singola cella di flusso. Si consiglia di eseguire la preparazione della libreria in due parti, 12 campioni alla volta quando si esegue il multiplexing di 24 campioni. Tutti i 24 campioni possono essere raggruppati come descritto di seguito.NOTA: i campioni possono essere conservati a 4 °C durante la notte al termine della legatura nativa del codice a barre – questo fornisce un punto di arresto nel protocollo, se necessario. Alla fine della sezione Di legatura nativa del codice a barre del protocollo di preparazione della libreria, si consiglia di raggruppare le quantità equimolari di ciascun campione fino alla massa massima di DNA (ng) possibile. Per fare ciò, quantificare tutti i campioni dopo la legatura del codice a barre utilizzando un fluorometro (Tabella dei materiali) secondo le istruzioni del produttore. Stimare il volume del campione con la più bassa concentrazione di dsDNA e quindi calcolare il dsDNA totale trovato in questo campione. Utilizzare questo numero per determinare le quantità equimolari di tutti gli altri campioni che verranno raggruppati insieme.NOTA: poiché il calcolo equimolare massimizzerà la quantità di dsDNA aggregato e quindi produrrà un pool ad alto volume (>65 μL), la pulizia è necessaria per concentrare il pool. Pulizia e concentrazione della piscina dsDNA Aggiungere un volume di 2,5 volte di perline paramagnetiche(Table of Materials)al pool di DNA, quindi scorrere delicatamente il tubo per mescolare il contenuto. Posizionare il tubo nel rotatore per 5 minuti a RT. Girare il campione a 2000 x g e pellet su un magnete. Aggiungere 250 μL di etanolo al 70% appena preparato (in acqua priva di nucleasi), facendo attenzione a non disturbare il pellet. Aspirare l’etanolo e ripetere il lavaggio dell’etanolo una volta. Dopo la seconda aspirazione, ruotare il campione a 2000 x g e riposizionarlo sul magnete. Pipettare l’etanolo residuo e lasciare asciugare il campione per circa 30 s. Rimuovere il tubo dal magnete e risospesciare il pellet in 60-70 μL di acqua priva di nucleasi. Incubare a RT per 2 min. Pellet il campione sul magnete fino a quando l’elute non è chiaro, quindi rimuovere l’elute e trasferirlo in un tubo microcentrifuga pulito da 1,5 ml. Quantificare il pool concentrato utilizzando un fluorometro e quindi preparare un’aliquota per procedere alla fase di legatura dell’adattatore: preparare 700 ng del campione in un volume finale di 65 μL. Mantenere il resto della piscina a 4 °C per una seconda corsa da completare una volta terminata la prima corsa. Procedere con la legatura dell’adattatore come indicato dal produttore e caricare il campione sulla cella di flusso. Avviare l’esecuzione della sequenziazione.NOTA: aspirare l’aria e ~200 μL di buffer di stoccaggio dalla porta di adescamento della cella di flusso prima del caricamento del campione. Questo è fondamentale per il successo dell’adescamento delle celle di flusso e del caricamento del campione. Utilizzare una pipetta p1000 e punte quando si disegnano e si depositano soluzioni attraverso la porta di adescamento della cella di flusso. Sequenziare la libreria secondo le istruzioni del produttore. Aprire il software operativo per il sequenziamento e fare clic su Start. Immettere un nome per l’esperimento, una nomenclatura consigliata include la data di esecuzione e il nome dell’utente. Fare clic su Continua con la selezione del kit, selezionare il kit di preparazione della libreria appropriato e i pacchetti di espansione del codice a barre utilizzati,quindi fare clic su Continua a eseguire opzioni . Regolare la lunghezza di esecuzione a 48 ore se si prevede di preparare una libreria sufficiente per una seconda esecuzione (altrimenti lasciare a 72 ore predefinite). Fare clic su Continua a Basecalling. Controlla l’opzione basecalling Config: Fast Basecalling e assicurati che Barcoding sia impostato su Enabled in modo che i file FASTQ di output vengano tagliati delle sequenze di codici a barre e demultiplex in directory separate basate sul codice a barre. Fare clic su Continua all’output. Scegliere dove salvare i dati di sequenziamento dell’output. Aspettatevi circa 30-50 Gb di dati se solo risparmiando l’output FASTQ e >500 Gb di dati se risparmiando anche l’output FAST5. Deseleziona l’opzione filtro Qscore: 7 | Readlength: non filtrato se si prevede di procedere con il filtro descritto nella sezione 7.2, altrimenti lasciare selezionato e regolare Readlength a 200. Fare clic su Continua per eseguire l’installazione e rivedere tutte le impostazioni. Se le impostazioni sono corrette, fare clic su Start, altrimenti fare clic su Indietro e apportare le modifiche necessarie. Se lo si desidera, la cella di flusso può essere lavata secondo le istruzioni del produttore e ricaricata con la piscina rimanente. Ripetere i passaggi di cui alla versione 6.2 per il pool rimanente una volta completata la prima esecuzione e lavata la cella di flusso.NOTA: quando si imposta la seconda esecuzione, regolare la tensione di polarizzazione a -250 mV secondo le raccomandazioni del produttore per le celle di flusso precedentemente utilizzate in tirature superiori a 48 ore. 7. Valutazione e preparazione delle letture NOTA: una struttura di directory consigliata è illustrata nella Figura 4. Creare le directory presenti nel desktop,ovvero Long_Reads, Short_Reads e Trimmed_Reads, prima di procedere con i passaggi di calcolo riportati di seguito. Brevi letture (Figura 3)NOTA: le letture brevi vengono generate nel formato FASTQ. I file contengono 4000 letture massime per FASTQ. Questi sono spesso compressi (.gz archivio) e organizzati in più file. A seconda della piattaforma, i codici a barre vengono in genere tagliati. Alcuni programmi accettano file in formato compresso, altri potrebbero richiedere la loro estrazione prima dell’importazione. Le letture devono superare i passaggi di controllo di qualità (QC) per garantire l’accuratezza dei dati durante l’assemblaggio del genoma. Se CLC Genomics Workbench non è disponibile, è possibile utilizzare programmi alternativi per tagliare e QC letture brevi come Trimmomatic25 o Trim Galore (https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/) per il taglio e FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) per valutare la qualità della lettura. Si consiglia di >100x la copertura media delle letture, stimata moltiplicando il numero di letture per la lunghezza media delle letture e dividendo per la dimensione del genoma.Apri il software Genomics Workbench(Table of Materials)e importa tutti i file FASTQ a lettura breve di fine accoppiati. I file accoppiati verranno generati automaticamente. Crea una nuova cartella sotto CLC_Data facendo clic su Nuovo nella barra degli strumenti in alto e selezionando Cartella… per archiviare i file. Denominare la cartella come desiderato, una convenzione consigliata utilizza l’ID di esempio. Salvare tutto l’output dalla procedura seguente in questa cartella. Nella barra degli strumenti in alto, fai clic sul pulsante Importa e seleziona Illumina… Individuare e selezionare tutti i file di breve lettura che corrispondono all’esempio. Assicurarsi che l’opzione di lettura associata sia selezionata e deselezionare l’opzione Rimuovi letture non riuscite. Fare clic su Avanti, selezionare Salvae fare nuovamente clic su Avanti. Scegli di salvare i file importati nella nuova cartella creata nel passaggio precedente e fai clic su Fine. Creare un elenco di sequenze di tutti i file associati per l’isolato; questo concatena i dati di lettura in un unico file per semplicità di analisi. Nella barra degli strumenti in alto, fai clic sul pulsante Nuovo e seleziona Elenco sequenze… Nell’elenco delle directory a sinistra, selezionare i file da concatenare e utilizzare le frecce per spostarli nell’elenco dei file selezionati a destra. Fare clic su Avanti, selezionare Salvae fare nuovamente clic su Avanti. Scegliere di salvare l’elenco delle sequenze e fare clic su Fine. Una volta generato l’elenco delle sequenze, rinominarlo immediatamente con l’ID di esempio. Eseguire lo strumento QC for Sequencing Reads nell’elenco delle sequenze: questa procedura valuterà i parametri di qualità complessivi delle letture generate da NGS a lettura breve. Cercare lo strumento QC for Sequencing Reads nel menu della casella degli strumenti (finestra in basso a sinistra). Fare doppio clic sullo strumento, quindi scegliere l’elenco delle sequenze da analizzare e fare clic su Avanti. Assicurarsi che tutte le opzioni di output siano selezionate e scegliere Salva in Gestione risultati. Fare clic su Avanti e specificare di salvare i file di output, quindi fare clic su Fine. Eseguite lo strumento Trim Reads nell’elenco delle sequenze: il taglio verrà eseguito in base a qualità, lunghezza e ambiguità. Questo processo presuppone che i codici a barre utilizzati nel sequenziamento siano stati tagliati prima di questo passaggio. Cercare lo strumento Taglia letture nella casella degli strumenti (finestra in basso a sinistra). Fare doppio clic su Trim Reads, quindi scegliere l’elenco delle sequenze da analizzare e fare clic su Avanti. Taglio di qualità: imposta il limite del punteggio di qualità su 0,01 e lascia i nucleotidi ambigui a 2. Fare clic su Avanti.NOTA: i parametri possono essere regolati a discrezione dell’utente; queste sono le impostazioni consigliate. Deselezionare Ritaglio automatico dell’adattatore di lettura (eseguire questa operazione solo se gli adattatori sono stati tagliati dalle letture prima dell’importazione in CLC). Fare clic su Avanti e selezionare Scarta letture sotto lunghezza, utilizzare il valore predefinito 15. Fare clic su Avanti, selezionare Crea report, quindi scegliere Salva. Fare clic su Avanti e specificare dove salvare i file di output. Fare clic su Fine. Esporta l’elenco delle sequenze tagliate: l’assemblaggio e l’analisi ibridi successivi verranno completati al di fuori di CLC e richiedono l’esportazione di file di lettura brevi tagliati. Dalla navigazione della directory in alto a sinistra, scegli il file tagliato generato nel passaggio 7.1.4, quindi fai clic su Esporta nella barra degli strumenti in alto. Selezionare Fastq per il tipo di file di esportazione e fare clic su Avanti. Selezionare Esporta elenco sequenze accoppiate in due file. Quindi, fai clic su Avanti e scegli la directory Trimmed_Reads in cui esportare i file. Fare clic su Fine. Assicurarsi che i file di lettura breve tagliati siano stati esportati correttamente come due file (R1 e R2) con estensione .fastq.NOTA: l’elenco delle sequenze tagliate deve essere esportato in due file, in genere designati da CLC come R1 e R2. Ciò è fondamentale in quanto l’assemblaggio ibrido a valle richiede l’input di dati a lettura breve per essere configurato come tale. Rinominare i file esportati, si prega di astenersi dall’uso di spazi e caratteri speciali nei nomi dei file. Per semplicità è trimmed_short_file un formato consigliato. R1.fastq. Letture lunghe (MinION) (Figura 3)NOTA: la seguente pipeline per la preparazione delle letture di sequenziamento long (MinION) per l’assemblaggio ibrido utilizza i programmi NanoFilt e Nanostat26 eseguiti dalla riga di comando. Installare gli strumenti prima di procedere e avere familiarità con le basi di UNIX per eseguire questi comandi. Si consigliano terminali predefiniti e Bash Shell. Una guida alle lezioni per i comandi e l’utilizzo comuni del terminale è disponibile in Software Carpentry27. Le istruzioni riportate di seguito presuppongono che i file generati vengano denominati con la nomenclatura dei codici a barre (NB01, NB02, ecc.) e vengano salvati nella directory Long_Reads. In alternativa, il filtro di lettura può essere eseguito utilizzando MinKNOW durante l’impostazione dell’esecuzione della sequenziazione. Si consiglia di utilizzare una copertura media di lettura lunga >100x. La lunghezza media di lettura consigliata è di >2000 bp; pertanto, il numero di letture lunghe necessarie è inferiore al numero di letture brevi. Creare nuove directory per ogni codice a barre utilizzato nella corsa (barcode01, barcode02, ecc.) all’interno della directory Long_Reads (Figura 4). Copiare tutti i file .fastq che corrispondono a ciascun codice a barre nella cartella appropriata. Combina tutti i file .fastq per ogni codice a barre di ogni esecuzione. Apri Terminale e vai alle directory dei codici a barre all’interno della directory Long_Reads utilizzando il comando cd: cd Desktop/Long_Reads/barcode01 Concatenare tutti i file .fastq per codice a barre in un unico file .fastq eseguendo il seguente comando: cat *.fastq > NB01.fastqNOTA: questo comando combina tutte le letture di ciascuno dei file FASTQ in un unico FASTQ singolo di grandi dimensioni denominato NB01.fastq. Utilizzare NanoStat per valutare la qualità di lettura del campione eseguendo il seguente comando: NanoStat –fastq NB01.fastq Registrare i risultati copiando l’output in un file di testo o Word per riferimento futuro. Usa NanoFilt per filtrare MinION legge scartando le letture con Q < 7 e lunghezza < 200 eseguendo il comando: NanoFilt -q 7 -l 200 bp NB01.fastq | gzip > NB01 _trimmed.fastq.gz Eseguire NanoStat sul file tagliato generato nel passaggio 7.2.6 eseguendo il comando: NanoStat –fastq NB01 _trimmed.fastq.gz Registrare i risultati copiando l’output in un file di testo o Word e confrontarli con i risultati del passaggio 7.2.4 per assicurarsi che il filtro abbia avuto esito positivo (Tabella 1). Ripetere i passaggi da 7.2.2 a 7.2.8 per ogni codice a barre utilizzato nell’esecuzione della sequenziazione.Nota : il file NB01_trimmed.fastq.gz generato nel passaggio 7.2.6 verrà utilizzato per l’assemblaggio ibrido. 8. Generazione dell’assemblaggio del genoma ibrido NOTA: la seguente pipeline di assemblaggio utilizza Unicycler19,28,29,30 per combinare letture brevi e lunghe preparate nelle sezioni 7.1 e 7.2 ( Figura3). Installa Unicycler e le sue dipendenze ed esegui i comandi seguenti. Si presume che i file di lettura breve esportati nel passaggio 7.1.5 siano denominati trimmed_short_file. R1.fastq e trimmed_short_file. R2.fastq per semplicità. Organizzare i file in lettura breve e i file letti lunghi in un’unica directory denominata Trimmed_Reads. La directory deve contenere quanto segue: Un file .fastq.gz per le letture lunghe tagliate (generato nel passaggio 7.2.6). Due file .fastq (R1 e R2) per letture brevi tagliate (generate nel passaggio 7.1.5). Passare alla directory Trimmed_Reads che memorizza i file letti utilizzando il comando cd in Terminale: cd Desktop/Trimmed_Reads Una volta nella directory corretta, comprimi i due file di lettura breve in modo che siano anche nel formato .fastq.gz eseguendo il seguente comando: gzip trimmed_short_file. R1.fastq Ripetere il passaggio 8.2 sia per R1 che per R2. Verificare che tutti i file letti siano ora nel formato .fastq.gz e verificare che tutti i file corrispondano allo stesso isolato. Avviare l’assembly ibrido utilizzando Unicycler eseguendo il comando seguente:monociclo -1 trimmed_short_file. R1.fastq.gz -2 trimmed_short_file. R2.fastq.gz -l NB01 _trimmed.fastq.gz -o unicycler_output_directoryNOTA: -o specifica la directory in cui verrà salvato l’output di Unicycler, Unicycler creerà questa directory una volta eseguito il comando; non generare la directory in anticipo. Il tempo di esecuzione varia in base alla potenza di calcolo del computer utilizzato, nonché alle dimensioni del genoma e al numero di letture. Questo può richiedere da 4 ore a 1 o 2 giorni. Questo protocollo è stato eseguito su una macchina CentOS Linux 7 con 250 Gb di RAM, CPU Intel Xeon (R) con 2,5 GHz 12 core pratici e 48 core virtuali. In alternativa, i personal computer con 16 Gb di RAM e processori a 6 core a 2,6 GHz possono calcolare questi assembly con un tempo di elaborazione più lungo. Al termine dell’esecuzione, rivedere il file .log uniclo per assicurarsi che non vi siano errori: registrare il numero, le dimensioni e lo stato (completo, incompleto) dei contig generati. Se vengono identificati contig incompleti (indicati come incompleti nel registro uniciclista), eseguire nuovamente Unicycler in modalità grassetto aggiungendo il seguente flag al comando nel passaggio 8.4: –mode bold.NOTA: la modalità grassetto abbassa la soglia di qualità accettata per i bridge di lettura lunga durante l’assemblaggio; questo può produrre un assieme completo, ma la qualità dell’assieme può essere ridotta. Si raccomanda di utilizzare la modalità grassetto solo quando necessario e come prova preliminare per l’adesione a contig da confermare successivamente dalla PCR. 9. Valutazione della qualità dell’assemblaggio NOTA: il seguente protocollo utilizza Bandage31 e QUAST32, due programmi che devono essere configurati prima dell’uso (Figura 2 e Figura 4). Bandage non richiede l’installazione una volta scaricato e QUAST richiede familiarità con l’utilizzo di base della riga di comando. Si raccomanda inoltre di valutare la completezza del genoma utilizzando Benchmarking Universal Single-Copy Orthologs (BUSCO)33. Benda: Fare clic su File. Quindi, selezionate Carica grafico (Load Graph) e selezionate il file assembly.gfa salvato in unicycler_output_directory generato da Unicycler nel passaggio 8.4. Una volta caricato, fare clic sul pulsante Disegna grafico sulla barra degli strumenti di sinistra e osservare come i contig (chiamati nodi) sono collegati e organizzati per valutare se l’assieme è completo (Figura 5).NOTA: gli assiemi completi sono rappresentati da singoli contigi circolari collegati ad entrambe le estremità (Figura 5A,B). Gli assiemi incompleti hanno più contig collegati tra loro o sono lineari (Figura 5C). Piccoli contigs lineari potrebbero non essere incompleti in quanto potrebbero indicare elementi extracromosomiali lineari. La copertura, detta anche profondità, sarà notata in bendaggio e rappresenta l’abbondanza relativa dei contigs al cromosoma, normalizzata in Unicycler a 1x. QUAST All’interno del Terminale, vai alla cartella che memorizza l’output del monociclo usando il comando cd: cd Desktop/Trimmed_Reads/unicycler_output_directoryNOTA: gli spazi non sono consentiti nel percorso in cui si trova l’assieme, ovvero nessuna directory che conduce all’output del monociclo può avere spazi nel proprio nome. In alternativa, copiare il file assembly.fasta sul desktop per un facile accesso. Eseguire QUAST eseguendo il comando seguente: quast assembly.fasta -o quast_output_directory Esaminare i report generati da QUAST nella directory di output quast_output_directory. 10. Annotazione del genoma NOTA: la pipeline di annotazioni riportata di seguito utilizza Prokka34,uno strumento da riga di comando che deve essere installato prima dell’utilizzo. In alternativa, utilizzare Prokka attraverso la GUI automatizzata K-Base(Table of Materials)o annotare i genomi tramite il server web RAST35. Se si depositano genomi in NCBI, verranno automaticamente annotati utilizzando la Prokaryotic Genome Annotation Pipeline (PGAP)36. Passare all’interno del Terminale alla cartella che memorizza l’output del monociclo utilizzando il comando cd (vedere il passaggio 9.2.1). Quindi, esegui Prokka eseguendo il seguente comando: prokka –prefisso sample_ID –outdir prokka_output_directory assembly.fastaNOTA: –prefix nominerà tutti i file di output in base al sample_ID specificato. –outdir creerà una directory di output con il nome specificato in cui verranno salvati tutti i file di output Prokka; non creare una directory di output per Prokka in anticipo. Rivedere le annotazioni aprendo la tabella .tsv e/o caricando il file .gff generato in un software di analisi delle sequenze per visualizzare e analizzare le annotazioni (Figura 6). Tipi specifici di annotazioni possono essere generati a seconda dei fattori genetici di interesse. Si consiglia di iniziare con gli strumenti user-friendly sul server web del Center for Genomic Epidemiology (www.genomicepidemiology.org/) per l’analisi preliminare37,38,39,40,41. Sono disponibili strumenti aggiuntivi per il rilevamento di sistemi CRISPR-cas e profagi (Figura 3)42,43. 11. Pratiche suggerite per la democratizzazione dei dati Quando possibile, deposita tutti i dati grezzi letti e i genomi assemblati in un repository pubblico come NCBI Sequence Read Archive (SRA) e Genbank. I genomi vengono automaticamente annotati tramite la pipeline PGAP durante il processo di deposizione NCBI.

Representative Results

Questo protocollo è stato ottimizzato per la coltura e il sequenziamento di batteri urinari appartenenti ai generi elencati in Figura 1. Non tutti i batteri urinari sono coltivabili con questo metodo. I terreni e le condizioni di coltura sono specificati dal genere nella Figura 1. Valutazioni esemplari dell’elettroforesi su gel dell’integrità del gDNA sono descritte nella Figura 2. Una panoramica della pipeline bioinformatica per il sequenziamento dell’elaborazione della lettura, dell’assemblaggio del genoma e dell’annotazione è descritta nella Figura 3. Nella Figura 4 viene fornita una guida per la struttura delle directory computazionali per semplificare la comprensione del protocollo e fornire un framework per un’organizzazione di successo. Inoltre, sono inclusi genomi completi rappresentativi di due Klebsiella spp., K. pneumoniae e K. oxytoca, che sono stati generati da questo protocollo. Una rappresentazione di questi assiemi è fornita nella Figura 5 e include anche un ulteriore esempio incompleto del genoma di K. pneumoniae. Una panoramica dettagliata di ogni genoma completo completamente annotato è mostrata nella Figura 6. Infine, un riepilogo delle statistiche di lettura del sequenziamento è fornito nella Tabella 1 per offrire un’ampia comprensione dei dati grezzi e tagliati sufficienti per la generazione di assemblaggi di genomi chiusi di alta qualità. Inoltre, i parametri chiave dei due rappresentanti completano Klebsiella spp. i genomi sono elencati. Genomi e dati grezzi sono stati depositati in Genbank nell’ambito del BioProject PRJNA683049. Figura 1: Coltura delle urine migliorata modificata di diversi generi urinari. Grafico per l’agar e il brodo liquido che possono essere utilizzati per coltivare diversi generi urinari. Si suggerisce di effettuare tutte le colture a 35 °C come descritto nella sottosezione 1.1. I cerchi rappresentano supporti appropriati per la coltivazione di un particolare genere, i colori sono stati selezionati arbitrariamente per distinguere un tipo di supporto da un altro. CDC-AN BAP (rosso), CDC Anaerobe Sheep Blood Agar; 5% Sheep-BAP (arancione), Sheep Blood Agar; BHI (verde), Brain Heart Infusion; TSB (giallo), brodo di soia triptico; Orientamento CHROMagar (blu). unaGardnerella vaginalis deve essere coltivata con HBT Bilayer G. vaginalis Agar selettivo in atmosfera microaerofila e sotto speciali requisiti di coltura del brodo44. bLactobacillus iners deve essere coltivato su piastre rabbit-BAP al 5% e brodo NYCIII in atmosfera microaerofila. cLactobacillus spp. può essere coltivato con MRS in condizioni microaerofile. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 2: Immagini di gel di agarosio per l’estrazione del DNA genomico. Immagini rappresentative del gel raffiguranti i risultati dell’estrazione del gDNA. (A) Corsia 1: scala da 1 kb, corsia 2: gDNA intatto che rappresenta l’estrazione riuscita, corsia 3: sbavatura che indica gDNA frammentato. (B) Corsia 1: scala da 1 kb, corsie 2 e 3: contaminazione da rRNA indicata da due bande comprese tra 1,5 kb e 3 kb. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 3: Flusso di lavoro di assemblaggio del genoma ibrido. Schema dei passaggi dal controllo qualità di lettura e pre-elaborazione all’annotazione dell’assieme. Il taglio di lettura rimuove le letture ambigue e di bassa qualità. I parametri Q-score e length sono indicati e rappresentano le letture che vengono mantenute. Assembly utilizza letture sia brevi che lunghe per generare un assemblaggio di genoma ibrido de novo. La qualità dell’assemblaggio viene valutata in base alla completezza e alla correttezza utilizzando strumenti e parametri specificati. L’assemblaggio finale del genoma è annotato per tutti i geni e i loci specifici di interesse. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 4: Guida alla struttura delle directory bioinformatiche. Schema di organizzazione di directory e file consigliati per l’elaborazione di letture brevi e lunghe, assemblaggio ibrido e annotazione del genoma e QC. I passaggi chiave di elaborazione dei dati della riga di comando sono evidenziati accanto ai file e alle directory corrispondenti. Suscitare comandi e flag (grassetto), file di input (blu), file di output o directory (rosso), input dell’utente come la convenzione di denominazione dei file (magenta). Fare clic qui per visualizzare una versione più grande di questa figura. Figura 5: Grafici di assemblaggio del genoma per bendaggio. Grafici rappresentativi dell’assemblaggio completo del genoma di (A) Klebsiella oxytoca KoPF10 e (B) Klebsiella pneumoniae KpPF25 e assemblaggio del genoma incompleto di (C) Klebsiella pneumoniae KpPF46. Il genoma completo di KoPF10 dimostra un singolo cromosoma chiuso e il genoma completo di KpPF25 è costituito da un cromosoma chiuso e cinque plasmidi chiusi. Il cromosoma incompleto di KpPF46 è costituito da due contig interconnessi. L’assemblaggio de novo ibrido monociclo genera un grafico di assieme visualizzato da Bandage. Il grafico di assemblaggio fornisce uno schema semplicistico del genoma, indicando cromosomi chiusi o plasmidi da un linker che collega due estremità di un singolo contig. La presenza di più di un contig interconnesso indica un assemblaggio incompleto. Le dimensioni e la profondità di Contig possono essere notate anche in Bendage. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 6: Mappe complete del genoma di assemblaggi ibridi annotati. Mappe di assemblaggio generate da Geneious Prime per il genoma completo di (A) K. oxytoca KoPF10 e (B) K. pneumoniae KpPF25 che mostrano geni annotati denotati da frecce colorate lungo le dorsali plasmidiche. I cromosomi mostrano solo i geni rRNA e tRNA per semplicità. Le annotazioni del genoma sono state eseguite utilizzando Prokka come indicato nella sezione 10 di questo protocollo. Fare clic qui per visualizzare una versione più grande di questa figura. Tabella 1: Rappresentante Klebsiella spp. caratteristiche complete dell’assemblaggio. Parametri di assemblaggio del ceppo K. oxytoca KoPF10 e K. pneumoniae ceppo KpPF25. Vengono forniti i numeri di adesione per i dati depositati su NCBI. Per entrambe le tecnologie di sequenziamento viene specificato il numero di letture sia prima che dopo il taglio. N50 è fornito solo per letture lunghe poiché le letture brevi sono di lunghezza controllata. Plasmid replicon previsto utilizzando il database PlasmidFinder v2.1 Enteroebacteriaceae con parametri impostati su 80% di identità e 60% di lunghezza. un TIPO DI SEQUENZA MULTILOCUS MLST. b CDS, Sequenze di codifica. c Plasmid replicon previsto utilizzando il database PlasmidFinder v2.1 Enterobacteriaceae con parametri impostati su 80% di identità e 60% di lunghezza. d Oxford Nanopore Technologies (ONT) ha depositato i dati di lettura. e Illumina ha depositato i dati di lettura. Fare clic qui per scaricare questa tabella.

Discussion

Il protocollo completo di assemblaggio del genoma ibrido qui descritto offre un approccio semplificato per la coltura di successo di diversi microbiota urinari e uropatogeni e l’assemblaggio completo dei loro genomi. Il successo del WGS dei genomi batterici inizia con l’isolamento di microbi diversi e talvolta fastidiosi al fine di estrarre il loro DNA genomico. Ad oggi, i protocolli di coltura delle urine esistenti mancano della sensibilità necessaria per rilevare molte specie urinarie o comportano approcci lunghi ed estesi che richiedono tempo e risorse prolungati11. L’approccio Modified Enhanced Urine Culture descritto offre un protocollo semplificato ma completo per l’isolamento di successo di batteri appartenenti a 17 generi urinari comuni, comprese specie commensali potenzialmente patogene o benefiche e batteri aerobici o anaerobici sia facoltativi che obbligati. Questo a sua volta fornisce il materiale di partenza necessario per il sequenziamento accurato e l’assemblaggio di genomi batterici e per esperimenti fenotipici critici, che contribuiscono alla comprensione della salute e della malattia urinaria. Inoltre, questo approccio di coltura modificata fornisce una diagnosi clinica più definita dei microrganismi vitali trovati nei campioni di urina e consente il loro biobanking per futuri studi genomici. Tuttavia, questo protocollo non è privo di limitazioni. Può richiedere lunghi tempi di incubazione a seconda dell’organismo e l’uso di risorse come una camera di ipossia o incubatori controllati che potrebbero non essere prontamente disponibili. L’uso di GasPak anaerobici offre una soluzione alternativa, ma questi sono costosi e non sempre producono un ambiente sostenuto e controllato. Infine, il pregiudizio della coltura e la diversità del campione possono consentire a particolari organismi e uropatogeni di superare i batteri fastidiosi. Nonostante queste limitazioni, una coltura di diversi batteri urinari è resa possibile da questo approccio.

Il sequenziamento genomico ha guadagnato popolarità con il progresso delle tecnologie di sequenziamento di nuova generazione che hanno aumentato enormemente sia la resa che l’accuratezza dei dati di sequenziamento14,15. Accoppiato con lo sviluppo di algoritmi per l’elaborazione dei dati e l’assemblaggio de novo, le sequenze complete del genoma sono a portata di mano di scienziati principianti ed esperti allo stesso modo15,45. La conoscenza dell’organizzazione generale del genoma fornita da genomi completi offre importanti approfondimenti evolutivi e biologici, tra cui la duplicazione genica, la perdita genica e il trasferimento genico orizzontale14. Inoltre, i geni importanti per la resistenza antimicrobica e la virulenza sono spesso localizzati su elementi mobili, che in genere non vengono risolti in bozze di assemblaggi di genoma15,16.

Il protocollo qui segue un approccio ibrido per la combinazione di dati di sequenziamento da piattaforme a lettura breve e a lunga lettura per generare assemblaggi di genoma completi. Mentre si concentra sui genomi batterici urinari, questa procedura può essere adattata a diversi batteri da varie fonti di isolamento. I passaggi critici in questo approccio includono il seguire un’adeguata tecnica sterile e l’utilizzo di mezzi e condizioni di coltura appropriati per l’isolamento dei batteri urinari puri. Inoltre, l’estrazione di gDNA intatto e ad alto rendimento è essenziale per generare dati di sequenziamento privi di letture contaminanti che possono ostacolare il successo dell’assemblaggio. I successivi protocolli di preparazione della libreria sono fondamentali per la generazione di letture di qualità di lunghezza e profondità sufficienti. Pertanto, è di fondamentale importanza gestire il gDNA con cura durante la preparazione della libreria per il sequenziamento a lunga lettura in particolare, poiché il più grande vantaggio di questa tecnologia è la generazione di letture lunghe senza limite teorico di lunghezza superiore. Sono inoltre delineate le sezioni per il controllo di qualità appropriato (QC) delle letture di sequenziamento che elimina i dati rumorosi e migliora il risultato dell’assemblaggio.

Nonostante il successo dell’isolamento del DNA, della preparazione della libreria e del sequenziamento, la natura dell’architettura genomica di alcune specie può ancora fornire un ostacolo per la generazione di un assemblaggio di genoma chiuso45,46. Le sequenze ripetitive spesso complicano il calcolo dell’assieme e, nonostante i dati letti a lungo termine, queste aree possono essere risolte con scarsa affidabilità o per niente. Le letture lunghe devono quindi essere in media più lunghe della più grande regione di ripetizione nel genoma o la copertura deve essere alta (>100x)19. Alcuni genomi possono rimanere incompleti e richiedono approcci manuali per il completamento. Tuttavia, i genomi ibridi assemblati incompleti sono in genere composti da meno contig rispetto ai genomi a bozza di breve lettura. La regolazione dei parametri predefiniti dell’algoritmo di assemblaggio o la seguente definizione di cutoff più rigorosi per la lettura del controllo qualità possono essere d’aiuto. In alternativa, un approccio suggerito è quello di mappare le letture lunghe alle regioni incomplete alla ricerca di prove per il percorso di assemblaggio più probabile, e quindi confermare il percorso utilizzando la PCR e il sequenziamento Sanger della regione amplificata. La mappatura delle letture utilizzando Minimap2 è suggerita e Bandage offre uno strumento utile per la visualizzazione di letture mappate lungo contigs assemblati fornendo prove per il collegamento contig47.

Un’ulteriore sfida per generare genomi completi risiede nella familiarità e nel comfort con gli strumenti da riga di comando. Molti strumenti bioinformatici sono sviluppati per offrire opportunità computazionali a qualsiasi utente; tuttavia, il loro utilizzo si basa su una comprensione con le basi di UNIX e della programmazione. Questo protocollo mira a fornire istruzioni sufficientemente dettagliate per consentire alle persone senza precedente esperienza da riga di comando di generare assemblaggi di genoma chiuso e annotarli.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ringraziamo il Dr. Moutusee Jubaida Islam e il Dr. Luke Joyce per i loro contributi a questo protocollo. Vorremmo anche riconoscere l’Università del Texas al Dallas Genome Center per il loro feedback e supporto. Questo lavoro è stato finanziato dalla Welch Foundation, numero di premio AT-2030-20200401 a N.J.D., dal National Institutes of Health, numero di premio R01AI116610 a K.P., e dalla Felecia and John Cain Chair in Women’s Health, detenuta da P.E.Z.

Materials

Equipment:
Bioanalyzer 2100 Agilent G29398A Optional but recommended
Centrifuge Eppendorf Any centrifuge for spinning conicals and microcentrifuge tubes (e.g. Models 5810R/5424R)
Electrophoresis BioRad Laboratories 1645070
Gel Imaging System BioRad Laboratories ChemiDoc models
Incubator ThermoFisher Scientific Any CO2 Incubator (e.g. Thermo Forma model 3110)
Magnetic Rack New England BioLabs S15095 12-tube rack
MinION Oxford Nanopore Technologies
Nanodrop ThermoFisher Scientific ND-ONE-W
NextSeq 500 Illumina SY-415-1002 Other Illumina models are acceptable
Plate Reader BioTek Synergy H1
Qubit fluorometer ThermoFisher Scientific Q33238
Rotator Benchmark Scientific H2024
Thermocycler ThermoFisher Scientific Any thermocycler for PCR reactions (e.g. ProFlex PCR system)
Materials:
10X Phosphate Buffered Saline (PBS) Fisher Scientific BP3991
10X TBE buffer 1M Tris,1M Boric Acid,0.2M EDTA (pH 8.0)
1429R primer Sigma Aldrich (Custom oligos) GGTTACCTTGTTACGACTT
1kb Ladder VWR 101228-494
1M Tris-Cl (pH 7.5) ThermoFisher Scientific 15567027
6x Loading dye Fisher Scientific NC0783588
8F primer Sigma Aldrich (Custom oligos) AGAGTTTGATCCTGGCTCAG
Agar Fisher Scientific BP1423-2
Agarose BioRad Laboratories 63001
AMPure XP Beads Beckman Coulter A63880
Anaerobe Pouch System – GasPak EZ BD Diagnostic Systems B260683
Boric Acid Fisher Scientific A73-500
Brain Heart Infusion Broth BD Diagnostic Systems 212304
CDC Anaerobe 5% Sheep Blood Agar BD Diagnostic Systems L007357
CHROMagar Orientation BD Diagnostic Systems PA-257481.04
DNeasy Blood & Tissue QIAGEN 69504
DreamTaq Master Mix ThermoFisher Scientific K1081
Dry Anaerobic Indicator Strips BD Diagnostic Systems 271051
EDTA Fisher Scientific S311-500
Ethanol 200 Proof Sigma Aldrich E7023 For molecular biology
Ethidium Bromide ThermoFisher Scientific BP130210
Flow cell priming kit Oxford Nanopore Technologies EXP-FLP002
Flow cell wash kit Oxford Nanopore Technologies EXP-WSH003
Gel Extraction Miniprep Kit BioBasic BS654
Ligation sequencing kit Oxford Nanopore Technologies SQK-LSK109
Lysozyme Research Products International Corp L381005.05
Mutanolysin Sigma Aldrich M9901-5KU
Native barcoding expansion 1-12 Oxford Nanopore Technologies EXP-NBD104
NEB Blunt/TA Ligase Master Mix New England BioLabs M0367L
NEBNext FFPE DNA Repair Mix New England BioLabs M6630L
NEBNext quick ligation buffer New England BioLabs B6058S
NEBNext Ultra II End repair / dA-tailing module New England BioLabs E7546L
Nextera DNA CD Indexes Illumina 20018708
Nextera DNA Flex Library Prep – (M) Tagmentation Illumina 20018705
Nuclease-free water Sigma Aldrich W4502
Qubit 1X dsDNA HS Assay Kit ThermoFisher Scientific Q33230
Qubit Assay Tubes ThermoFisher Scientific Q32856
Quick T4 DNA Ligase New England BioLabs E6056L
R9 Flow cell Oxford Nanopore Technologies FLO-MIN106D
RNase A ThermoFisher Scientific EN0531
Sheep Blood Hemostat Laboratories DS13250
TE buffer 10mM Tris, 1mM EDTA (pH 8.0)
Triton X-100 Sigma Aldrich T8787
Tryptic Soy Broth BD Diagnostic Systems 211825
Software & Bioinformatic Tools:
Bandage https://rrwick.github.io/Bandage/
Center for Genomic Epidemiology http://www.genomicepidemiology.org/
CLC Genomics Workbench 12 QIAGEN
CRISPRcasFinder https://crisprcas.i2bc.paris-saclay.fr/
FastQC https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Geneious Prime Geneious
gVolante (BUSCO) https://gvolante.riken.jp/
Kbase Prokka Wrapper https://kbase.us/applist/apps/ProkkaAnnotation/annotate_contigs/release
Minimap2 https://github.com/lh3/minimap2
MinKNOW Oxford Nanopore Technologies
NanoFilt https://github.com/wdecoster/nanofilt
NanoStat https://github.com/wdecoster/nanostat
PHASTER https://phaster.ca/
Prokka https://github.com/tseemann/prokka
QUAST http://quast.sourceforge.net/quast
Trim Galore https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
Trimmomatic http://www.usadellab.org/cms/?page=trimmomatic
Unicycler https://github.com/rrwick/Unicycler#necessary-read-length

References

  1. Brubaker, L., Wolfe, A. The urinary microbiota: a paradigm shift for bladder disorders. Current Opinion in Obstetrics & Gynecology. 28 (5), 407-412 (2016).
  2. Neugent, M. L., Hulyalkar, N. V., Nguyen, V. H., Zimmern, P. E., De Nisco, N. J. Advances in understanding the human urinary microbiome and its potential role in urinary tract infection. mBio. 11 (2), (2020).
  3. Klein, R. D., Hultgren, S. J. Urinary tract infections: microbial pathogenesis, host-pathogen interactions and new treatment strategies. Nature Reviews. Microbiology. 18 (4), 211-226 (2020).
  4. Horsley, H., et al. Enterococcus faecalis subverts and invades the host urothelium in patients with chronic urinary tract infection. PLoS One. 8 (12), 83637 (2013).
  5. Reitzer, L., Zimmern, P. Rapid growth and metabolism of uropathogenic Escherichia coli in relation to urine composition. Clinical Microbiology Reviews. 33 (1), 00101-00119 (2019).
  6. Snyder, J. A., et al. Transcriptome of uropathogenic Escherichia coli during urinary tract infection. Infection and Immunity. 72 (11), 6373-6381 (2004).
  7. Ipe, D. S., Horton, E., Ulett, G. C. The basics of bacteriuria: Strategies of microbes for persistence in urine. Frontiers in Cellular and Infection Microbiology. 6, 14 (2016).
  8. Babikir, I. H., et al. The impact of cathelicidin, the human antimicrobial peptide LL-37 in urinary tract infections. BMC Infectious Diseases. 18 (1), 17 (2018).
  9. Jancel, T., Dudas, V. Management of uncomplicated urinary tract infections. The Western Journal of Medicine. 176 (1), 51-55 (2002).
  10. Ventola, C. L. The antibiotic resistance crisis: part 1: causes and threats. P & T. 40 (4), 277-283 (2015).
  11. Price, T. K., et al. The clinical urine culture: Enhanced techniques improve detection of clinically relevant microorganisms. Journal of Clinical Microbiology. 54 (5), 1216-1222 (2016).
  12. Kass, E. H. Asymptomatic infections of the urinary tract. Transactions of the Association of American Physicians. 69, 56-64 (1956).
  13. Garcia, L. S. . Clinical microbiology procedures handbook. 3rd edn. , (2010).
  14. Fraser, C. M., Eisen, J. A., Nelson, K. E., Paulsen, I. T., Salzberg, S. L. The value of complete microbial genome sequencing (you get what you pay for). Journal of Bacteriology. 184 (23), 6403-6405 (2002).
  15. Chen, Z., Erickson, D. L., Meng, J. Benchmarking hybrid assembly approaches for genomic analyses of bacterial pathogens using Illumina and Oxford Nanopore sequencing. BMC Genomics. 21 (1), 631 (2020).
  16. Greig, D. R., Dallman, T. J., Hopkins, K. L., Jenkins, C. MinION nanopore sequencing identifies the position and structure of bacterial antibiotic resistance determinants in a multidrug-resistant strain of enteroaggregative Escherichia coli. Microbial Genomics. 4 (10), 000213 (2018).
  17. Carraro, D. M., et al. PCR-assisted contig extension: stepwise strategy for bacterial genome closure. Biotechniques. 34 (3), 626-628 (2003).
  18. Tettelin, H., Radune, D., Kasif, S., Khouri, H., Salzberg, S. L. Optimized multiplex PCR: efficiently closing a whole-genome shotgun sequencing project. Genomics. 62 (3), 500-507 (1999).
  19. Wick, R. R., Judd, L. M., Gorrie, C. L., Holt, K. E. Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLoS Computational Biology. 13 (6), 1005595 (2017).
  20. Singhal, N., Kumar, M., Kanaujia, P. K., Virdi, J. S. MALDI-TOF mass spectrometry: an emerging technology for microbial identification and diagnosis. Frontiers in Microbiology. 6, 791 (2015).
  21. Turner, S., Pryer, K. M., Miao, V. P., Palmer, J. D. Investigating deep phylogenetic relationships among cyanobacteria and plastids by small subunit rRNA sequence analysis. The Journal of Eukaryotic Microbiology. 46 (4), 327-338 (1999).
  22. Weisburg, W. G., Barns, S. M., Pelletier, D. A., Lane, D. J. 16S ribosomal DNA amplification for phylogenetic study. Journal of Bacteriology. 173 (2), 697-703 (1991).
  23. Janda, J. M., Abbott, S. L. 16S rRNA gene sequencing for bacterial identification in the diagnostic laboratory: pluses, perils, and pitfalls. Journal of Clinical Microbiology. 45 (9), 2761-2764 (2007).
  24. Stevenson, K., McVey, A. F., Clark, I. B. N., Swain, P. S., Pilizota, T. General calibration of microbial growth in microplate readers. Science Reports. 6, 38828 (2016).
  25. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  26. De Coster, W., D’Hert, S., Schultz, D. T., Cruts, M., Van Broeckhoven, C. NanoPack: visualizing and processing long-read sequencing data. Bioinformatics. 34 (15), 2666-2669 (2018).
  27. Wilson, G., et al. The UNIX Shell. Zenodo. , (2019).
  28. Bankevich, A., et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of Computational Biology. 19 (5), 455-477 (2012).
  29. Vaser, R., Sovic, I., Nagarajan, N., Sikic, M. Fast and accurate de novo genome assembly from long uncorrected reads. Genome Research. 27 (5), 737-746 (2017).
  30. Walker, B. J., et al. Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement. PLoS One. 9 (11), 112963 (2014).
  31. Wick, R. R., Schultz, M. B., Zobel, J., Holt, K. E. Bandage: interactive visualization of de novo genome assemblies. Bioinformatics. 31 (20), 3350-3352 (2015).
  32. Gurevich, A., Saveliev, V., Vyahhi, N., Tesler, G. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 29 (8), 1072-1075 (2013).
  33. Simao, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. 31 (19), 3210-3212 (2015).
  34. Seemann, T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 30 (14), 2068-2069 (2014).
  35. Aziz, R. K., et al. The RAST server: rapid annotations using subsystems technology. BMC Genomics. 9, 75 (2008).
  36. Tatusova, T., et al. NCBI prokaryotic genome annotation pipeline. Nucleic Acids Research. 44 (14), 6614-6624 (2016).
  37. Carattoli, A., Hasman, H. PlasmidFinder and In Silico pMLST: Identification and Typing of Plasmid Replicons in Whole-Genome Sequencing (WGS). Methods in Molecular Biology. 2075, 285-294 (2020).
  38. Carattoli, A., et al. In silico detection and typing of plasmids using PlasmidFinder and plasmid multilocus sequence typing. Antimicrobial Agents and Chemotherapy. 58 (7), 3895-3903 (2014).
  39. Larsen, M. V., et al. Multilocus sequence typing of total-genome-sequenced bacteria. Journal of Clinical Microbiology. 50 (4), 1355-1361 (2012).
  40. Bortolaia, V., et al. ResFinder 4.0 for predictions of phenotypes from genotypes. The Journal of Antimicrobial Chemotherapy. 75 (12), 3491-3500 (2020).
  41. Joensen, K. G., et al. Real-time whole-genome sequencing for routine typing, surveillance, and outbreak detection of verotoxigenic Escherichia coli. Journal of Clinical Microbiology. 52 (5), 1501-1510 (2014).
  42. Arndt, D., et al. PHASTER: a better, faster version of the PHAST phage search tool. Nucleic Acids Research. 44 (1), 16-21 (2016).
  43. Couvin, D., et al. CRISPRCasFinder, an update of CRISRFinder, includes a portable version, enhanced performance and integrates search for Cas proteins. Nucleic Acids Research. 46 (1), 246-251 (2018).
  44. Totten, P. A., Amsel, R., Hale, J., Piot, P., Holmes, K. K. Selective differential human blood bilayer media for isolation of Gardnerella (Haemophilus) vaginalis. Journal of Clinical Microbiology. 15 (1), 141-147 (1982).
  45. Nagarajan, N., Pop, M. Sequence assembly demystified. Nat Reviews. Genetics. 14 (3), 157-167 (2013).
  46. Phillippy, A. M., Schatz, M. C., Pop, M. Genome assembly forensics: finding the elusive mis-assembly. Genome Biology. 9 (3), 55 (2008).
  47. . Unicycler Wiki Available from: https://github.com/rrwick/Unicycler/wiki (2017)

Play Video

Cite This Article
Sharon, B. M., Hulyalkar, N. V., Nguyen, V. H., Zimmern, P. E., Palmer, K. L., De Nisco, N. J. Hybrid De Novo Genome Assembly for the Generation of Complete Genomes of Urinary Bacteria using Short- and Long-read Sequencing Technologies. J. Vis. Exp. (174), e62872, doi:10.3791/62872 (2021).

View Video