OpenProt es una base de datos de libre acceso que aplica un modelo policistrónico de genomas eucariotas. Aquí, presentamos un protocolo para el uso de bases de datos de OpenProt al interrogar a conjuntos de datos de espectrometría de masas. OpenProt base de datos para el análisis de experimentos de la proteómica permite para el descubrimiento de la novela y proteínas previamente indetectables.
Anotación del genoma es fundamental para la investigación de Proteómica de hoy como dibuja los contornos del paisaje proteómicos. Los modelos tradicionales de libre lectura anotación de marco (ORF) imponer dos criterios arbitrarios: una longitud mínima de 100 codones y una sola ORF por transcripción. Sin embargo, un número creciente de estudios Informe expresión de proteínas de supuestamente no codificantes regiones, desafiar la exactitud de las anotaciones de genoma actual. Estas novela se encontraron proteínas codificadas dentro no-codificación RNAs 5′ y 3′ regiones sin traducir (UTRs) de mRNAs o superposición de una secuencia de codificación conocida (CDS) en una alternativa ORF. OpenProt es la primera base de datos que aplica un modelo policistrónico de genomas eucarióticos, permitiendo la anotación de ORFs múltiples por transcripción. OpenProt es libremente accesible y ofrece descargas personalizadas de secuencias de la proteína a través de 10 especies. Con OpenProt la base de datos para los experimentos de la proteómica permite el descubrimiento de nuevas proteínas y pone de relieve la naturaleza policistrónico de genes eucarióticos. El tamaño de la base de datos OpenProt (todos predicen proteínas) es importante y necesita ser tomado en cuenta para el análisis. Sin embargo, con ajustes de tasa (FDR) apropiadas descubrimiento falsas o el uso de una base de datos de OpenProt restringida, los usuarios beneficiarán de una visión más realista del paisaje de proteómica. En general, OpenProt es una herramienta disponible gratuitamente que fomentará la proteómica descubrimientos.
En las últimas décadas, espectrometría de masas (MS-) basado en proteómica se ha convertido en la técnica oro descifrar proteomas de las células eucariotas1,2,3,4,5. Este método se basa en las anotaciones de genoma actual para generar una base de secuencia de proteínas de referencia que describe el alcance de posibilidades6,7,8. Sin embargo, las anotaciones del genoma sostener criterios arbitrarios para la anotación de ORF, como una longitud mínima de 100 codones y una sola ORF por transcripción9,10. Un número creciente de estudios cuestionar el actual modelo de anotación e informe de descubrimientos de ORFs unannotated funcionales de genomas eucariotas8,11,12,13, 14. Estas nuevas proteínas se encuentran codificados en supuestamente no-codificación RNAs, en 5′ o 3′ no traducidas (UTR) de regiones de mRNAs o superposición de la secuencia de codificación canónica (cCDS) en un marco alternativo. Aunque la mayoría de estos descubrimientos ha sido fortuita, demuestran las reservas de anotaciones de genoma actual y la naturaleza policistrónico de genes eucarióticos8.
Aquí, destacamos el uso de bases de datos OpenProt para proteómica basada en la MS. OpenProt es la primera base de datos para mantener un modelo de anotación policistrónico de transcriptomas eucariotas. Está disponible en www.openprot.org15. Una proporción de estos predijo que ORFS sería aleatoria y funcional, razón por la cual OpenProt acumula evidencia experimental y funcional para aumentar la confianza. La evidencia experimental son expresión de la proteína (de MS) y traducción en evidencia (por ribosome profiling)15. Pruebas funcionales incluyen homología de proteínas (con un en-paranoico como enfoque) y de predicción funcional dominio15.
OpenProt ofrece la posibilidad de descargar varias bases de datos, que contienen sólo proteínas bien soportadas a bases de datos a medida. Aquí, presentamos una tubería para el uso de bases de datos de OpenProt y ofrecerá información sobre la base de datos para elegir teniendo en cuenta el objetivo experimental. La tubería de proteomics análisis presentada aquí es apoyada por el marco de la galaxia libre acceso y fácil de usar, pero las bases de datos pueden funcionar con cualquier flujo de trabajo de17,16,18. También presentaremos cómo utilizar el sitio web OpenProt para reunir más información sobre nuevas proteínas detectadas por las bases de datos MS. Using OpenProt proporcionará una visión más exhaustiva del paisaje proteómicos y fomentará los descubrimientos proteómica y biomarcadores en una manera más sistemática que los métodos actuales.
Este protocolo destaca el uso de bases de datos de OpenProt15 cuando interrogando a conjuntos de datos de MS; no revisará el diseño del experimento sí mismo, que ha sido completamente revisado en otra parte20,21,22. En un esfuerzo por permanecer completamente de código abierto, el protocolo es libremente disponible (Suplementario S1 Material–S4). Para facilitar la lectura, todos los términos utilizados en OpenProt y por este medio a lo largo de este protocolo se definen en la tabla 1.
Al analizar los datos de los espectrómetros de masa, la calidad de la identificación de proteínas se basa en parte en la exactitud de la base de datos usado6,20. Enfoques actuales utilizan tradicionalmente UniProtKB las bases de datos, sin embargo, éstos apoyan el modelo de anotación del genoma de una sola ORF por transcripción y una longitud mínima de 100 codones (a excepción de ejemplos previamente demostrados)40. Múltiples estudios relacionan las deficiencias de estas bases de datos con el descubrimiento de ORFs funcionales de supuestamente no codificantes regiones8,11,12,13. Ahora, OpenProt permite más exhaustiva identificación de proteínas como extrae proteínas múltiples anotaciones de transcriptoma. OpenProt recupera NCBI RefSeq (GRCh38.p7) y transcriptomas de Ensembl (GRCh38.83) y anotaciones de UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. Como anotaciones actuales presentan poco traslapo, OpenProt muestra así una visión más exhaustiva del paisaje proteómicos potencial que cuando limitada a una anotación15.
Además, como OpenProt impone un modelo policistrónico, permite múltiples anotaciones de proteína por transcripción. Por motivos estadísticos y computacionales, OpenProt todavía tiene un umbral mínimo de 30 codones15. Sin embargo, augura miles de secuencias de la nueva proteína, ampliando así el alcance de posibilidades para la identificación de proteínas. Con este enfoque, OpenProt apoya proteómicos descubrimientos de una manera más sistemática.
La calidad de la identificación de proteínas también puede verse afectada por los parámetros que se utilizan. Análisis de proteómica basada en MS tienen típicamente un 1% de proteína FDR. Sin embargo, la base de datos de OpenProt entero contiene aproximadamente 6 veces más entradas (figura 1). Para tener en cuenta este aumento sustancial en el espacio de búsqueda, le recomendamos usar un FDR más estricta de 0.001%. Este parámetro se optimizó mediante estudios de benchmark y manual evaluación de espectros seleccionados al azar15. Falsos positivos siguen siendo una posibilidad, sin embargo, y animamos a inspección y validación de evidencias de una nueva proteína. Un estándar recomendado podría ser la identificación de una proteína de dos pruebas diferentes de EM, como datos de base y falsos positivos varían entre los conjuntos de datos15.
La tubería aquí y utilizado para el estudio de caso puede ser modificada como placer para adaptarse a los parámetros y diseño experimental. Le recomendamos utilizar múltiples motores de búsqueda como aumenta la sensibilidad y la sensibilidad del péptido identificación32. Además, animamos a la base de datos correspondiente mejor para el objetivo experimental (figura 1). Como usar el OpenProt toda la base de datos viene con un FDR estricta, verdaderas identificaciones pueden perderse. Así, la base de datos toda debe ser destinado a descubrimiento de nuevas proteínas, mientras que perfiles de proteómica clásica deberían utilizar las bases de datos de OpenProt más pequeños (como el OpenProt_2pep utilizado en el estudio de caso anterior).
OpenProt en la actualidad predice secuencias a partir de un codón ATG, mientras que varios estudios destacan la iniciación de la traducción en otros codones44,45. Cuando se identifica una nueva proteína por uno o varios péptidos únicos, es posible que el codón de iniciación verdadera no es el presunto ATG. Los usuarios pueden buscar evidencia de traducción en la página web OpenProt. Actualmente, OpenProt informa sólo eventos de traducción si se trata de la proteína prevista toda secuencia (100% de solapamiento)15. Por lo tanto, ausencia de pruebas de traducción no significaría la proteína no está traducida, pero que el codón de inicio no puede ser el supuesta ATG.
A pesar de sus limitaciones actuales, OpenProt ofrece una visión más exhaustiva del potencial de codificación de eukaryotic genomas. Bases de datos de OpenProt fomentan la proteómica descubrimientos y la comprensión de interacciones y funciones de la proteómica. Evolución futura de la base de datos de OpenProt incluye anotaciones de otras especies, pruebas de traducción de ATG no comienzo codon y el desarrollo de un gasoducto para incluir nuevas proteínas en todo el genoma y estudios de secuenciación del exoma.
The authors have nothing to disclose.
Agradecemos a Vivian Delcourt por su ayuda, debates y asesoramiento en obra. X.R. es miembro del Fonds de Recherche du Québec Santé FRQS apoyado Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Esta investigación fue apoyada por una Cátedra de investigación de Canadá en proteómica funcional y descubrimiento de las proteínas de la novela a la subvención de CIHR, X.R. 137056 fregona. Agradecemos al equipo Calcul Québec y cálculo de Canadá por su apoyo con el uso de la supercomputadora mp2 por la Université de Sheerbrooke. Funcionamiento del superordenador mp2 está financiado por la Fundación Canadá de la innovación (CFI), le ministère de l’Économie, de la science et de l ‘ Innovation du Québec (MESI) y les Fonds de Recherche du Québec – naturaleza et tecnologías (FRQ-NT). El servidor galaxia que fue utilizado para algunos cálculos de proteómica está financiado en parte por colaboración investigación 992 centro médico epigenética (grant DFG SFB 2012 992/1) y el Ministerio Federal alemán de educación e investigación (BMBF otorga 031 RBC A538A/A538C, 031L0101B De /031L0101C. NBI-epi, 031L 0106 de. ESCALERA (de. NBI)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |