Aquí presentamos la herramienta proteogenomic PoGo y protocolos para la modificación rápida, cuantitativo, poste-de translación y variante activado mapeo de péptidos identificados a través de espectrometría de masas en los genomas de referencia. Esta herramienta es de uso para integrar y visualizar proteogenomic y estudios proteómicos personal con datos de genómica ortogonal.
La diafonía entre los genes, transcritos y proteínas es la clave de respuestas celulares; por lo tanto, el análisis de niveles moleculares como entidades distintas lentamente se extiende a estudios integrativos para mejorar la comprensión de la dinámica molecular dentro de las células. Herramientas actuales para la visualización y la integración de la proteómica con otros conjuntos de datos ómicos son inadecuadas para estudios a gran escala. Además, capturan sólo secuencia básica identificar, descartar modificaciones post-traduccionales y cuantificación. Para enfrentar estos problemas, hemos desarrollado PoGo para péptidos con modificaciones post-traduccionales asociadas y cuantificación para anotación del genoma de referencia. Además, la herramienta fue desarrollada para permitir el mapeo de péptidos identificados de bases de datos de secuencia personalizada incorporando variantes solo aminoácido. Mientras que el PoGo es una herramienta de línea de comandos, la interfaz gráfica PoGoGUI permite a los investigadores de la bioinformática no fácilmente mapa péptidos a 25 especies apoyadas por anotación del genoma de Ensembl. La salida generada toma los formatos de archivo en el campo de la genómica y, por lo tanto, la visualización es compatible en la mayoría de los navegadores de genoma. Para estudios a gran escala, PoGo es apoyada por TrackHubGenerator para crear repositorios web accesible de datos asignados a genomas que también permiten un fácil intercambio de datos de proteogenomics. Con poco esfuerzo, esta herramienta puede asignar millones de péptidos a genomas de referencia dentro de pocos minutos, superando a otras herramientas disponibles secuencia-identidad basada. Este protocolo muestra los mejores enfoques para la asignación de proteogenomics a través de PoGo con conjuntos de datos públicamente disponibles de cuantitativa y fosfoproteómico, así como estudios de gran escala.
En las células, genoma, transcriptoma y proteoma afectan para modular una respuesta a los estímulos internos y externos e interactuar con otros para llevar a cabo funciones específicas hacia la salud y la enfermedad. Por lo tanto, caracterizar y cuantificar genes, transcritos y proteínas es crucial para comprender cabalmente los procesos celulares. Secuenciación de próxima generación (NGS) es una de las estrategias más comúnmente aplicadas para identificar y cuantificar la expresión génica y la transcripción. Sin embargo, expresión de la proteína es comúnmente evaluada por espectrometría de masas (MS). Avances significativos en tecnología MS durante la última década ha permitido más una completa identificación y cuantificación de proteomas, hacer los datos comparables con transcriptómica1. Proteogenomics y multi-ómicas como formas de integrar datos NGS y MS se han convertido en poderosos enfoques para evaluar procesos celulares a través de múltiples niveles moleculares, identificar subtipos de cáncer y conduce a nuevos objetivos potenciales de la droga en cáncer2 , 3. es importante tener en cuenta que proteogenomics fue utilizado inicialmente para proporcionar evidencia de la proteómica para gene y transcripción de las anotaciones4. Varios genes se pensaba que no codificante recientemente han sido sometidos a reevaluación considerando tejido humano a gran escala datos5,6,7. Además, los datos proteómicos se utilizan con éxito para apoyar los esfuerzos de anotación en organismos no-modelo8,9. Sin embargo, proteogenomic integración de datos pueden ser aprovechados además de resaltar la expresión de proteína en relación a características genómicas y dilucidar entre transcripciones y proteínas proporcionando un sistema de referencia combinado y métodos para visualización conjunta.
Con el fin de proporcionar una referencia común para datos de genómica, transcriptómica y proteómica, se han implementado numerosas herramientas para péptidos de mapeo identificadas a través de MS sobre genoma coordenadas10,11,12 ,13,14,15,16,17. Enfoques difieren en aspectos tales como la referencia de la cartografía, soporte de navegadores de genoma y el grado de integración con otras herramientas de proteómica como se muestra en la figura 1. Mientras que algunas herramientas mapa de péptidos traducción inversas en un genoma16, otros utilizan una posición de búsqueda motor anotado en una anotación de la proteína y gen para reconstruir la secuencia de nucleótidos del péptido15. Todavía otros utilizan una traducción de 3 o 6 marco del genoma a péptidos contra11,13. Por último, varias herramientas saltar las secuencias de nucleótido y utilizan las traducciones de secuencia del aminoácido de transcritos de RNA-secuencia asignada como intermedio para asignar péptidos a genoma asociado coordenadas10,12, 14,17. Sin embargo, la traducción de secuencias de nucleótidos es un proceso lento y bases de datos personalizadas son propensos a errores que se propagan a la asignación de péptido. Para el mapeo rápido y alto rendimiento, una referencia pequeña y completa es fundamental. Por lo tanto, una referencia estandarizada proteína con coordenadas genoma asociado es esencial para péptido precisa cartografía del genoma. Aspectos novedosos en proteogenomics, como la incorporación de variantes y modificaciones post-traduccionales (PTMs)2,3, están ganando impulso a través de estudios recientes. Sin embargo, estos generalmente no son compatibles con proteogenomic actual asignación de herramientas como se muestra en la figura 1. Para mejorar la velocidad y la calidad de la cartografía, PoGo se desarrolló una herramienta que permite la asignación rápida y cuantitativa de los péptidos a genomas18. Además, PoGo permite el mapeo de péptidos con hasta dos variantes y modificaciones postraduccionales anotadas.
PoGo se ha desarrollado para enfrentar el rápido aumento de cuantitativa conjuntos de datos de alta resolución captura de proteomas y modificaciones globales y proporciona una herramienta central para los análisis a gran escala como variación personal y medicina de precisión. Este artículo describe el uso de esta herramienta para visualizar la presencia de modificaciones post-traduccionales en lo referente a características genómicas. Además, este artículo destaca la identificación de eventos alternativos que empalma a través de péptidos asignadas y el mapeo de péptidos identificados a través de bases de datos variante personalizados para un genoma de referencia. Este protocolo utiliza conjuntos de datos públicamente disponibles de orgullo archivo19 al demostrar estas funcionalidades de PoGo. Además, este protocolo describe el uso de TrackHubGenerator para la creación de centros en línea accesibles de péptidos mapeados genomas para estudios a gran escala proteogenomics.
Este protocolo describe cómo la herramienta de software PoGo y su interfaz gráfica de usuario PoGoGUI permiten un rápido mapeo de péptidos en coordenadas de genoma. La herramienta ofrece características únicas como modificación poste-de translación, cuantitativo y asignación basados en la variante de genomas mediante anotación de referencia. Este artículo muestra el método en un estudio a gran escala proteogenomic y destaca su eficiencia velocidad y memoria en comparación con otras herramientas disponibles18. En combinación con la herramienta TrackHubGenerator, que crea cubos en línea accesibles de genómica y genoma ligado de datos, PoGo, con una interfaz gráfica de usuario, estudios de proteogenomics a gran escala permite visualizar rápidamente sus datos en el contexto genómico. Además, se demuestran las características únicas del PoGo con conjuntos de datos de búsquedas en bases de datos variables y cuantitativa fosfoproteómico22,29.
Archivos individuales, como el archivo GCT, proporcionan visualización valiosa y relaciones entre características del péptido y loci genómicos. Sin embargo, es importante tener en cuenta que una interpretación basada en éstas solo puede ser difícil o engañoso debido a su limitación a solo aspectos de proteogenomics como singularidad, modificaciones post-traduccionales, valores cuantitativos. Por lo tanto, es importante elegir cuidadosamente que los archivos de salida, las opciones y combinaciones son apropiadas para la pregunta de proteogenomic en cuestión y modificar las combinaciones. Por ejemplo, información sobre la singularidad de la asignación a un locus genómico específico podría ser de gran valor para la anotación de una característica genómica7, mientras que la cuantificación en muestras diferentes puede ser más apropiada para estudios relacionados con el características genómicas a cambios en la abundancia de proteínas29. La salida debe ser generada por PoGo para cada ajuste. En caso de que no hay salida se genera, o archivos vacíos se muestran en la carpeta de salida, se recomienda que compruebe los archivos de entrada para el contenido deseado y el formato de archivo. En casos donde el contenido o formato de archivo no sigue las expectativas de PoGo (por ejemplo, el archivo FASTA que supuestamente contienen las secuencias de traducción transcripción contiene las secuencias de nucleótido de los transcritos), mensajes de error le preguntará al usuario Compruebe los archivos de entrada.
Las restricciones del protocolo y la herramienta en su mayoría se basan en la reutilización de los formatos de archivo utilizados en la genómica. Reasignación de formatos de archivo utilizados en la genómica para aplicaciones proteogenomic se acompaña de limitaciones específicas. Estas son debido a los diferentes conjuntos de requisitos para la visualización de genoma centrado de genómica y proteogenomic datos, como la necesidad de visualizar las modificaciones post-traduccionales de datos de proteómica. Esto se restringe en los formatos de archivo de genómica por el uso de una función. Han desarrollado muchos enfoques y herramientas de Proteómica con confianza localizar modificaciones post-traduccionales dentro de33,de péptido secuencias31,32,34. Sin embargo, la visualización de múltiples modificaciones de una manera única y discernible en el genoma es obstaculizada por la estructura de los formatos de archivo genómica. Por lo tanto, la visualización de bloque de PTMs múltiples del mismo tipo no constituye ninguna ambigüedad de los sitios de modificación pero es la consecuencia de la exigencia diferentes de la comunidad genómica sólo visualizar características individuales a la vez. Sin embargo, PoGo tiene la ventaja de modificaciones post-traduccionales de mapeo en coordenadas genómicas para permitir estudios centrados en el efecto de características genómicas como variantes de un solo nucleótido en modificaciones post-traduccionales. Con el PoGo, asignación variable aumenta el número de asignaciones total. Sin embargo, la codificación de color único de péptidos asignadas destaca asignaciones confiables de los poco fiables. El mapeo de péptidos variante identificada de variantes conocidas de un solo nucleótido puede acompañarse por visualizar los péptidos asignados junto a las variantes en formato VCF. De esta manera el código de color que indica una asignación poco fiable de un péptido variante es anulada por la presencia de la variante de nucleótidos conocido.
Un paso crítico para el uso de PoGo es el uso de los formatos y archivos correctos. El uso de secuencias de transcripción traducida como secuencias de la proteína para acompañar a la anotación en formato GMT es el criterio principal. Otro elemento crítico cuando se considera usar PoGo a péptidos con aminoácidos desajustes es memoria. Mientras que memoria eficientes para una aplicación estándar, significativamente y exponencialmente creciente número de posibles asignaciones con uno o dos desajustes conduce a un aumento igualmente exponencial en el uso de memoria18. Se propone una asignación de etapas como se describe en este protocolo primero los péptidos sin desajustes y quitar del conjunto. Los péptidos previamente asignados posterior entonces pueden asignarse mediante un desajuste y el procedimiento puede repetirse con dos desajustes para los péptidos restante sin asignar.
Puesto que el rendimiento de la espectrometría de masas ha aumentado significativamente y estudios interconexión genómicos y proteómicos son cada vez más frecuentes en los últimos años, son herramientas que permiten fácilmente interfaces estos tipos de datos en el mismo sistema de coordenadas cada vez más indispensable. La herramienta presentada aquí le ayudará a la necesidad de combinar genómica y los datos proteómicos para potenciar un mejor entendimiento de estudios integrados a través de pequeños y grandes conjuntos de datos mediante la asignación de péptidos en una anotación de referencia. Es alentador, PoGo se ha aplicado para asignar péptidos a los candidatos del gen en el mismo formato que la anotación de referencia para apoyar los esfuerzos de la anotación de genes nuevos en testículo humano35. El enfoque presentado aquí es independiente de bases de datos utilizadas para la identificación de péptidos. El protocolo podría ayudar en la identificación y visualización de los productos de la traducción de novela mediante el uso de había adaptado entrados archivos de secuencias de traducción y asociados archivos GTF de RNA-seq experimentos.
Varios enfoques y herramientas con una amplia gama de escenarios de aplicación especial para asignar coordenadas genómicas, desde el mapeo de péptidos directamente a la secuencia del genoma a los mapas de secuencia de RNA guiada, péptidos han sido introducidas10, 11 , 12 , 13 , 14 , 15 , 16 , 17. sin embargo, estos pueden resultar en un fracaso para asignar correctamente péptidos cuando existen modificaciones post-traduccionales y errores en el mapa subyacente de Lee de la secuencia de RNA pueden ser propagados hasta el nivel de péptido. PoGo se ha desarrollado específicamente superar esos obstáculos y hacer frente con el rápido aumento de conjuntos de datos de proteómica cuantitativa de alta resolución para integrar con plataformas de genómica ortogonal. La herramienta descrita aquí puede integrarse en flujos de trabajo de alto rendimiento. A través de la interfaz gráfica de PoGoGUI, la herramienta es fácil de usar y no requiere especialista en Bioinformática formación.
The authors have nothing to disclose.
Este trabajo fue financiado por el Wellcome Trust (WT098051) y la subvención del NIH (U41HG007234) para el proyecto GENCODE.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |