This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Este flujo de trabajo permite a los investigadores novatos aprovechar los recursos computacionales avanzados, como la computación en nube, para llevar a cabo una transcriptomía comparativa por pares. También sirve como una guía para que los biólogos desarrollen habilidades computacionales de científicos de datos, por ejemplo , la ejecución de comandos bash, la visualización y el manejo de grandes conjuntos de datos. Todo el código de línea de comandos y más explicaciones de cada comando o paso se pueden encontrar en el wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Las plataformas Discovery Environment y Atmosphere están conectadas entre sí a través del CyVerse Data Store. Como tal, una vez que los datos iniciales de secuenciación en bruto se han cargado no hay más necesidad de transferir archivos de datos grandes a través de una conexión a Internet, minimizando la cantidad de tiempo necesario para realizar análisis. Este protocolo está diseñado para analizar sólo dos tratamientos o condiciones experimentales. El análisis diferencial de la expresión génica seComparaciones pairwise, y no será adecuado para probar múltiples factores. Este flujo de trabajo también está diseñado para ser manual en lugar de automatizado. Cada paso debe ser ejecutado e investigado por el usuario, lo que permite una mejor comprensión de los datos y resultados analíticos, y por lo tanto mejores resultados para el usuario. Una vez completado, este protocolo producirá transcriptome (s) ensamblado de novo para organismos sin servicios (sin modelo) sin necesidad de mapear a genomas de referencia previamente montados (que usualmente no están disponibles en organismos desatendidos). Estos transcriptomas de novo se usan adicionalmente en el análisis diferencial de expresión de genes en pares para investigar genes que se diferencian entre dos condiciones experimentales. Los genes expresados diferencialmente son anotados funcionalmente para entender la respuesta genética que los organismos tienen a las condiciones experimentales. En total, los datos derivados de este protocolo se utilizan para probar hipótesis sobre las respuestas biológicas de los organismos subatendidos.
Homo sapiens y varias especies animales modelo clave tales como Drosophila melanogaster , Mus musculus , y Danio rerio representan la mayoría de trabajo de genómica funcional actual y pasado. Sin embargo, el costo rápidamente decreciente de la tecnología de secuenciación de alto rendimiento está proporcionando oportunidades para la genómica funcional en especies animales no modelo ( también conocidas como "descuidadas" o "subatendidas") 1 . Esta es una importante transición en genómica ya que los organismos no modelo representan con frecuencia especies económicamente relevantes ( por ejemplo , ostras, camarones, cangrejos) y ofrecen oportunidades para investigar nuevos fenotipos y sistemas biológicos fuera del alcance de los encontrados en especies modelo.
Aunque los organismos desatendidos presentan una oportunidad atractiva para investigar sistemas biológicos únicos, varios desafíos se enfrentan a los investigadores particularmente durante el análisis bioinformático. Algunos de losLos desafíos son innatos al procesamiento de grandes conjuntos de datos, mientras que otros resultan de la falta de recursos genéticos disponibles para los investigadores que trabajan en organismos desatendidos, como un genoma de referencia, ontologías específicas de organismos, etc. Comparación con los de análisis de datos, y como tal los análisis bioinformáticos generalmente se muestra como el costo más subestimado de los proyectos de secuenciación [ 2] . Por ejemplo, un análisis bioinformático de secuenciación básica de próxima generación podría consistir en los siguientes pasos: filtrar y recortar la calidad de las lecturas de secuencias sin procesar, ensamblar lecturas cortas en piezas contiguas más grandes, y anotación y / o comparaciones con otros sistemas para obtener comprensión biológica. Mientras que aparentemente simple, este flujo de trabajo del ejemplo requiere el conocimiento de la especialidad y los recursos computacionales más allá del alcance de un ordenador del laboratorio-banco, poniéndolo fuera del alcance de muchos científicos que estudian no-Organismos modelo.
Los retos innatos pueden ser de infraestructura o de conocimiento. Un desafío clásico de la infraestructura es el acceso a recursos computacionales apropiados. Por ejemplo, el ensamblaje y la anotación se basan en algoritmos computacionalmente intensivos que requieren potentes equipos o clústeres de ordenadores, con gran cantidad de RAM (256 GB-1 TB) y varios procesadores / núcleos para ejecutarse. Desafortunadamente, muchos investigadores no tienen acceso a tales recursos informáticos o no tienen los conocimientos necesarios para interactuar con estos sistemas. Otros investigadores podrían tener acceso a clusters de computación de alto rendimiento a través de sus universidades o instituciones, pero el acceso a estos recursos puede ser limitado ya veces resulta en cargos por hora de cálculo, es decir , el número de procesadores de CPU multiplicado por el número de " Horas "que esos procesadores están funcionando. Aprovechando un sistema de ciberinfraestructura financiado por la National Science FoundationComo CyVerse 3, que proporciona acceso gratuito a los recursos de computación para investigadores, en los Estados Unidos y en todo el mundo, puede ayudar a aliviar los retos de infraestructura, como se demostrará aquí.
Un ejemplo de un reto típico basado en el conocimiento es entender el software necesario para realizar análisis completos. Para llevar a cabo con eficacia un proyecto basado en la secuenciación, los investigadores necesitan estar familiarizados con la miríada de herramientas de software que se han desarrollado para los análisis bioinformáticos. Aprender cada paquete es difícil por sí mismo, pero se ve exacerbado por el hecho de que los paquetes se actualizan constantemente, se vuelven a publicar, se reúnen en nuevos flujos de trabajo y, a veces, se restringen para su uso bajo nuevas licencias. Además, la vinculación de las entradas y salidas de estas herramientas a veces requiere transformar tipos de datos para hacerlos compatibles, agregando otra herramienta al flujo de trabajo. Por último, también es difícil saber qué paquete de software esE mejor "para un análisis, y la identificación frecuente del mejor software para condiciones experimentales particulares es una cuestión de sutiles diferencias. En algunos casos, las revisiones útiles del software están disponibles, pero debido a la liberación continuada de nuevas actualizaciones y de opciones del software, éstas pasan rápidamente de fecha.
Para los investigadores que investigan los organismos subatendidos, estos retos innatos vienen además de los retos asociados con el análisis de datos en un organismo novedoso. Estos desafíos específicos de organismos desatendidos se ilustran mejor durante la anotación de genes. Por ejemplo, los organismos desatendidos frecuentemente no tienen un organismo modelo estrechamente relacionado que pueda ser utilizado razonablemente para identificar ortografía y función genética ( por ejemplo, invertebrados marinos y Drosophila ). Muchas herramientas bioinformáticas también requieren "entrenamiento" para identificar motivos estructurales, que pueden usarse para identificar la función del gen. Sin embargo, los datos de entrenamiento normalmente solo están disponibles para modLos organismos y la formación de modelos de Markov ocultos (HMM) está fuera del alcance de los biólogos, e incluso muchos bioinformáticos. Por último, aunque se puedan realizar anotaciones utilizando datos de organismos modelo, algunas ontologías genéticas asociadas con organismos modelo no tienen sentido cuando se considera la biología y la historia natural del organismo subatendido ( por ejemplo , transferir información de Drosophila a camarón).
A la luz de estos desafíos, los recursos bioinformáticos deben desarrollarse con investigadores que realicen análisis de novo sobre organismos desatendidos específicamente en mente. Los próximos años de proyectos de secuenciación genómica funcional ayudarán a cerrar la brecha entre los organismos modelo y los subatendidos ( https://genome10k.soe.ucsc.edu/ ), pero hay muchas herramientas que deberán desarrollarse para abordar los desafíos Consideradas anteriormente. CyVerse se dedica a crear ecosistemas de iInteroperabilidad mediante la vinculación de la ciberinfrastructure existente y las aplicaciones de terceros para entregar la gestión de datos, herramientas de análisis bioinformático, y visualizaciones de datos a los científicos de la vida. La interoperabilidad ayuda a suavizar las transiciones entre aplicaciones y plataformas bioinformáticas proporcionando recursos computacionales escalables y limitando las conversiones de formato de archivo y la cantidad de datos transferidos entre plataformas. CyVerse ofrece varias plataformas, incluyendo el Discovery Environment (DE 4 , Atmosphere 5 y Data Store 3. El DE está basado en la web y tiene muchas herramientas analíticas comunes de bioinformática convertidas en formatos de apuntar y hacer clic "), Y es la interfaz gráfica de usuario (GUI) para el almacén de datos donde se almacenan y gestionan grandes conjuntos de datos ( es decir , lecturas de secuencias sin procesar, genomas ensamblados).Utilizando los recursos computacionales de la Máquina Virtual, que tienen una amplia gama de herramientas bioinformáticas preinstaladas. Ambas plataformas están vinculadas al almacén de datos y se pueden utilizar conjuntamente para crear flujos de trabajo como los que se describen aquí. Este informe se centra en un ensamblaje de transcriptome de novo y flujos de trabajo de análisis de expresión génica diferencial, y además aborda algunas prácticas recomendadas asociadas con el desarrollo y la realización de análisis bioinformáticos. Una explicación de la misión más amplia de CyVerse ( http://www.cyverse.org/about ) y descripciones detalladas de la plataforma ( http://www.cyverse.org/learning-center ) están públicamente disponibles. Todos los análisis descritos en este documento utilizan el Entorno de Descubrimiento 4 (DE) y la Atmósfera 5 , y se presentan de una manera que los hace accesibles a los investigadores de todos los niveles computacionales. DE workflows y AtmosphLas imágenes se pueden referenciar directamente mediante URL para asegurar la procedencia a largo plazo, la reutilización y la reproducibilidad.
Hay cinco pasos críticos en el protocolo que cada uno creará su propia carpeta separada dentro de la carpeta principal del proyecto ( Figuras 1 y 2 ). Todos los datos primarios de secuenciación en bruto son sacrosantos: se debe cargar y mantener en la primera carpeta denominada "1_Raw_Sequence" y no se altera de ninguna manera. Los datos se pueden cargar en una de tres maneras. La interfaz DE se puede utilizar para cargar archivos directamente. Esta es la forma más sencilla de cargar datos, pero también tardará más en transferirse. Cyberduck tiene una interfaz gráfica y permite a los usuarios arrastrar y soltar archivos para transferir a la DE. ICommands es una herramienta de línea de comandos que se puede utilizar para transferir datos desde y hacia el almacén de datos, crear directorios y administrar conjuntos de datos, y es probablemente la forma más rápida de transferir archivos de datos. Todos los datos del almacén de datos pueden compartirse con otros usuarios de CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), publicadas a través de una URL generada (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), o pueden ser alojadas en forma pública y anónima ( No se requiere nombre de usuario) datos disponibles de la comunidad (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Dentro de esa carpeta, las lecturas de secuencia en bruto se analizan con FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) para evaluar cómo recortar y filtrar las lecturas para generar lecturas de alta calidad. Después de recortar y filtrar la calidad es útil comparar las salidas FastQC para determinar si la calidad de lectura ha cambiado para determinar que se ha mejorado sin perder información ( Figura 3 ). Tenga en cuenta que el eje x de FastQC no es lineal, sino que se almacena para muchos gráficos de salida, lo que puede conducir a una interpretación errónea de los resultados. Las lecturas recortadas y filtradas se utilizan para ensamblar transcriptomas de novo usando una instancia de computación en nube de Atmosphere. EstaEl equipo de la nube utiliza la pantalla de la computadora local, el teclado y el ratón, pero tiene su propio software (Trinity y Trinotate) y hardware instalado. La ejecución de programas en la instancia de la computadora en la nube no afectará de ninguna manera al equipo local. El ensamblaje de novo y la anotación descendente probablemente serán los dos pasos más largos en este flujo de trabajo. Por lo tanto, se completan en Atmósfera para evitar problemas comunes de computadora de laboratorio compartido que interrumpirían el análisis como interrupciones de energía, reinicios después de actualizaciones automáticas tarde por la noche o fallos causados por otros usuarios. La anotación del trinotate utiliza BLAST + 8 , HMMER 9 , tmHMM 10 y PFAM 11 . El resultado final de la anotación es una base de datos SQLite y un archivo .xls. Las salidas pueden utilizarse fuera de CyVerse en plataformas de análisis aguas abajo como KEGG 12 , 13 .
Este flujo de trabajoEstá listo para usar en el DE y la atmósfera. Esto elimina la necesidad de pasar tiempo instalando, configurando y solucionando problemas de cada paquete de análisis y todas las dependencias que requiere cada herramienta. Esto agiliza los análisis de los investigadores, minimiza el esfuerzo desperdiciado y reduce la barrera de entrada para muchos científicos. Este flujo de trabajo ensambla específicamente las lecturas de un solo o de pares de la plataforma de secuenciación de Illumina, pero existen muchas herramientas en el DE y Atmosphere para manejar otros tipos de tecnologías de secuenciación. Las herramientas de este flujo de trabajo se pueden reemplazar fácilmente con una herramienta alternativa correspondiente para manejar cualquier tipo de tecnología de secuenciación entrante. Esto también es válido para las nuevas versiones de herramientas de análisis o herramientas completamente nuevas.
Este flujo de trabajo está específicamente diseñado para reunir, comparar y anotar sólo unos pocos transcriptomas a la vez. Por lo tanto, los usuarios pueden encontrarlo tiempo para ensamblar transcriptomes múltiples para la genética comparativa de la población. AnálisisLos oleoductos estarán disponibles para los usuarios de genética de poblaciones en un futuro próximo y el enlace a la tubería se puede encontrar en la página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). El paso de análisis de expresión génica diferencial puede manejar repeticiones, pero es una comparación por parejas y no evaluará con exactitud múltiples factores ( p . Ej. , Condiciones que varían con el tiempo, más de dos tratamientos). Existen flujos de trabajo automatizados para organismos con genomas de referencia ( por ejemplo , TRAPLINE 14 ). Mientras que los flujos de trabajo automatizados son los más fáciles de usar para los principiantes, los ensamblajes de novo requieren evaluación y consideración para cada paso descrito aquí. Además, se requiere que los usuarios usen tuberías automatizadas a medida que se construyen y, por lo tanto, no son inherentemente flexibles para satisfacer las cambiantes demandas de los usuarios.
Dado que la mayor parte de este protocolo se realiza a través de Internet, los usuarios pueden experimentar problemas con la configuración de su navegador. En primer lugar,Los bloqueadores de ventanas emergentes pueden evitar que las ventanas se abran en absoluto o pueden impedir que las ventanas se abran hasta que se dé permiso a CyVerse en el navegador. Atmosphere utiliza VNC para acceder a escritorios remotos, pero puede utilizarse otro software. Todo este protocolo se realizó en Firefox versión 45.0.2 y debería funcionar con todos los navegadores de Internet más populares, pero pueden aparecer algunas inconsistencias. El flujo de trabajo se actualizará a medida que Trinity publique nuevas versiones (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Las versiones más recientes y la información actualizada sobre el flujo de trabajo se pueden encontrar en la página del tutorial wiki ( Tabla 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Los usuarios pueden ponerse en contacto con el soporte directamente o publicar preguntas en Ask CyVerse (ask.cyverse.org/) para solucionar cualquier problema con el flujo de trabajo.
En el DE existen varias aplicaciones para realizar cada paso de este protocolo. Por ejemplo, los usuarios tal vez deseen ejecutar Scythe (https://github.com/najoshi/sickle) en lugar de Trimmomatic15 para leer recortar o ejecutar EdgeR 16 en lugar de DESeq 17 , 18 . Aunque fuera del alcance de este manuscrito, las aplicaciones DE pueden ser copiadas, editadas y publicadas por los usuarios (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) o las nuevas aplicaciones pueden ser agregadas por los usuarios (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Las imágenes de Atmosphere también pueden ser modificadas y reimaginadas para crear flujos de trabajo nuevos o modificados que satisfagan las necesidades de los usuarios más específicamente (https://wiki.cyverse.org/wiki/x/TwHX). Este trabajo sirve como una introducción a la utilización de la línea de comandos para mover datos y ejecutar análisis. Los usuarios pueden considerar la utilización de recursos de línea de comandos más avanzados como las interfaces de programación de aplicaciones (API) CyVerse (http://www.cyverse.org/science-apis), o diseñar sus propias aplicaciones DE, las cuales requieren conocimientosAcerca de cómo se ejecuta la herramienta de análisis en la línea de comandos (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |