Galaxy y David se han convertido en herramientas populares que permiten a los investigadores sin formación bioinformática para analizar e interpretar los datos de RNA-Seq. Se describe un protocolo para C. elegans los investigadores realizar RNA-Seq experimentos, acceder y procesar el conjunto de datos usando Galaxy y obtener información biológica significativa de las listas de genes usando DAVID.
generación de secuenciación de próxima (NGS) tecnologías han revolucionado la naturaleza de la investigación biológica. De estos, RNA Sequencing (RNA-Seq) ha surgido como una poderosa herramienta para el análisis de expresión génica y mapeo transcriptoma. Sin embargo, el manejo de bases de datos de RNA-Seq requiere experiencia computacional sofisticado y plantea retos inherentes para investigadores de la biología. Este cuello de botella ha sido mitigada por el proyecto de acceso abierto Galaxy que permite a los usuarios sin conocimientos de bioinformática para analizar los datos de RNA-Seq, y la base de datos para la anotación, visualización, y Integrado de Discovery (DAVID), una ontología de genes (GO) Suite término análisis que ayuda entender el significado biológico de grandes conjuntos de datos. Sin embargo, para los usuarios de primera vez y los aficionados bioinformática, el autoaprendizaje y la familiarización con estas plataformas puede llevar mucho tiempo y difícil. Se describe un flujo de trabajo sencillo que ayudará a C. elegans investigadores aislar ARN de gusano, llevar a cabo un experimento de RNA-Seqy analizar los datos utilizando plataformas Galaxy y David. Este protocolo proporciona instrucciones paso a paso para el uso de los diversos módulos Galaxy para acceder a los datos en bruto NGS, controles de calidad, la alineación y análisis de la expresión génica diferencial, guiando al usuario con los parámetros en cada paso para generar una lista de genes que se pueden cribar para el enriquecimiento de clases de genes o procesos biológicos utilizando DAVID. En general, esperamos que este artículo se proporcionará información a los investigadores que realizan C. elegans experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.
La primera secuenciación del genoma humano, lleva a cabo mediante el método de secuenciación de didesoxinucleótidos-Fred Sanger, tomó 10 años, y un costo estimado de US $ 3 billón 1, 2. Sin embargo, en poco más de una década desde su creación, Next-Generation Sequencing Technology (NGS) ha hecho posible secuenciar el genoma humano completo en dos semanas y por US $ 1,000. NGS nuevos instrumentos que permiten velocidades cada vez mayores de la colección de secuenciación de datos con una eficiencia increíble, junto con fuertes reducciones en el costo, están revolucionando la biología moderna en formas inimaginables como proyectos de secuenciación del genoma están convirtiendo rápidamente en un lugar común. Además, estos desarrollos han galvanizado avances en muchas otras áreas tales como el análisis de expresión génica a través de RNA-Sequencing (RNA-Seq), el estudio de las modificaciones epigenéticas en todo el genoma, las interacciones ADN-proteína, y la detección de la diversidad microbiana en huéspedes humanos. NGS-basado RNA-Seq en particular, ha hecho que sea posible identificar y transcriptomes mapa integral con precisión y sensibilidad, y ha sustituido a la tecnología de microarrays como el método de elección para los perfiles de expresión. Mientras que la tecnología de microarrays se ha utilizado ampliamente, que está limitado por su dependencia de las matrices de pre-existentes con la información genómica conocida, y otros inconvenientes tales como hibridación cruzada y la gama restringida de los cambios de expresión que se puede medir de forma fiable. RNA-seq, por otra parte, puede ser utilizado para detectar tanto las transcripciones conocidos y desconocidos, mientras que la producción de bajo nivel de ruido de fondo debido a su naturaleza inequívoca asignación de ADN. RNA-Seq, junto con las numerosas herramientas genéticas ofrecidas por organismos modelo tales como levaduras, moscas, gusanos, peces y ratones, ha servido de base para muchos descubrimientos biomédicos recientes importantes. Sin embargo, sigue habiendo retos importantes que hacen NGS inaccesibles para la comunidad científica en general, incluidas las limitaciones de almacenamiento, procesamiento y, sobre todo, m análisis bioinformática eaningful de grandes volúmenes de datos de secuenciación.
Los rápidos avances en las tecnologías de secuenciación y la acumulación exponencial de los datos han creado una gran necesidad de plataformas computacionales que permitan a los investigadores acceder, analizar y comprender esta información. Los primeros sistemas dependían en gran medida de los conocimientos de programación informática, mientras que, genoma navegadores tales como NCBI que permitieron a los no programadores para acceder y visualizar datos no permitió análisis sofisticados. La plataforma, de acceso libre basada en la web, Galaxy ( https://galaxyproject.org/ ), ha llenado este vacío y ha demostrado ser una tubería valiosa que permite a los investigadores para procesar datos de NGS y llevar a cabo una variedad de fácil de complejo análisis de la bioinformática. Galaxy se estableció inicialmente, y se mantiene, por los laboratorios de Anton Nekrutenko (Penn State University) y James Taylor (Universidad Johns Hopkins)f "> 3. El Galaxy ofrece una amplia gama de tareas de cómputo por lo que es una 'ventanilla única' para las necesidades de la bioinformática innumerables, incluyendo todos los pasos involucrados en un estudio de RNA-Seq. Itallows usuarios para realizar el procesamiento de datos, ya sea en sus servidores o localmente en sus propias máquinas. los datos y flujos de trabajo pueden ser reproducidos y compartidos. los tutoriales en línea, sección de ayuda, y una página-wiki ( https://wiki.galaxyproject.org/Support ) dedicada al Proyecto Galaxy proporcionan un apoyo constante. Sin embargo, para los usuarios de primera vez, especialmente aquellos que no tienen la formación bioinformática, la tubería puede parecer desalentador y el proceso de auto-aprendizaje y familiarización puede llevar mucho tiempo. Además, el sistema biológico estudiado, y los detalles del experimento y los métodos utilizados, el impacto las decisiones analíticas en varios pasos, y estos pueden ser difíciles de navegar sin instrucción.
El RN general A-Seq Galaxy de flujo de trabajo consiste en la carga de datos y verificación de la calidad seguido por análisis utilizando el Tuxedo Suite 4, 5, 6, 7, 8, 9, que es un colectivo de varias herramientas requeridas para las diferentes etapas de análisis de datos RNA-Seq 10, 11, 12, 13, 14. Un experimento típico RNA-Seq consiste en la parte experimental (preparación de la muestra, el aislamiento de ARNm y ADNc de preparación de la biblioteca), la NGS y el análisis de la bioinformática datos. Una visión general de estas secciones, y los pasos involucrados en la tubería Galaxy, se muestran en la Figura 1.
3fig1.jpg"/>
Figura 1: Visión general de un RNA-Seq Workflow. Ilustración de los pasos experimentales y computacionales que participan en un experimento RNA-Seq para comparar los perfiles de expresión génica de dos cepas de gusanos (A y B, líneas de color naranja y verde y flechas, respectivamente). Los diferentes módulos de Galaxy utilizado se muestran en recuadros con el paso correspondiente en el protocolo indicado en rojo. Las salidas de diversas operaciones están escritos en gris con los formatos de archivo que se muestran en azul. Haga clic aquí para ver una versión más grande de esta figura.
La primera herramienta en el Tuxedo Suite es un programa de alineación llamada 'Tophat'. Se descompone la entrada NGS lee en fragmentos más pequeños y luego los asigna a un genoma de referencia. Este proceso de dos pasos asegura que lee abarca regiones intrónicas cuya alineación puede ser de otro modo disrupted o perdidas se contabilizan y se asigna. Esto aumenta la cobertura y facilita la identificación de nuevas uniones de empalme. Salida Tophat se informa como dos archivos, un archivo de BED (con información sobre las uniones de corte y empalme que incluyen localización genómica) y un archivo de BAM (con detalles de mapeo de cada lectura). A continuación, el archivo de BAM se alinea contra un genoma de referencia para estimar la abundancia de las transcripciones individuales dentro de cada muestra con la función posterior en la Suite Tuxedo llamada 'Gemelos'. Gemelos funciones mediante el escaneo de la alineación reportar fragmentos de transcripción de longitud completa o 'transfrags' que abarcan todas las posibles variantes de empalme en los datos de entrada para cada gen. Basado en esto, se genera un 'transcriptoma' (montaje de todas las transcripciones generadas por gen para cada gen) para cada muestra que se secuenciaron. Estos conjuntos de mancuernas se colapsaron luego o se fusionaron junto con la referencia genoma para producir un único archivo de anotación para el análisis diferencial de aguas abajo usando la siguiente herramienta, 'Cuffmerge'. Por último, la expresión génica herramienta medidas diferencial la 'Cuffdiff' entre las muestras mediante la comparación de las salidas el sombrero de copa de cada una de las muestras para el archivo de salida Cuffmerge final (Figura 1). Gemelos utiliza FPKM / RPKM (Fragmentos / Lee por kilobase de transcripción por millón asignada lecturas) los valores reportar transcripción abundancias. Estos valores reflejan la normalización de los datos NGS primas para la profundidad (número promedio de lecturas de una muestra que se alinean con el genoma de referencia) y la longitud de genes (genes tener longitudes diferentes, por lo recuentos tienen que ser normalizado para la longitud de un gen para comparar los niveles entre los genes). FPKM y RPKM son esencialmente los mismos con RPKM ser utilizados para un solo extremo RNA-Seq donde cada lectura corresponde a un solo fragmento, mientras que, FPKM se utiliza para-Extremo emparejado RNA-Seq, ya que representa el hecho de que dos lecturas pueden corresponder al mismo fragmento. En última instancia, el resultado de estos análisis es una lista de genes expresados diferencialmente entre las condiciones y / o las cepas ensayadas.
Una vez que una carrera exitosa Galaxy se ha completado y se genera una 'lista de genes', el siguiente paso lógico requiere más análisis de la bioinformática para deducir conocimiento significativo de los conjuntos de datos. Muchos paquetes de software han surgido para atender a esta necesidad, incluyendo paquetes computacionales basados en web disponibles públicamente como David (la base de datos para la anotación, y Visualización Integrada Discovery) 15. DAVID facilita la asignación de significado biológico a grandes listas de genes de alto rendimiento estudios comparando la lista de genes subido a su base de conocimiento biológico integrado y revelar las anotaciones biológicas asociadas con la lista de genes. Esto es seguido por análisis de enriquecimiento, es decir, las pruebas a identify si cualquier clase de proceso o gen biológico se excesivamente en la lista (s) de genes de una manera estadísticamente significativa. Se ha convertido en una opción popular debido a una combinación de una amplia, base de conocimiento integrado y algoritmos de análisis de gran alcance que permiten a los investigadores a detectar temas biológicos enriquecidos dentro de la genómica-deriva '' listas de genes 10, 16. Las ventajas adicionales incluyen su capacidad para procesar las listas de genes creado en cualquier plataforma de secuenciación y una interfaz muy fácil de usar.
El nematodo Caenorhabditis elegans es un sistema modelo genético, bien conocida por sus muchas ventajas, tales como tamaño pequeño, cuerpo transparente, plan de cuerpo simple, facilidad de la cultura y gran susceptibilidad a la disección genética y molecular. Worms tienen un pequeño, simple y bien anotado genoma que incluye hasta un 40% de genes conservados con homólogos humanos conocidos 17. De hecho, C. elegansfue la primera metazoan cuyo genoma fue secuenciado por completo 18, y una de las primeras especies que se utilizó RNA-Seq para mapear transcriptoma de un organismo 19, 20. Estudios gusano temprano involucrados experimentación con diferentes métodos para alto rendimiento de captura de RNA, la preparación de la biblioteca y la secuenciación, así como tuberías de bioinformática que contribuyeron al avance de la tecnología de 21, 22. En los últimos años, la experimentación basada en ARN-Seq en los gusanos se ha convertido en un lugar común. Pero, para los biólogos del gusano tradicionales los retos que plantea el análisis computacional de los datos de RNA-Seq siguen siendo un obstáculo para una mayor y mejor utilización de la técnica.
En este artículo, se describe un protocolo para el uso de la plataforma Galaxy para analizar los datos de RNA-Seq alto rendimiento generados a partir de C. elegans. Para muchos por primera vez y de pequeña scaLe usuarios, la forma más rentable y sencillo para llevar a cabo un experimento de RNA-Seq es aislar ARN en el laboratorio y utilizar una instalación comercial NGS (o en casa) para la preparación de bibliotecas de ADNc de secuenciación y el propio NGS. Por lo tanto, hemos detallado primero las etapas implicadas en el aislamiento, la cuantificación y evaluación de la calidad de C. elegans muestras de ARN para la ARN-Seq. A continuación, se proporcionan instrucciones paso a paso para el uso de la interfaz de Galaxy para el análisis de los datos de NGS, comenzando con las pruebas de los controles de calidad post-secuenciación seguido de alineación, el montaje, y la cuantificación diferencial de la expresión génica. Además, hemos incluido direcciones para escudriñar los listas de genes resultantes de Galaxy para estudios de enriquecimiento biológicos utilizando DAVID. Como paso final en el flujo de trabajo, se proporcionan instrucciones para cargar los datos de RNA-Seq a los servidores públicos, tales como la secuencia de lectura del archivo (SRA) en el NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para que sea libremente accesible para la comunidad científica. En general, esperamos que este artículo se proporcionará información completa y suficiente para los biólogos del gusano que llevan a cabo experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.
Importancia de la plataforma de secuenciación Galaxy biología de hoy
El Proyecto Galaxy se ha convertido en fundamental para ayudar a los biólogos y sin la formación de bioinformática para procesar y analizar los datos de secuenciación de alto rendimiento de una manera rápida y eficiente. Una vez considerada una tarea hercúlea, esta plataforma accesible al público que ha hecho correr algoritmos bioinformáticos complejos para analizar los datos NGS un proceso sencillo, fiable y fácil….
The authors have nothing to disclose.
Los autores desean expresar su agradecimiento a los laboratorios, grupos e individuos que han desarrollado Galaxy y David, y por lo tanto hechas NGS ampliamente accesible para la comunidad científica. La ayuda y el asesoramiento brindado por sus colegas de la Universidad de Pittsburgh durante nuestra formación bioinformática es reconocido. Este trabajo fue apoyado por una Fundación Médica Ellison Nueva Académico en el envejecimiento premio (AG-NS-0879-12) y una subvención de los Institutos Nacionales de Salud (R01AG051659) a AG.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |