Basics of Multivariate Analysis in Neuroimaging Data

Christian Georg Habeck

doi:10.3791/1988

JoVE Journal > Neuroscience

Please note that all translations are automatically generated. Click here for the English version.

Nörobilim

Fundamentos del análisis multivariante de los datos de neuroimagen

Published: July 24, 2010

doi:

10.3791/1988

Christian Georg Habeck¹

¹Department of Neurology,Columbia University

Özet

El presente artículo describe los fundamentos del análisis multivariado y se contrasta con el de uso más común voxel-sabio análisis univariado. Ambos tipos de análisis se aplica a un conjunto de datos clínico-neurociencia. Complementaria medio dividida simulaciones muestran una mejor reproducción de los resultados multivariados en conjuntos de datos independientes.

Abstract

Técnicas de análisis multivariante de los datos de neuroimagen han recibido recientemente una atención creciente, ya que tienen muchas características atractivas que no puede ser fácilmente realizada por el más comúnmente utilizado univariado, voxel-sabia, técnicas<sup> 1,5,6,7,8,9</sup>. Métodos multivariantes evaluar la correlación / covarianza de la activación de todas las regiones del cerebro, en lugar de proceder sobre una base voxel por voxel. Por lo tanto, sus resultados pueden ser más fácilmente interpretada como una firma de las redes neuronales. Enfoques univariado, por otro lado, no pueden abordar directamente la correlación interregional en el cerebro. Métodos multivariantes también puede resultar en una mayor potencia estadística en comparación con las técnicas univariantes, que se ven obligados a emplear correcciones muy estrictos para voxel-sabia comparaciones múltiples. Además, las técnicas multivariantes también se prestan mucho mejor a la aplicación prospectiva de los resultados del análisis de un conjunto de datos a bases de datos completamente nuevo. Técnicas multivariantes se halla bien situada para proporcionar información acerca de las diferencias de medias y correlaciones con el comportamiento, al igual que los enfoques univariado, con un poder estadístico potencialmente mayor y mejor control de reproducción. En contraste con estas ventajas es la gran barrera de entrada a la utilización de métodos multivariantes, la prevención de una aplicación más amplia en la comunidad. Para el neurocientífico de familiarizarse con las técnicas de análisis multivariante, un estudio inicial del campo podría presentar una desconcertante variedad de enfoques que, a pesar de algoritmos similares, se presentan con diferentes énfasis, por lo general por personas con formación matemática. Creemos que las técnicas de análisis multivariante tienen potencial suficiente para garantizar una mejor difusión. Los investigadores deben ser capaces de emplearlos de una manera informada y accesible. El presente artículo es un intento de una introducción didáctica de técnicas multivariantes para el principiante. Una introducción conceptual se sigue con una aplicación muy sencilla con un conjunto de datos de diagnóstico de la Iniciativa de Alzheimer s Neuroimagen de Enfermedades (ADNI), lo que demuestra claramente el rendimiento superior de la aproximación multivariada.

Protocol

Para dar una visión conceptual de análisis multivariante podemos imaginar una situación muy simple: un conjunto de datos hipotéticos para 50 personas participantes, en el que sólo tres regiones, denominado voxels (píxeles = 3 dimensiones en la figura 1) en el cerebro se midieron. (Insertar aquí la figura 1, leer subtítulos como voz en off.) El objetivo general del análisis multivariante es identificar las principales fuentes de variación en los datos, a continuación, describe los efectos de mayor interés de los datos en términos de estas fuentes de variación. La figura 2 muestra un ejemplo sencillo. (Insertar aquí la figura 2, leer subtítulos como voz en off.) Ahora aplicamos el análisis tanto univariable y multivariable de un conjunto de datos clínicos. Hemos descargado FDG-PET de descanso para los 95 primeros pacientes de Alzheimer y 102 controles emparejados por edad de la página web de la Iniciativa de la Enfermedad de Alzheimer de neuroimagen (http://www.loni.ucla.edu/ADNI/). Hemos elegido al azar 20 exploraciones de los pacientes y controles y designada como la muestra de derivación. El 75 y 82 exploraciones, respectivamente, constituyen la muestra de replicación. Univariado y multivariado la enfermedad de Alzheimer (AD) los marcadores ahora se derivará en la muestra de derivación, y su probada eficacia diagnóstica de la muestra de replicación. Para el marcador univariado, se contrasta el 20 exploraciones AD con los 20 controles explora en la muestra de la derivación y escoger el lugar del cerebro que muestra la mayor reducción de la señal de PET en los pacientes con EA, como se muestra por un T-test. Para probar la eficacia diagnóstica de esta región, comprobamos los datos de la muestra de replicación en este lugar y la trama de su señal de PET en función del estado de la enfermedad. Para el marcador multivariado, en primer lugar realizar un PCA en la combinación de 40 exploraciones en la muestra de derivación, y luego construir un patrón de covarianza de los 5 primeros componentes principales, cuyo objeto factor de escala muestra una diferencia máxima de media entre los pacientes con EA y controles sanos. (Los detalles se encuentran en estos documentos representante 2.) El patrón de covarianza diagnóstico obtenido de la muestra de la derivación es entonces prospectiva aplicada a la muestra de replicación. Los factores de escala resultantes sujeto se representa como una función de estado de la enfermedad. Para proporcionar una comparación más general de los enfoques univariado y multivariado de la etapa 4 y 5, se realiza una "muestra de división" de simulación y repetir los dos pasos de 1.000 veces en los datos de muestrear, cada vez que la formación de una muestra de 20/20 y 75/82 derivación una la replicación de los pacientes con EA y de nuevo los controles sanos. Marcadores de la enfermedad univariante y multivariante se calcula a partir de la muestra de la derivación y el umbral de decisión se ajusta de tal manera que la mayor parte en un control sano es incorrectamente clasificada como AD (especificidad = 95%). Los marcadores de la enfermedad con sus umbrales de decisión específicas están prospectiva aplicada a las muestras de replicación. Las tasas de error de clasificación en la muestra de replicación se registran para todas las iteraciones de remuestreo. Resultados representante Rendimiento univariado Los resultados pueden verse en detalle en la figura 3. El área de mayor AD relacionados con déficit de FDG fue encontrado en la circunvolución temporal súper, área de Brodmann 38. El área bajo la curva ROC, se logró AUC = 0,90. La generalización de esta diferencia de la muestra de la replicación era bastante bueno, con un área bajo la curva ROC de las AUC = 0,84. Rendimiento multivariado Los resultados pueden verse en detalle en la Figura 4. Zonas con cargas positivas, haciendo alusión a una relativa preservación de la señal en la cara de la enfermedad fueron encontradas en el cerebelo, mientras que la pérdida asociada de la señal se ha encontrado las áreas parietotemporal y frontal, y la circunvolución cingular posterior. Las áreas bajo las curvas ROC-tanto en la derivación y la replicación de las muestras fueron ligeramente mejores que el marcador univariado a 0,96 y 0,88, respectivamente. Muestra dividida simulaciones Los resultados pueden verse en detalle en la figura 5. La figura muestra que el marcador multivariado ofrece una mejor reproducción de rendimiento diagnóstico que el marcador de una variable. La tasa media de error total para el marcador multivariante es 0,203, mientras que para el marcador univariado es 0,307. . Figura 1 Esta figura simple se describe la diferencia entre las estrategias de análisis univariado y multivariado: una hipotética 3-dimensional conjunto de datos se muestra en esta ilustración. En el lado izquierdo, no hay correlación entre las 3 variables a representar. En el lado derecho por el contrario, se puede ver una de las principales fuentes de variación que indica una correlación positiva entre los tres voxels. Un análisis univariado que acabamos de considerar los valores medios sobre una base voxel por voxel no podría decir la diferencia entre estos dos escenarios. El análisis multivariado, en cambio, identifica las principales fuentes de Variance en los datos (flecha roja) antes de proceder a la construcción de los patrones de activación neuronal forma estas fuentes. Figura 2. Esta diapositiva muestra de forma simplificada el cumplimiento básico de cualquier análisis multivariado de los datos de neuroimagen. La matriz de datos Y (s, x), que depende de un índice de materia s, y un índice de voxel x, lo que indica la ubicación del voxel en el cerebro, se descompone en una suma de varios términos. En primer lugar, un producto de una puntuación factor puramente sujeto dependiente, ssf (s), y un patrón de covarianza puramente voxel-dependiente, v (x). La activación de la segunda, que no puede ser explicada por el modelo de covarianza se captura en un término de ruido sujeto y voxel-dependiente, e (s, x). Los dos gráficos siguientes, la ecuación de dar un ejemplo del factor de escala sujeto y el patrón de covarianza. Cada participante manifiesta el patrón de covarianza, sólo en un grado diferente, como muestra la puntuación factor de tema. En lugar de tener que realizar un seguimiento del comportamiento de cada voxel por separado, el patrón de covarianza y su expresión sujeto un resumen parsimoniosa de la principal fuente de variación. A medida que aumenta el factor de escala en materia de magnitud, las zonas marcadas en azul en el patrón de covarianza disminuir su activación asociada, mientras que las áreas indicadas en rojo al mismo tiempo aumentar su activación asociada. La puntuación de los factores sujeto puede estar correlacionada con las variables externas de interés, como la edad del sujeto o comportamiento en una tarea cognitiva, y sin corrección para comparaciones múltiples se ha de aplicar a esta correlación. Varias técnicas de descomposición que existan, pero la más común es el Análisis de Componentes Principales (ACP). Esta es la técnica de elección para nosotros. Tenga en cuenta que los factores de escala tema se puede obtener mediante la proyección del patrón de covarianza en cualquier conjunto de datos de la dimensión de igualdad, no sólo el conjunto de datos que produce el patrón de covarianza en el primer lugar. Esto hace que los patrones de covarianza adecuados para comprobar que es el cerebro del comportamiento relaciones que se observaron en un conjunto de datos puede ser reproducido en un conjunto de datos diferentes. Figura 3. Esta figura muestra el resultado del análisis univariado. En el panel inferior izquierdo, los valores de la señal de FDG se trazan para el área que muestra más grande de la AD relacionados con el déficit en la muestra de derivación. Sus coordenadas MNI son X = 2 mm, Y = -48 mm, Z = 30 mm (precuneo / PCG, el área de Brodmann 31). El panel inferior derecho muestra la señal de FDG en este mismo lugar en la muestra de replicación. Se puede apreciar que las diferencias entre los pacientes con EA FDG y los controles en la muestra de replicación, mientras que sigue siendo significativa en general, se reducen con mayor coincidencia entre los grupos. Figura 4. Esta figura muestra los resultados del análisis multivariado. En el panel superior, se muestra varios cortes axiales que muestran significativamente positiva y negativamente las áreas ponderada (p <0,001) en el patrón de covarianza en rojo y azul, respectivamente. Tenga en cuenta que a escala en cada ciclo por su valor medio mundial, el color tan rojo y azul indican un aumento relativo y no absoluto y de la señal disminuye y PET con la gravedad de la enfermedad. Las zonas rojas por lo tanto apuntan a una relativa preservación de la faz de la enfermedad, mientras que el azul indica una pérdida de señal, como consecuencia de la enfermedad. Las áreas rojas se encuentran principalmente en el cerebelo, mientras que las zonas azules aparecen en la circunvolución cingular posterior, regiones parietotemporal y frontal. Panel inferior izquierdo: las puntuaciones de los factores tema del patrón de covarianza AD-relacionadas se muestran en la muestra de derivación. Los puntajes más altos se encuentran sujetos a los pacientes de Alzheimer. Panel inferior derecho: las puntuaciones factoriales sujeto resultante de la aplicación prospectiva de la estructura de covarianza AD-relacionados con la muestra de replicación se representan aquí. Se puede apreciar un ligero empeoramiento de la diferencia de diagnóstico con mayor solapamiento en la muestra de la réplica, pero la generalización de la eficacia diagnóstica es notablemente mejor que en el caso univariado. Figura 5. Esta figura muestra los resultados de las 1.000 muestras divididas simulaciones. Enumerados son medias y desviaciones estándar de las tasas de error univariado y multivariado de diagnóstico en las muestras de replicación. Se puede apreciar que la generalización multivariante el marcador de rendimiento es mucho mejor, aunque algo más variable que la del marcador de una variable.

Discussion

Esperamos haber dado al espectador una idea de los fundamentos del análisis multivariado, los espectadores interesados se les anima a revisar nuestro sitio web. A pocas opciones para los parámetros en el análisis multivariante que se pueden debatir objeto de considerable debate. Nos salvó la discusión de estas cuestiones en este artículo para evitar la distracción de los temas principales. En primer lugar, se optó por las primeras 6 componentes principales para la construcción de nuestra AD relacionados con patrón de covarianza. Hay razones teóricas para esta elección que no discutimos ^4. La elección particular de seis componentes principales, aunque no es esencial para nuestro argumento: uno puede elegir en el rango de 2 a 20 computadoras y todavía obtener un rendimiento superior de la generalización multivariante el marcador en las simulaciones de la muestra dividida. Los resultados son igual de firme con respecto a la elección del número de sujetos en la derivación y las muestras de replicación. Hemos elegido 20 sujetos de ambos grupos en la muestra de la réplica, pero esto fue por pura conveniencia matemática para acelerar los cálculos. Nuestros resultados sobre los méritos relativos de las dos técnicas se mantenga de manera similar, si el número de sujetos en las muestras de derivación se incrementaron.

En segundo lugar, sólo se presenta el tipo más básico de análisis multivariante. Complicación considerable con técnicas tomadas de la literatura de aprendizaje de máquina, transformaciones lineales y no lineales antes de la PCA, y varias otras arrugas son factibles que pudieran mejorar el rendimiento de generalización aún más. Para simplificar, no hemos tocado en estas posibilidades en este artículo.

Açıklamalar

The authors have nothing to disclose.

Acknowledgements

The author is grateful for NIH grant support:

NIH/NIBIB 5R01EB006204-03 Multivariate approaches to neuroimaging analysis

NIH/NIA 5R01AG026114-02 Early AD Detection with ASL MRI & Covariance Analysis

ADNI: Imaging data was provided by the Alzheimer’s Disease Neuroimaging Initiative (ADNI) (NIH U01AG024904). Data collection and sharing for this project was funded by the Alzheimer’s Disease Neuroimaging Initiative (ADNI) (National Institutes of Health Grant U01 AG024904). ADNI is funded by the National Institute on Aging, the National Institute of Biomedical Imaging and Bioengineering, and through generous contributions from the following: Abbott, AstraZeneca AB, Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Global Clinical Development, Elan Corporation, Genentech, GE Healthcare, GlaxoSmithKline, Innogenetics ,Johnson and Johnson, Eli Lilly and Co., Medpace, Inc., Merck and Co., Inc., Novartis AG, Pfizer Inc, F. Hoffman-La Roche, Schering-Plough, Synarc, Inc., and Wyeth, as well as non-profit partners the Alzheimer’s Association and Alzheimer’s Drug Discovery Foundation, with participation from the U.S. Food and Drug Administration. Private sector contributions to ADNI are facilitated by the Foundation for the National Institutes of Health(http://www.fnih.org). The grantee organization is the Northern California Institute for Research and Education, and the study is coordinated by the Alzheimer’s Disease Cooperative Study at the University of California, San Diego. ADNI data are disseminated by the Laboratory for Neuro Imaging at the University of California, Los Angeles. This research was also supported by NIH grants P30 AG010129, K01 AG030514, and the Dana Foundation.