Basics of Multivariate Analysis in Neuroimaging Data

Christian Georg Habeck

doi:10.3791/1988

JoVE Journal > Neuroscience

Please note that all translations are automatically generated. Click here for the English version.

Nörobilim

Bases de la neuroimagerie analyse multivariée des données

Published: July 24, 2010

doi:

10.3791/1988

Christian Georg Habeck

¹Department of Neurology,Columbia University

Özet

Le présent article décrit les bases de l'analyse multivariée et il l'oppose à la plus couramment utilisée voxel-sage analyse univariée. Les deux types d'analyse sont appliquées à un ensemble de données cliniques-neurosciences. Supplémentaire moitié-moitié simulations montrent une meilleure reproduction des résultats multivariés ensembles de données indépendants.

Abstract

Techniques d'analyse multivariée des données de neuro-imagerie ont récemment reçu une attention croissante car ils ont de nombreuses caractéristiques attrayantes qui ne peuvent pas être facilement réalisés par les plus couramment utilisés univariée, voxel-sage, les techniques<sup> 1,5,6,7,8,9</sup>. Des approches multivariées d'évaluer la corrélation / covariance de l'activation de toutes les régions du cerveau, plutôt que de procéder sur une base voxel par voxel-. Ainsi, leurs résultats peuvent être plus facilement interprété comme une signature de réseaux neuronaux. Des approches univariée, d'autre part, ne peut pas traiter directement de corrélation interrégionale dans le cerveau. Des approches multivariées peuvent également entraîner une plus grande puissance statistique par rapport aux techniques univariées, qui sont obligés d'employer des corrections très strictes pour voxel-sage des comparaisons multiples. En outre, les techniques multivariées se prêtent également bien mieux à l'application prospective des résultats de l'analyse d'un ensemble de données pour des ensembles de données entièrement nouvelle. Techniques multivariées sont donc bien placés pour fournir des informations sur les différences moyennes et les corrélations avec le comportement, à l'instar des approches univariées, avec une puissance statistique potentiellement supérieure et vérifie la reproductibilité mieux. Contrairement à ces avantages est la haute barrière d'entrée à l'utilisation d'approches multivariées, ce qui empêche l'application plus répandue dans la communauté. Pour le neuroscientifique à se familiariser avec les techniques d'analyse multivariée, une enquête initiale sur le terrain pourrait présenter une variété déconcertante d'approches qui, bien que algorithmiquement similaires, sont présentés avec des accents différents, généralement par des gens d'horizons mathématiques. Nous croyons que les techniques d'analyse multivariée ont un potentiel suffisant pour justifier une meilleure diffusion. Les chercheurs devraient être en mesure de les employer d'une manière éclairée et accessible. Le présent article est une tentative d'une introduction didactique des techniques multivariées pour le novice. Une introduction conceptuelle est suivie avec une application très simple à un ensemble de données de diagnostic de l'Initiative de l'Alzheimer Disease s neuroimagerie (ADNY), démontrant clairement la performance supérieure de l'approche multivariée.

Protocol

Pour donner un aperçu conceptuel de l'analyse multivariée, nous pouvons imaginer une situation très simple: un ensemble de données hypothétiques pour 50 participants humains, où seulement trois régions, notée voxels (pixels = 3 dimensions dans la figure 1) dans le cerveau ont été mesurées. (Figure 1 Insérez ici, lisez légende comme la voix sur.) L'objectif général de l'analyse multivariée est d'identifier les principales sources de variance dans les données, puis décrivant les principaux effets d'intérêt dans les données en fonction de ces sources de variance. La figure 2 montre un exemple simpliste. (Insérer Figure 2 ici, lisez légende comme la voix sur.) Nous appliquons maintenant l'analyse à la fois uni et multivariée à un ensemble de données cliniques. Nous avons téléchargé le FDG-PET scans de repos pour les 95 premiers patients atteints d'Alzheimer et 102 témoins appariés par âge à partir du site Web de l'Initiative de la Maladie d'Alzheimer neuroimagerie (http://www.loni.ucla.edu/ADNI/). Nous choisi au hasard 20 scans des patients et des contrôles et les a désignées comme notre échantillon de dérivation. Les 75 et 82 autres scans, respectivement, constituent notre échantillon de réplication. Univariées et multivariées maladie d'Alzheimer (MA) des marqueurs vont maintenant être dérivé de l'échantillon de dérivation, et leur efficacité diagnostique testé dans l'échantillon de réplication. Pour le marqueur univariée, nous comparons les 20 scans AD avec les 20 témoins balaye l'échantillon de dérivation et de choisir l'emplacement du cerveau qui montre la plus forte baisse du signal de PET dans les patients atteints de MA, comme indiqué par un T-test. Pour tester l'efficacité diagnostique de cette région, nous vérifions les données de l'échantillon réplication à cet emplacement et tracer son signal PET en fonction du statut de la maladie. Pour le marqueur multivariée, nous avons d'abord effectuer une ACP sur les 40 scans combinées dans l'échantillon de dérivation, et ensuite construire un modèle de covariance à partir des 5 premières composantes principales dont le sujet facteur d'échelle montre une différence maximale moyenne entre patients Alzheimer et de témoins sains. (Détails peuvent être trouvés dans ces papiers représentant 2.) Le modèle de covariance de diagnostic obtenus forment l'échantillon de dérivation est alors prospective appliquée à l'échantillon de réplication. Les facteurs d'échelle résultant sujet sont tracées en fonction de l'état de maladie. Pour fournir une comparaison plus générale des approches à la fois uni et multivariée de l'étape 4 et 5, nous procédons à un «échantillon split" de simulation et de répéter les deux étapes de 1000 fois sur des données rééchantillonnées, chaque fois formant un échantillon de dérivation 20/20 et un 75/82 réplication des patients atteints de MA et sain nouveau contrôle. Marqueurs de maladies univariées et multivariées sont calculées à partir de l'échantillon de dérivation et le seuil de décision est telle que tout au plus une bonne santé est le contrôle à tort comme AD (spécificité = 95%). Les marqueurs de la maladie avec leurs seuils de décision spécifiques sont ensuite prospective appliquée aux échantillons de réplication. Le taux d'erreur de classification dans l'échantillon de réplication sont enregistrées pour toutes les itérations rééchantillonnage. Les résultats représentatifs Performances univariée Les résultats peuvent être vus en détail dans la figure 3. La zone de la plus grande AD liés déficit de FDG a été trouvé dans le gyrus temporal Super, aire de Brodmann 38. L'aire sous la courbe ROC-AUC a été atteint = 0,90. La généralisation de cette opposition à l'échantillon de réplication a été très bon avec une aire sous la courbe ROC de l'ASC = 0,84. Performances multivariée Les résultats peuvent être vus en détail dans la figure 4. Les zones où les charges positives, faisant allusion à une relative préservation des signaux dans le visage de la maladie ont été trouvés dans le cervelet, tandis que la perte de signal a été trouvé associé les domaines parietotemporal et frontales, et le gyrus cingulaire postérieur. Les aires sous les courbes ROC-tant dans la dérivation et la réplication des échantillons ont été légèrement mieux que le marqueur univariée à 0,96 et 0,88, respectivement. Split-échantillon de simulations Les résultats peuvent être vus en détail dans la figure 5. La figure montre que le marqueur multivariée donne une meilleure reproduction des performances diagnostiques que le marqueur univariée. Le taux d'erreur totale moyenne pour le marqueur multivariée est 0,203, tandis que pour le marqueur univariée, il est 0.307. . Figure 1 Ce simple chiffre décrit la différence entre univariée et multivariée des stratégies analytiques: un hypothétique en 3 dimensions l'ensemble de données est affiché dans cette illustration. Sur le côté gauche, il n'ya pas de corrélation entre les 3 variables tracées. Sur le côté droit en revanche, on peut voir une importante source de variance indique une corrélation positive entre les trois voxels. Une analyse univariée que nous venons de considérer les valeurs moyennes sur une base voxel par voxel-ne pouvait pas dire aucune différence entre ces deux scénarios. L'analyse multivariée, en revanche, identifie les principales sources de VarianCE dans les données (flèche rouge) avant de procéder à construire des modèles d'activation neuronale sous forme de ces sources. Figure 2. Cette diapositive montre sous une forme simplifiée l'accomplissement de base de toute analyse multivariée des données en neuroimagerie. Le tableau de données Y (s, x), qui dépend d'un indice de sujet s, et un voxel indice x, indiquant l'emplacement du voxel dans le cerveau, est décomposé en une somme de plusieurs termes. Tout d'abord, un produit d'un score de facteur purement sujet-dépendante, SSF (s), et un modèle de covariance purement voxel-dépendant, v (x). Deuxièmement, l'activation qui ne peuvent pas être expliqués par le modèle de covariance est capturée dans un terme de bruit et de l'objet-voxel-dépendant, e (s, x). Les deux graphiques ci-dessous l'équation donner un exemple de facteur d'échelle sujet et le modèle de covariance. Chaque participant se manifeste le modèle de covariance, juste à un degré différent comme le montre le score du facteur sujet. Plutôt que d'avoir à garder une trace du comportement de chaque voxel séparément, le modèle de covariance et son expression sous réserve de fournir un résumé parcimonieux de la principale source de variance. Comme les augmentations de réserve facteur d'échelle de grandeur, les zones désignées en bleu dans le modèle de covariance diminuer leur activation associée, tandis que les zones indiquées en rouge simultanément accroître leur activation associée. Le score facteur sujet peuvent être corrélées avec les variables externes d'intérêt comme l'âge du sujet ou de la performance de comportement dans une tâche cognitive, et aucune correction pour les comparaisons multiples doit être appliquée à cette corrélation. Plusieurs techniques d'une telle décomposition existe, mais le plus commun est l'analyse en composantes principales (ACP). C'est la technique de choix pour nous. Notez que les facteurs d'échelle peuvent être obtenus en projetant le modèle de covariance dans n'importe quel ensemble de données de la dimensionnalité d'égalité, et pas seulement l'ensemble de données qui a produit le modèle de covariance, en premier lieu. Cela rend les modèles de covariance adapté pour tester si le cerveau-comportementale des relations qui ont été observées dans un ensemble de données peuvent être reproduits dans un autre ensemble de données. Figure 3. Cette figure montre le résultat de l'analyse univariée. Dans le panneau inférieur gauche, les valeurs de signal FDG sont tracées pour la zone qui affiche le plus grand AD liés déficit dans l'échantillon de dérivation. Ses coordonnées sont INM X = 2 mm, Y = -48 mm, Z = 30mm (precuneus / PCG, aire de Brodmann 31). Le panneau en bas à droite montre le signal de FDG à cet endroit très dans l'échantillon de réplication. On peut comprendre que les différences entre les patients atteints de MA FDG et de contrôle dans l'échantillon de réplication, tout en restant significative dans l'ensemble, sont réduits de plus de chevauchement entre les groupes. Figure 4. Cette figure montre les résultats de l'analyse multivariée. Dans le panneau supérieur, nous affichons plusieurs coupes axiales qui montrent de façon significative positivement et négativement les zones pondéré (p <0,001) dans le modèle de covariance en rouge et bleu, respectivement. Notez que nous avons réduit chaque scan par sa valeur moyenne de la planète, la couleur si rouge et bleu indiquent des augmentations relatives au lieu et absolue, et diminue de signal PET avec la sévérité de la maladie. Les zones en rouge ainsi allusion à la préservation relative de la surface de la maladie, tandis que le bleu indique une perte de signal comme une conséquence de la maladie. Les zones rouges se trouvent principalement dans le cervelet, tandis que les zones bleues apparaissent dans le gyrus cingulaire postérieur, les régions parietotemporal et frontal. Panneau inférieur gauche: les scores facteur sujet du modèle de covariance AD-liés sont affichés dans l'échantillon de dérivation. Scores plus élevés sont l'objet trouvé pour les patients AD. Panneau inférieur droit: les scores facteur sujet résultant de l'application prospective de la structure de covariance AD liés à l'échantillon de réplication sont tracées ici. On peut apprécier une légère détérioration du contraste de diagnostic avec un chevauchement accru dans l'échantillon de réplication, mais la généralisation de l'efficacité diagnostique est nettement meilleure que dans le cas univarié. Figure 5. Cette figure montre les résultats de la 1000 échantillons fractionnés simulations. Cotées sont les moyens et les écarts-types des taux univariés et multivariés erreur de diagnostic dans les échantillons de réplication. On peut apprécier que la généralisation multivariée le marqueur de la performance est nettement meilleure, bien que légèrement plus variable que la variable marqueur.

Discussion

Nous espérons avoir donné au spectateur un goût de l'essentiel de l'analyse multivariée; téléspectateurs intéressés sont encouragés à consulter notre site web. Un peu de choix pour les paramètres dans l'analyse multivariée ont été faites qui peuvent être soumis à un débat un débat considérable. Nous épargné la discussion de ces questions dans cet article pour éviter la distraction des enjeux majeurs. Tout d'abord, nous avons choisi le 6 premières composantes principales pour construire notre modèle de covariance AD-connexes. Il ya des raisons théoriques de ce choix que nous n'avons pas discuté ^4. Le choix particulier de 6 Composantes Principales n'est cependant pas critique pour notre argument: on peut choisir dans la gamme de 2 à 20 PC et toujours obtenir une performance supérieure de généralisation du marqueur multivariée dans les simulations d'échantillons fractionnés. Les résultats sont également très fortes en ce qui concerne le choix du nombre de sujets en dérivation et des échantillons de réplication. Nous avons choisi 20 sujets pour les deux groupes dans l'échantillon de réplication, mais cela était purement mathématique pour plus de commodité pour accélérer les calculs. Nos résultats sur les mérites relatifs des deux techniques tiendrait même, si le nombre de sujets dans les échantillons de dérivation ont été augmentés.

Deuxièmement, nous avons seulement présenté les plus élémentaires de l'analyse multivariée. Complications considérables avec des techniques empruntées à la littérature sur l'apprentissage machine, des transformations linéaires et non linéaires avant l'APC, et divers autres rides sont réalisables qui pourraient stimuler les performances de généralisation encore plus. Pour simplifier, nous n'avons pas touché à ces possibilités dans cet article.

Açıklamalar

The authors have nothing to disclose.

Acknowledgements

The author is grateful for NIH grant support:

NIH/NIBIB 5R01EB006204-03 Multivariate approaches to neuroimaging analysis

NIH/NIA 5R01AG026114-02 Early AD Detection with ASL MRI & Covariance Analysis

ADNI: Imaging data was provided by the Alzheimer’s Disease Neuroimaging Initiative (ADNI) (NIH U01AG024904). Data collection and sharing for this project was funded by the Alzheimer’s Disease Neuroimaging Initiative (ADNI) (National Institutes of Health Grant U01 AG024904). ADNI is funded by the National Institute on Aging, the National Institute of Biomedical Imaging and Bioengineering, and through generous contributions from the following: Abbott, AstraZeneca AB, Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Global Clinical Development, Elan Corporation, Genentech, GE Healthcare, GlaxoSmithKline, Innogenetics ,Johnson and Johnson, Eli Lilly and Co., Medpace, Inc., Merck and Co., Inc., Novartis AG, Pfizer Inc, F. Hoffman-La Roche, Schering-Plough, Synarc, Inc., and Wyeth, as well as non-profit partners the Alzheimer’s Association and Alzheimer’s Drug Discovery Foundation, with participation from the U.S. Food and Drug Administration. Private sector contributions to ADNI are facilitated by the Foundation for the National Institutes of Health(http://www.fnih.org). The grantee organization is the Northern California Institute for Research and Education, and the study is coordinated by the Alzheimer’s Disease Cooperative Study at the University of California, San Diego. ADNI data are disseminated by the Laboratory for Neuro Imaging at the University of California, Los Angeles. This research was also supported by NIH grants P30 AG010129, K01 AG030514, and the Dana Foundation.