Özet

Fundamentos da Análise Multivariada em Dados de neuroimagem

Published: July 24, 2010
doi:

Özet

O presente artigo descreve os conceitos básicos de análise multivariada e contrasta-lo para o mais comumente utilizado a análise baseada em voxel univariada. Ambos os tipos de análise são aplicadas a um conjunto de dados clínico-neurociência. Complementares das metades simulações mostram melhor replicação dos resultados multivariada em conjuntos de dados independentes.

Abstract

Técnicas de análise multivariada para dados de neuroimagem foram recentemente alvo de atenção crescente, pois têm muitas características atraentes que não pode ser facilmente realizado pelo univariada mais comumente utilizados, baseada em voxel, técnicas<sup> 1,5,6,7,8,9</sup>. Abordagens multivariada avaliar correlação / covariância de ativação em regiões do cérebro, ao invés de prosseguir em uma base voxel-a-voxel. Assim, seus resultados podem ser mais facilmente interpretado como uma assinatura de redes neurais. Abordagens univariada, por outro lado, não pode tratar diretamente de correlação inter-regional no cérebro. Abordagens multivariadas também pode resultar em maior poder estatístico, quando comparado com as técnicas de análise univariada, que são forçados a empregar muito rigorosos para correções baseada em voxel comparações múltiplas. Além disso, técnicas de análise multivariada também se prestam muito melhor aplicação prospectiva dos resultados da análise de um conjunto de dados para conjuntos de dados completamente novo. Técnicas multivariadas são, portanto, bem posicionada para fornecer informações sobre as diferenças médias e correlações com o comportamento, de forma semelhante às abordagens univariada, com potencialmente maior poder estatístico e verifica melhor reprodutibilidade. Em contraste com estas vantagens é a alta barreira de entrada para o uso de abordagens multivariadas, que impeça a aplicação mais difundida na comunidade. Para o neurocientista se familiarizar com técnicas de análise multivariada, um levantamento inicial do campo pode apresentar uma variedade desconcertante de abordagens que, apesar de algoritmos similares, são apresentados com ênfases diferentes, geralmente por pessoas com backgrounds matemática. Acreditamos que as técnicas de análise multivariada têm potencial suficiente para justificar uma melhor divulgação. Pesquisadores devem ser capazes de empregá-los de uma forma informada e acessível. O presente artigo é uma tentativa de uma introdução didática de técnicas de análise multivariada para os novatos. Uma introdução conceitual é seguido com uma aplicação muito simples para um conjunto de dados de diagnóstico de Doença de Alzheimer s Neuroimagem Initiative (ADNI), demonstrando claramente o desempenho superior da abordagem multivariada.

Protocol

Para dar uma visão geral conceitual de análise multivariada, podemos imaginar um situação muito simples: um conjunto de dados hipotéticos para 50 participantes humanos, onde apenas três regiões, representadas por voxels (pixels = 3-dimensional na Figura 1) no cérebro foram medidos. (Inserir Figura 1 aqui, leia legenda como voz sobre.) O objetivo geral da análise multivariada é identificar as principais fontes de variância nos dados, e então descrever os efeitos de maior interesse nos dados em termos destas fontes de variação. A Figura 2 mostra um exemplo simplista. (Inserir Figura 2 aqui, leia legenda como voz sobre.) Vamos agora aplicar a análise univariada e multivariada a um conjunto de dados clínicos. Baixamos FDG-PET em repouso por 95 primeiros doentes de Alzheimer e 102 controles pareados por idade a partir do site de Neuroimagem da doença de Alzheimer Initiative (http://www.loni.ucla.edu/ADNI/). Nós escolhidos aleatoriamente 20 exames de pacientes e controles e os designou como nossa amostra de derivação. Os restantes 75 e 82 exames, respectivamente, constituem nossa amostra de replicação. Univariada e multivariada doença de Alzheimer (AD) marcadores agora serão obtidos na amostra de derivação, e sua eficácia diagnóstica testada na amostra de replicação. Para o marcador univariada, contraste de 20 scans AD com os 20 controles scans na amostra de derivação e escolher o local do cérebro que mostra a maior diminuição do sinal de PET nos pacientes AD como mostrado por uma T-teste. Para testar a eficácia diagnóstica da região, vamos verificar os dados na amostra de replicação nesse local e traçar o seu sinal de PET em função do estado da doença. Multivariada para o marcador, primeiro executar um PCA na combinados 40 scans na amostra de derivação, e então construir um padrão de covariância dos 5 primeiros Componentes Principais cujo tema escala fator mostra uma diferença máxima média entre pacientes com DA e controles saudáveis. (Detalhes podem ser encontrados nestes documentos representativos 2.) O padrão de covariância de diagnóstico obtido formar a amostra de derivação é, então, prospectivamente aplicados à amostra de replicação. Os fatores de escala resultantes assunto são plotados em função do estado da doença. Para fornecer uma comparação mais geral de abordagens univariada e multivariada a partir do passo 4 e 5, realizamos um "split sample" de simulação e repetir as duas etapas de 1.000 vezes em dados resampled, cada vez formando uma amostra de derivação 20/20 e 75/82 uma replicação de pacientes com DA e controles saudáveis ​​de novo. Marcadores de doenças univariada e multivariada são computados a partir da amostra de derivação e do limiar de decisão é definida de tal forma que, no máximo, um controle saudável é erroneamente classificada como AD (especificidade = 95%). Os marcadores da doença com seus limites de decisão específica são, então, prospectivamente aplicado às amostras de replicação. As taxas de classificação de erro na amostra de replicação são registrados para todas as iterações de reamostragem. Resultados representante Desempenho univariada Os resultados podem ser vistos em detalhe na Figura 3. A área de maior déficit FDG AD-relacionada foi encontrada no giro super-temporal, área de Brodmann 38. A área sob a curva ROC-alcançado foi AUC = 0,90. A generalização deste contraste com a amostra de replicação foi muito bom, com uma área sob a curva ROC da AUC = 0,84. Desempenho multivariada Os resultados podem ser vistos em detalhe na Figura 4. Áreas com cargas positivas, sugerindo uma relativa preservação do sinal em face da doença foram encontrados no cerebelo, enquanto a perda de sinal associadas foi encontrada nas áreas parietotemporal e frontal, eo giro do cíngulo posterior. As áreas sob as curvas ROC-em ambos os derivação e replicação de amostras foram ligeiramente melhor do que o marcador univariada em 0,96 e 0,88, respectivamente. Divisão da amostra de simulações Os resultados podem ser vistos em detalhe na Figura 5. A figura mostra que o marcador multivariada dá melhor replicação do desempenho diagnóstico do que o marcador univariada. A taxa de erro médio total para o marcador multivariada é 0,203, enquanto que para o marcador univariada é 0,307. . Figura 1 Esta simples figura descreve a diferença entre univariada e multivariada estratégias analíticas: uma hipotética 3-dimensional conjunto de dados é exibido nesta ilustração. No lado esquerdo, não há correlação entre as 3 variáveis ​​plotadas. No lado direito, em contraste, pode-se ver uma importante fonte de variação, indicando uma correlação positiva entre os três voxels. A análise univariada que acabamos de considerar os valores médios em uma base voxel-a-voxel não poderia dizer qualquer diferença entre estes dois cenários. Análise multivariada, ao contrário, identifica as principais fontes de Variance nos dados (seta vermelha), antes de prosseguir para a construção de padrões de ativação neural forma essas fontes. Figura 2. Este slide mostra de forma simplificada a realização de base de qualquer análise multivariada em neuroimagem de dados. A matriz de dados Y (s, x), que depende de um índice de assuntos s, e um voxel índice x, indicando a localização do voxel no cérebro, é decomposto em uma soma de vários termos. Primeiro, um produto de uma pontuação fator puramente sujeito-dependente, ssf (s), e um padrão de covariância puramente voxel-dependente, v (x). Ativação, segundo que não pode ser explicada pelo padrão de covariância é capturado em um termo de ruído e sujeito-voxel-dependente, e (s, x). Os dois gráficos abaixo a equação dar um exemplo do fator de escala do padrão de assunto e covariância. Cada participante manifesta o padrão de covariância, apenas para um grau diferente, como mostrado pela pontuação fator assunto. Ao invés de ter que manter o controle do comportamento a cada voxel, separadamente, o padrão de covariância e sua expressão assunto fornecer um resumo parcimoniosa de a principal fonte de variação. Com o aumento da escala assunto fator de magnitude, as áreas indicadas em azul no padrão de covariância diminuir sua ativação associados, enquanto as áreas indicadas em vermelho, simultaneamente, aumentar sua ativação associados. A pontuação fator assunto pode ser correlacionado com variáveis ​​externas de interesse, como idade de assunto ou o desempenho em uma tarefa comportamental cognitiva, e sem correção para comparações múltiplas tem de ser aplicado a esta correlação. Várias técnicas para a decomposição existem, mas o mais comum é a Análise de Componentes Principais (PCA). Esta é a técnica de escolha para nós. Note-se que fatores de escala assunto podem ser obtidas projetando o padrão de covariância em qualquer conjunto de dados de dimensionalidade igual, e não apenas definir os dados que produziu o padrão de covariância, em primeiro lugar. Isso faz com que padrões adequados de covariância para testar se o cérebro-comportamentais relacionamentos que foram observados em um conjunto de dados pode ser replicado em um conjunto de dados diferentes. Figura 3. Esta figura mostra o resultado da análise univariada. Na parte inferior do painel esquerdo, os valores de sinal FDG são traçados para a área que apresenta o maior déficit AD-relacionados na amostra de derivação. Coordena a sua MNI são X = 2 mm, Y = mm -48, Z = 30mm (precuneus / PCG, Brodmann Área 31). O painel inferior direito mostra o sinal de FDG neste local muito na amostra de replicação. Pode-se apreciar que as diferenças entre os pacientes FDG AD e controles na amostra de replicação, ao mesmo tempo global significativo, são reduzidos com a sobreposição mais entre os grupos. Figura 4. Esta figura mostra os resultados da análise multivariada. No painel superior, apresentamos vários cortes axiais que mostram significativamente positiva e negativamente áreas ponderada (p <0,001) no padrão de covariância em vermelho e azul, respectivamente. Note que nós escalado cada varredura pelo seu valor médio global, de modo cores vermelho e azul indicam aumentos relativos e absolutos, em vez de sinal e diminui a PET com a gravidade da doença. Áreas vermelhas, assim, alusão a relativa preservação em face da doença, enquanto o azul indica uma perda de sinal como uma conseqüência da doença. Áreas vermelhas são encontradas principalmente no cerebelo, enquanto que as áreas azuis aparecem no giro do cíngulo posterior, regiões parietotemporal e frontal. Painel inferior esquerdo: os escores fatoriais assunto do padrão de covariância AD-relacionados são exibidos na amostra de derivação. Escores mais altos assunto são encontrados para os pacientes AD. Painel inferior direito: os escores fatoriais assunto resultante da aplicação prospectiva do padrão de covariância AD-relacionados com a amostra de replicação são plotados aqui. Pode-se apreciar um ligeiro agravamento do contraste de diagnóstico com sobreposição aumento na amostra de replicação, mas a generalização da eficácia diagnóstica é visivelmente melhor do que no caso univariado. Figura 5. Esta figura mostra os resultados da divisão da amostra 1.000 simulações. Listados são médias e desvios-padrão dos univariada e multivariada taxas de erro de diagnóstico nas amostras de replicação. Pode-se apreciar que a generalização do marcador multivariada de desempenho é consideravelmente melhor, embora um pouco mais variável do que o univariada marcador.

Discussion

Esperamos ter dado o espectador um sabor das noções básicas de análise multivariada; espectadores interessados ​​são encorajados a verificar o nosso website. A poucas opções para os parâmetros na análise multivariada foram feitas, que pode ser sujeita a debate um debate considerável. Não poupamos a discussão dessas questões neste artigo para evitar a distração das questões mais importantes. Primeiro, nós escolhemos os 6 primeiros componentes principais para construir o nosso padrão de covariância AD-relacionados. Existem razões teóricas para essa escolha que nós não discutimos 4. A escolha particular de seis componentes principais que não é crítico para o nosso argumento: um pode escolher no intervalo de 2-20 PCs e ainda obter um desempenho superior de generalização do marcador multivariada nas simulações divisão da amostra. Os resultados são igualmente robusta em relação à escolha de números de indivíduos em derivação e replicação de amostras. Escolhemos 20 indivíduos de ambos os grupos na amostra de replicação, mas esta era puramente por conveniência matemática para acelerar os cálculos. Nossos resultados sobre os méritos relativos de ambas as técnicas iria realizar da mesma forma se o número de sujeitos na amostra de derivação foram aumentadas.

Em segundo lugar, nós só apresentou o tipo mais básico de análise multivariada. Complicação considerável com técnicas emprestadas da literatura de aprendizagem de máquina, transformações lineares e não-linear antes da PCA, e várias outras rugas são viáveis ​​que poderiam melhorar o desempenho de generalização ainda mais. Para simplificar, não toquei nessas possibilidades neste artigo.

Açıklamalar

The authors have nothing to disclose.

Acknowledgements

O autor é grato pelo NIH apoio financeiro:

NIH / NIBIB 5R01EB006204-03 abordagens à análise multivariada de neuroimagem

NIH / NIA Detecção AD-02 5R01AG026114 precoce com ASL MRI e Análise de Covariância

ADNI: dados de imagem foi fornecido por Doença de Alzheimer Neuroimagem Initiative (ADNI) (NIH U01AG024904). Coleta de dados e compartilhamento para este projeto foi financiado pela Neuroimagem da doença de Alzheimer Initiative (ADNI) (National Institutes of Health Grant AG024904 U01). ADNI é financiado pelo Instituto Nacional do Envelhecimento, do Instituto Nacional de Imagem Biomédica e Bioengenharia, e através de generosas contribuições a partir do seguinte: Abbott, AstraZeneca AB, a Bayer Schering Pharma AG, Bristol-Myers Squibb, Eisai Desenvolvimento Clínico Global, Elan Corporation, Genentech, a GE Healthcare, GlaxoSmithKline, Innogenetics, Johnson e Johnson, Eli Lilly and Co., Medpace, Inc., Merck e Co., Inc., Novartis AG, Pfizer Inc, F. Hoffman-La Roche, Schering-Plough, Synarc , Inc., e Wyeth, bem como sem fins lucrativos parceiros a Associação de Alzheimer e da droga de Alzheimer Descoberta Foundation, com a participação da Food and Drug Administration EUA. Contribuições do setor privado para ADNI são facilitados pela Fundação para o National Institutes of Health ( http://www.fnih.org ). A organização beneficiária é a Califórnia do Norte Instituto de Pesquisa e Educação, bem como o estudo é coordenado pelo Estudo da Doença de Alzheimer Cooperativa da Universidade da Califórnia, San Diego. ADNI dados são divulgados pelo Laboratório de Imagem Neuro da Universidade da Califórnia, em Los Angeles. Esta pesquisa também foi apoiado pelo NIH concede P30 AG010129, K01 AG030514, ea Fundação Dana.

Referanslar

  1. Moeller, J. R., Strother, S. C. A regional covariance approach to the analysis of functional patterns in positron emission tomographic data. J Cereb Blood Flow Metab. 11 (2), A121-A121 (1991).
  2. Scarmeas, N. Covariance PET patterns in early Alzheimer’s disease and subjects with cognitive impairment but no dementia: utility in group discrimination and correlations with functional performance. Neuroimage. 23 (1), 35-35 (2004).
  3. Siedlecki, K. L. Examining the multifactorial nature of cognitive aging with covariance analysis of positron emission tomography data. J Int Neuropsychol Soc. 15 (6), 973-973 (2009).
  4. Burnham, K. P., Anderson, D. R. . Model selection and multimodel inference a practical information-theoretic approach. , (2002).
  5. Moeller, J. R., Strother, S. C., Sidtis, J. J., Rottenberg, D. A. Scaled subprofile model: a statistical approach to the analysis of functional patterns in positron emission tomographic data. J Cereb Blood Flow Metab. 7 (5), 649-649 (1987).
  6. Habeck, C. Multivariate and univariate neuroimaging biomarkers of Alzheimer’s disease. Neuroimage. 40 (4), 1503-1503 (2008).
  7. Habeck, C. A new approach to spatial covariance modeling of functional brain imaging data: ordinal trend analysis. Neural Comput. 17 (7), 1602-1602 (2005).
  8. McIntosh, A. R., Bookstein, F. L., Haxby, J. V., Grady, C. L. Spatial pattern analysis of functional brain images using partial least squares. Neuroimage. 3 Pt 1, 143-143 (1996).
  9. McIntosh, A. R., Lobaugh, N. J. Partial least squares analysis of neuroimaging data: applications and advances. Neuroimage. 23, S250-S250 (2004).

Play Video

Bu Makaleden Alıntı Yapın
Habeck, C. G. Basics of Multivariate Analysis in Neuroimaging Data. J. Vis. Exp. (41), e1988, doi:10.3791/1988 (2010).

View Video