O estudo introduz um paradigma de teste de treinamento para investigar efeitos antigos/novos de potenciais relacionados a eventos em cenários prosódicos confiantes e duvidosos. Os dados revelam um componente positivo tardio aprimorado entre 400-850 ms em Pz e outros eletrodos. Esse pipeline pode explorar fatores além da prosódia da fala e sua influência na identificação do alvo de ligação de sugestões.
Reconhecer falantes familiares de fluxos vocais é um aspecto fundamental da comunicação verbal humana. No entanto, ainda não está claro como os ouvintes ainda podem discernir a identidade do falante na fala expressiva. Este estudo desenvolve uma abordagem de reconhecimento de identidade de locutor individual baseada em memorização e um pipeline de análise de dados de eletroencefalograma (EEG) que monitora como os ouvintes reconhecem falantes familiares e diferenciam os desconhecidos. Os dados do EEG capturam processos cognitivos on-line durante a distinção entre alto-falantes novos e antigos com base na voz, oferecendo uma medida em tempo real da atividade cerebral, superando os limites dos tempos de reação e medições de precisão. O paradigma compreende três etapas: os ouvintes estabelecem associações entre três vozes e seus nomes (treinamento); os ouvintes indicam o nome correspondente a uma voz de três candidatos (verificação); Os ouvintes distinguem entre três vozes antigas e três novas vozes de locutor em uma tarefa de escolha forçada de duas alternativas (teste). A prosódia da fala no teste foi confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais, seguido de pré-processamento e importados para o RStudio para ERP e análise estatística e MATLAB para topografia cerebral. Os resultados mostraram que um componente positivo tardio (LPC) aumentado foi eliciado no locutor antigo em comparação com a condição do locutor novo na janela de 400-850 ms no Pz e outras faixas mais amplas de eletrodos em ambas as prosódias. No entanto, o efeito antigo/novo foi robusto nos eletrodos central e posterior para percepção duvidosa da prosódia, enquanto os eletrodos anterior, central e posterior são para condição de prosódia confiante. Este estudo propõe que este desenho de experimento pode servir como referência para investigar os efeitos de ligação de pistas específicas do falante em vários cenários (por exemplo, expressão anafórica) e patologias em pacientes como fonagnosia.
As correntes vocais humanas são ricas em informações, comoemoção1,2, estado de saúde3,4, sexobiológico5,idade6 e, mais importante, a identidade vocalindividual7,8. Estudos têm sugerido que os ouvintes humanos têm uma capacidade robusta de reconhecer e diferenciar as identidades de seus pares por meio de vozes, superando as variações dentro do falante em torno da representação baseada na média da identidade do falante no espaço acústico9. Tais variações são provocadas pela manipulação acústica (freqüência fundamental e comprimento do trato vocal, ou seja, F0 e VTL) que corresponde a nenhuma intenção pragmática clara9, prosódias emocionais10 e confiança vocal que transmite a sensação de conhecimento dos falantes11. Experimentos comportamentais se concentraram em muitos fatores que influenciam o desempenho dos ouvintes no reconhecimento dos falantes, incluindo manipulações relacionadas à linguagem 8,12,13, características relacionadas aos participantes, como experiência musical ou capacidade de leitura14,15 e adaptações relacionadas a estímulos, como fala invertida ou não palavras16,17; mais podem ser encontradas em revisões de literatura18,19. Alguns experimentos recentes investigaram como a variação individual da representação da identidade do falante pode prejudicar a precisão do reconhecimento, considerando aspectos como alta versus baixa expressividade emocional16 e prosódias neutras versus temerosas5; Mais cenários possíveis estão abertos para uma investigação mais aprofundada, conforme sugerido por uma revisão20.
Para a primeira lacuna de pesquisa, o estudo propõe que os fundamentos neurológicos da identificação do falante ainda precisam explorar completamente como a variação dentro do falante desafia as atividades cerebrais dos ouvintes. Por exemplo, em uma tarefa de reconhecimento de falante baseada em fMRI por Zäske et al., o giro temporal póstero-superior direito (pSTG), o giro frontal inferior direito/médio (IFG/MFG), o giro frontal medial direito e o caudado esquerdo mostraram ativação reduzida quando identificados corretamente como falantes antigos versus novos, independentemente do conteúdo linguístico ser o mesmo ou diferente21. No entanto, um estudo anterior de eletroencefalografia (EEG) de Zäske et al. não observou esse efeito antigo/novo quando a variação da identidade do falante foi introduzida por meio de diferentes textos22. Especificamente, um componente positivo tardio (LPC) maior variando de 300 a 700 ms, detectado no eletrodo Pz quando os ouvintes encontraram seu locutor treinado familiar expressando o mesmo texto (ou seja, ouvindo um replay com conteúdo linguístico não variado), estava ausente quando os locutores entregaram novos textos.
Em apoio à afirmação feita por Zäske et al.21, este estudo suspeita que um efeito antigo/novo ainda pode ser observado, apesar das diferenças no conteúdo linguístico entre as sessões de treinamento e teste em análises de potencial relacionado a eventos (ERP). Esse raciocínio decorre da noção de que a ausência do efeito velho/novo em Zäske et al.22, em condições em que diferentes textos foram usados, pode ser atribuída à falta de uma sessão de verificação adicional durante a tarefa de treinamento para garantir um aprendizado de identidade completo e eficaz, como sugerido por Lavan et al.23. Consequentemente, o primeiro objetivo do estudo é examinar e validar essa hipótese. Este estudo tem como objetivo testar isso adicionando uma sessão de verificação ao paradigma de teste de treinamento22.
Outra questão-chave que este estudo pretende abordar é a robustez da identificação do falante na presença de prosódia de fala. Estudos comportamentais anteriores sugeriram que os ouvintes lutam particularmente para reconhecer os falantes em diferentes prosódias, o que indica um papel modulador do contexto prosódico – os ouvintes tiveram um desempenho inferior nas diferentes condições de prosódia de teste de treinamento. Este estudo tem como objetivo testar isso, expondo os ouvintes a reconhecer falantes familiares em prosódias confiantes ou duvidosas24. Este estudo espera que as diferenças observadas no ERP ajudem a explicar como a prosódia da fala influencia o reconhecimento de identidade.
O objetivo central do presente estudo é investigar a robustez do efeito antigo/novo no reconhecimento do falante, examinando especificamente se existem diferenças no reconhecimento de falantes em prosódias confiantes versus duvidosas. Xu e Armony10 realizaram um estudo comportamental usando um paradigma de teste de treinamento, e suas descobertas sugerem que os ouvintes não podem superar as diferenças prosódicas (por exemplo, treinados para reconhecer um falante em prosódia neutra e testados em prosódia com medo) e só podem alcançar precisão inferior ao nívelde chance 10. A análise acústica indica que os alto-falantes que expressam estados emotivos variados estão associados à modulação VTL / F0; por exemplo, a prosódia confiante é caracterizada por VTL alongada e F0 mais baixa, enquanto o oposto é verdadeiro para a prosódia duvidosa11,24. Outra evidência vem do estudo de Lavan et al.23, que confirmou que os ouvintes podem se adaptar às mudanças VTL e F0 do falante e formar representações baseadas na média dos falantes. Este estudo reconcilia que, de uma perspectiva de dados comportamentais, os ouvintes provavelmente ainda reconhecerão a identidade do falante em todas as prosódias (por exemplo, treinados para reconhecer alguém em prosódia confiante, mas testados em prosódia duvidosa; relatado em um manuscrito separado em preparação). No entanto, os correlatos neurais da identificação do falante, especificamente a generalização do efeito antigo/novo observado por Zäske et al.22, permanecem obscuros. Portanto, o presente estudo está empenhado em validar a robustez do efeito antigo/novo em prosódias confiantes versus duvidosas como contextos para testes.
O estudo introduz um afastamento dos paradigmas de pesquisa anteriores em estudos de efeitos antigos / novos. Enquanto pesquisas anteriores se concentraram em como o reconhecimento do locutor antigo/novo influencia a percepção, este estudo estende isso incorporando dois níveis de confiança (confiante versus duvidoso) ao paradigma (portanto, um estudo 2+2). Isso nos permite investigar o reconhecimento do falante dentro dos contextos de prosódias de fala confiante e duvidosa. O paradigma permite a exploração da robustez de efeitos antigos/novos. As análises dos efeitos da memória e das regiões de interesse (ROI) em contextos de fala confiante e duvidosa servem como evidência para esta investigação.
Em conjunto, o estudo visa atualizar a compreensão dos correlatos de EEG do reconhecimento de voz, com as hipóteses de que o LPC ampliado do efeito antigo/novo do EEG é observável mesmo quando 1) o conteúdo linguístico não é o mesmo, e 2) com a presença de prosódia confiante versus duvidosa. Este estudo investigou as hipóteses por meio de um paradigma de três etapas. Em primeiro lugar, durante a fase de treinamento, os participantes estabeleceram associações entre três vozes e seus nomes correspondentes. Posteriormente, na fase de verificação, eles foram encarregados de identificar o nome correspondente a uma voz de uma seleção de três candidatos. Essa verificação, seguindo Lavan et al.23, visa superar a familiarização insuficiente do falante antigo, que levou ao efeito antigo/novo não observado quando o texto nas fases de treinamento e teste diferia6, e os falantes não conseguiam reconhecer os falantes em prosódias neutras e temerosas10. Finalmente, na fase de teste, os participantes distinguiram entre três vozes antigas e três novas vozes em uma tarefa de escolha forçada de duas alternativas, com a prosódia da fala apresentada como confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais e submetidos a pré-processamento antes da análise. A análise estatística e a análise do potencial relacionado a eventos (ERP) foram realizadas no RStudio, enquanto o MATLAB foi utilizado para análise da topografia cerebral.
Em relação aos detalhes do projeto, este estudo propõe um experimento de aprendizagem da identidade do falante que controla a altura do falante, que está relacionada ao VTL e influencia as impressões de quem está falando23. Esse aspecto também influencia as impressões sociais, como a dominância percebida25, e essa formação de impressões de nível superior pode interagir com a decodificação da identidade do falante26.
O estudo apresenta um pipeline para coleta e análise de dados de EEG, com foco no reconhecimento de identidades de falantes previamente aprendidas. Este estudo aborda as variações entre as fases de aprendizagem e reconhecimento, incluindo diferenças no conteúdo dafala22 e na prosódia10. O design é adaptável a uma variedade de campos de pesquisa, incluindo psicolinguística, como pronome e processamento anafórico41.
<p class="jove_content…The authors have nothing to disclose.
Este trabalho foi apoiado pela Fundação de Ciências Naturais da China (Grant No. 31971037); o Programa Shuguang apoiado pela Fundação de Desenvolvimento da Educação de Xangai e pelo Comitê Municipal de Educação de Xangai (Concessão nº 20SG31); a Fundação de Ciências Naturais de Xangai (22ZR1460200); o Programa de Orientação de Supervisores da Universidade de Estudos Internacionais de Xangai (2022113001); e o Programa Principal da Fundação Nacional de Ciências Sociais da China (Grant No. 18ZDA293).
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
.