Summary

Paradigma de treinamento e teste baseado em memorização para reconhecimento robusto de identidade vocal em fala expressiva usando análise de potenciais relacionados a eventos

Published: August 09, 2024
doi:

Summary

O estudo introduz um paradigma de teste de treinamento para investigar efeitos antigos/novos de potenciais relacionados a eventos em cenários prosódicos confiantes e duvidosos. Os dados revelam um componente positivo tardio aprimorado entre 400-850 ms em Pz e outros eletrodos. Esse pipeline pode explorar fatores além da prosódia da fala e sua influência na identificação do alvo de ligação de sugestões.

Abstract

Reconhecer falantes familiares de fluxos vocais é um aspecto fundamental da comunicação verbal humana. No entanto, ainda não está claro como os ouvintes ainda podem discernir a identidade do falante na fala expressiva. Este estudo desenvolve uma abordagem de reconhecimento de identidade de locutor individual baseada em memorização e um pipeline de análise de dados de eletroencefalograma (EEG) que monitora como os ouvintes reconhecem falantes familiares e diferenciam os desconhecidos. Os dados do EEG capturam processos cognitivos on-line durante a distinção entre alto-falantes novos e antigos com base na voz, oferecendo uma medida em tempo real da atividade cerebral, superando os limites dos tempos de reação e medições de precisão. O paradigma compreende três etapas: os ouvintes estabelecem associações entre três vozes e seus nomes (treinamento); os ouvintes indicam o nome correspondente a uma voz de três candidatos (verificação); Os ouvintes distinguem entre três vozes antigas e três novas vozes de locutor em uma tarefa de escolha forçada de duas alternativas (teste). A prosódia da fala no teste foi confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais, seguido de pré-processamento e importados para o RStudio para ERP e análise estatística e MATLAB para topografia cerebral. Os resultados mostraram que um componente positivo tardio (LPC) aumentado foi eliciado no locutor antigo em comparação com a condição do locutor novo na janela de 400-850 ms no Pz e outras faixas mais amplas de eletrodos em ambas as prosódias. No entanto, o efeito antigo/novo foi robusto nos eletrodos central e posterior para percepção duvidosa da prosódia, enquanto os eletrodos anterior, central e posterior são para condição de prosódia confiante. Este estudo propõe que este desenho de experimento pode servir como referência para investigar os efeitos de ligação de pistas específicas do falante em vários cenários (por exemplo, expressão anafórica) e patologias em pacientes como fonagnosia.

Introduction

As correntes vocais humanas são ricas em informações, comoemoção1,2, estado de saúde3,4, sexobiológico5,idade6 e, mais importante, a identidade vocalindividual7,8. Estudos têm sugerido que os ouvintes humanos têm uma capacidade robusta de reconhecer e diferenciar as identidades de seus pares por meio de vozes, superando as variações dentro do falante em torno da representação baseada na média da identidade do falante no espaço acústico9. Tais variações são provocadas pela manipulação acústica (freqüência fundamental e comprimento do trato vocal, ou seja, F0 e VTL) que corresponde a nenhuma intenção pragmática clara9, prosódias emocionais10 e confiança vocal que transmite a sensação de conhecimento dos falantes11. Experimentos comportamentais se concentraram em muitos fatores que influenciam o desempenho dos ouvintes no reconhecimento dos falantes, incluindo manipulações relacionadas à linguagem 8,12,13, características relacionadas aos participantes, como experiência musical ou capacidade de leitura14,15 e adaptações relacionadas a estímulos, como fala invertida ou não palavras16,17; mais podem ser encontradas em revisões de literatura18,19. Alguns experimentos recentes investigaram como a variação individual da representação da identidade do falante pode prejudicar a precisão do reconhecimento, considerando aspectos como alta versus baixa expressividade emocional16 e prosódias neutras versus temerosas5; Mais cenários possíveis estão abertos para uma investigação mais aprofundada, conforme sugerido por uma revisão20.

Para a primeira lacuna de pesquisa, o estudo propõe que os fundamentos neurológicos da identificação do falante ainda precisam explorar completamente como a variação dentro do falante desafia as atividades cerebrais dos ouvintes. Por exemplo, em uma tarefa de reconhecimento de falante baseada em fMRI por Zäske et al., o giro temporal póstero-superior direito (pSTG), o giro frontal inferior direito/médio (IFG/MFG), o giro frontal medial direito e o caudado esquerdo mostraram ativação reduzida quando identificados corretamente como falantes antigos versus novos, independentemente do conteúdo linguístico ser o mesmo ou diferente21. No entanto, um estudo anterior de eletroencefalografia (EEG) de Zäske et al. não observou esse efeito antigo/novo quando a variação da identidade do falante foi introduzida por meio de diferentes textos22. Especificamente, um componente positivo tardio (LPC) maior variando de 300 a 700 ms, detectado no eletrodo Pz quando os ouvintes encontraram seu locutor treinado familiar expressando o mesmo texto (ou seja, ouvindo um replay com conteúdo linguístico não variado), estava ausente quando os locutores entregaram novos textos.

Em apoio à afirmação feita por Zäske et al.21, este estudo suspeita que um efeito antigo/novo ainda pode ser observado, apesar das diferenças no conteúdo linguístico entre as sessões de treinamento e teste em análises de potencial relacionado a eventos (ERP). Esse raciocínio decorre da noção de que a ausência do efeito velho/novo em Zäske et al.22, em condições em que diferentes textos foram usados, pode ser atribuída à falta de uma sessão de verificação adicional durante a tarefa de treinamento para garantir um aprendizado de identidade completo e eficaz, como sugerido por Lavan et al.23. Consequentemente, o primeiro objetivo do estudo é examinar e validar essa hipótese. Este estudo tem como objetivo testar isso adicionando uma sessão de verificação ao paradigma de teste de treinamento22.

Outra questão-chave que este estudo pretende abordar é a robustez da identificação do falante na presença de prosódia de fala. Estudos comportamentais anteriores sugeriram que os ouvintes lutam particularmente para reconhecer os falantes em diferentes prosódias, o que indica um papel modulador do contexto prosódico – os ouvintes tiveram um desempenho inferior nas diferentes condições de prosódia de teste de treinamento. Este estudo tem como objetivo testar isso, expondo os ouvintes a reconhecer falantes familiares em prosódias confiantes ou duvidosas24. Este estudo espera que as diferenças observadas no ERP ajudem a explicar como a prosódia da fala influencia o reconhecimento de identidade.

O objetivo central do presente estudo é investigar a robustez do efeito antigo/novo no reconhecimento do falante, examinando especificamente se existem diferenças no reconhecimento de falantes em prosódias confiantes versus duvidosas. Xu e Armony10 realizaram um estudo comportamental usando um paradigma de teste de treinamento, e suas descobertas sugerem que os ouvintes não podem superar as diferenças prosódicas (por exemplo, treinados para reconhecer um falante em prosódia neutra e testados em prosódia com medo) e só podem alcançar precisão inferior ao nívelde chance 10. A análise acústica indica que os alto-falantes que expressam estados emotivos variados estão associados à modulação VTL / F0; por exemplo, a prosódia confiante é caracterizada por VTL alongada e F0 mais baixa, enquanto o oposto é verdadeiro para a prosódia duvidosa11,24. Outra evidência vem do estudo de Lavan et al.23, que confirmou que os ouvintes podem se adaptar às mudanças VTL e F0 do falante e formar representações baseadas na média dos falantes. Este estudo reconcilia que, de uma perspectiva de dados comportamentais, os ouvintes provavelmente ainda reconhecerão a identidade do falante em todas as prosódias (por exemplo, treinados para reconhecer alguém em prosódia confiante, mas testados em prosódia duvidosa; relatado em um manuscrito separado em preparação). No entanto, os correlatos neurais da identificação do falante, especificamente a generalização do efeito antigo/novo observado por Zäske et al.22, permanecem obscuros. Portanto, o presente estudo está empenhado em validar a robustez do efeito antigo/novo em prosódias confiantes versus duvidosas como contextos para testes.

O estudo introduz um afastamento dos paradigmas de pesquisa anteriores em estudos de efeitos antigos / novos. Enquanto pesquisas anteriores se concentraram em como o reconhecimento do locutor antigo/novo influencia a percepção, este estudo estende isso incorporando dois níveis de confiança (confiante versus duvidoso) ao paradigma (portanto, um estudo 2+2). Isso nos permite investigar o reconhecimento do falante dentro dos contextos de prosódias de fala confiante e duvidosa. O paradigma permite a exploração da robustez de efeitos antigos/novos. As análises dos efeitos da memória e das regiões de interesse (ROI) em contextos de fala confiante e duvidosa servem como evidência para esta investigação.

Em conjunto, o estudo visa atualizar a compreensão dos correlatos de EEG do reconhecimento de voz, com as hipóteses de que o LPC ampliado do efeito antigo/novo do EEG é observável mesmo quando 1) o conteúdo linguístico não é o mesmo, e 2) com a presença de prosódia confiante versus duvidosa. Este estudo investigou as hipóteses por meio de um paradigma de três etapas. Em primeiro lugar, durante a fase de treinamento, os participantes estabeleceram associações entre três vozes e seus nomes correspondentes. Posteriormente, na fase de verificação, eles foram encarregados de identificar o nome correspondente a uma voz de uma seleção de três candidatos. Essa verificação, seguindo Lavan et al.23, visa superar a familiarização insuficiente do falante antigo, que levou ao efeito antigo/novo não observado quando o texto nas fases de treinamento e teste diferia6, e os falantes não conseguiam reconhecer os falantes em prosódias neutras e temerosas10. Finalmente, na fase de teste, os participantes distinguiram entre três vozes antigas e três novas vozes em uma tarefa de escolha forçada de duas alternativas, com a prosódia da fala apresentada como confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais e submetidos a pré-processamento antes da análise. A análise estatística e a análise do potencial relacionado a eventos (ERP) foram realizadas no RStudio, enquanto o MATLAB foi utilizado para análise da topografia cerebral.

Em relação aos detalhes do projeto, este estudo propõe um experimento de aprendizagem da identidade do falante que controla a altura do falante, que está relacionada ao VTL e influencia as impressões de quem está falando23. Esse aspecto também influencia as impressões sociais, como a dominância percebida25, e essa formação de impressões de nível superior pode interagir com a decodificação da identidade do falante26.

Protocol

O Comitê de Ética do Instituto de Linguística da Universidade de Estudos Internacionais de Xangai aprovou o projeto de experimento descrito abaixo. O consentimento informado foi obtido de todos os participantes para este estudo. 1. Preparação e validação da audioteca Gravação e edição de áudioCrie um banco de dados vocal chinês seguindo o procedimento padrão de fazer uma versão anterior em inglês, fazendo adaptações quando necessário para s…

Representative Results

O efeito clássico antigo/novo é caracterizado por um aumento significativo na atividade cerebral dos ouvintes no eletrodo Pz (entre 300 a 700 ms) quando o conteúdo de fala da sessão de teste corresponde ao da sessão de treinamento, particularmente na condição de locutor antigo em comparação com a nova condição de locutor22. O protocolo revela uma versão atualizada desse efeito: Em primeiro lugar, observando tendências positivas maiores no eletrodo Pz e em toda a região do cérebro pa…

Discussion

O estudo apresenta um pipeline para coleta e análise de dados de EEG, com foco no reconhecimento de identidades de falantes previamente aprendidas. Este estudo aborda as variações entre as fases de aprendizagem e reconhecimento, incluindo diferenças no conteúdo dafala22 e na prosódia10. O design é adaptável a uma variedade de campos de pesquisa, incluindo psicolinguística, como pronome e processamento anafórico41.

<p class="jove_content…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado pela Fundação de Ciências Naturais da China (Grant No. 31971037); o Programa Shuguang apoiado pela Fundação de Desenvolvimento da Educação de Xangai e pelo Comitê Municipal de Educação de Xangai (Concessão nº 20SG31); a Fundação de Ciências Naturais de Xangai (22ZR1460200); o Programa de Orientação de Supervisores da Universidade de Estudos Internacionais de Xangai (2022113001); e o Programa Principal da Fundação Nacional de Ciências Sociais da China (Grant No. 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

References

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Cite This Article
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video