Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

JoVE Journal > Behavior

Please note that all translations are automatically generated. Click here for the English version.

Verhalten

Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

Published: August 09, 2024

doi:

10.3791/66913

Wenjun Chen¹, Xiaoming Jiang^1,2

¹Institute of Linguistics,Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence,Shanghai International Studies University

Summary

L’étude introduit un paradigme de test d’entraînement pour étudier les effets anciens/nouveaux des potentiels liés aux événements dans des scénarios prosodiques confiants et douteux. Les données révèlent une composante positive tardive améliorée entre 400 et 850 ms à Pz et à d’autres électrodes. Ce pipeline peut explorer des facteurs au-delà de la prosodie de la parole et leur influence sur l’identification des cibles de liaison aux indices.

Abstract

Reconnaître les locuteurs familiers des flux vocaux est un aspect fondamental de la communication verbale humaine. Cependant, il n’est pas clair comment les auditeurs peuvent encore discerner l’identité du locuteur dans un discours expressif. Cette étude développe une approche de reconnaissance de l’identité individuelle du locuteur basée sur la mémorisation et un pipeline d’analyse de données d’électroencéphalogramme (EEG) qui l’accompagne, qui surveille la façon dont les auditeurs reconnaissent les locuteurs familiers et distinguent les inconnus. Les données EEG capturent les processus cognitifs en ligne lors de la distinction entre les nouveaux et les anciens locuteurs en fonction de la voix, offrant une mesure en temps réel de l’activité cérébrale, dépassant les limites des temps de réaction et des mesures de précision. Le paradigme comprend trois étapes : les auditeurs établissent des associations entre trois voix et leurs noms (formation) ; les auditeurs indiquent le nom correspondant à une voix de trois candidats (vérification) ; Les auditeurs font la distinction entre trois anciennes et trois nouvelles voix de haut-parleur dans une tâche à choix forcé à deux alternatives (test). La prosodie de la parole lors des tests était soit confiante, soit douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux, puis prétraitées et importées dans RStudio pour l’ERP et l’analyse statistique et MATLAB pour la topographie cérébrale. Les résultats ont montré qu’une composante positive tardive (LPC) élargie était induite chez l’ancien locuteur par rapport à la condition du nouveau locuteur dans la fenêtre de 400 à 850 ms dans le Pz et dans d’autres gammes plus larges d’électrodes dans les deux prosodies. Pourtant, l’effet ancien/nouveau était robuste dans les électrodes centrales et postérieures pour la perception douteuse de la prosodie, tandis que les électrodes antérieures, centrales et postérieures sont pour l’état de prosodie confiante. Cette étude propose que ce modèle d’expérience puisse servir de référence pour étudier les effets de liaison de signaux spécifiques au locuteur dans divers scénarios (par exemple, l’expression anaphorique) et des pathologies chez des patients comme la phonagnosie.

Introduction

Les flux vocaux humains sont riches en informations, telles que l’émotion^1,2, l’état de santé ^3,4, le sexe biologique⁵, l’âge⁶ et, plus important encore, l’identité vocale individuelle ^7,8. Des études ont suggéré que les auditeurs humains ont une solide capacité à reconnaître et à différencier l’identité de leurs pairs à travers les voix, surmontant les variations au sein du locuteur autour de la représentation moyenne de l’identité du locuteur dans l’espace acoustique⁹. De telles variations sont provoquées par une manipulation acoustique (fréquence fondamentale et longueur du conduit vocal, c’est-à-dire F0 et VTL) qui ne correspond à aucune intention pragmatique claire⁹, à des prosodies émotionnelles¹⁰ et à une confiance vocale qui transmet le sentiment de savoir¹¹ du locuteur. Les expériences comportementales se sont concentrées sur de nombreux facteurs qui influencent la performance des auditeurs dans la reconnaissance des locuteurs, y compris les manipulations liées au langage ^8,12,13, les caractéristiques liées aux participants telles que l’expérience musicale ou la capacité de lecture^14,15, et les adaptations liées aux stimuli comme la parole à l’envers ou les non-mots^16,17 ; On peut en trouver plus dans les revues de littérature^18,19. Quelques expériences récentes ont examiné comment la variation individuelle de la représentation de l’identité du locuteur pourrait miner la précision de la reconnaissance, en tenant compte d’aspects tels que l’expressivité émotionnelle élevée par rapport à faible¹⁶ et les prosodies neutres par rapport aux prosodies craintives⁵ ; D’autres scénarios possibles peuvent faire l’objet d’une enquête plus approfondie, comme le suggère une étude²⁰.

Pour la première lacune de la recherche, l’étude propose que les fondements neurologiques de l’identification du locuteur n’ont pas encore pleinement exploré comment la variation au sein du locuteur défie les activités cérébrales des auditeurs. Par exemple, dans une tâche de reconnaissance du locuteur basée sur l’IRMf par Zäske et al., le gyrus temporal postérieur supérieur droit (pSTG), le gyrus frontal inférieur droit/moyen (IFG/MFG), le gyrus frontal médial droit et le corps caudé gauche des participants ont montré une activation réduite lorsqu’ils étaient correctement identifiés comme anciens ou nouveaux locuteurs, que le contenu linguistique soit identique ou différent²¹. Cependant, une étude antérieure d’électroencéphalographie (EEG) réalisée par Zäske et al. n’a pas observé cet effet ancien/nouveau lorsque la variation de l’identité du locuteur était introduite à travers différents textes²². Plus précisément, une composante positive tardive (LPC) plus grande, allant de 300 à 700 ms, détectée à l’électrode Pz lorsque les auditeurs rencontraient leur locuteur familier exprimant le même texte (c’est-à-dire entendant une relecture avec un contenu linguistique non varié), était absente lorsque les locuteurs délivraient de nouveaux textes.

À l’appui de l’affirmation de Zäske et ^al.21, cette étude soupçonne qu’un effet ancien/nouveau peut encore être observé malgré les différences de contenu linguistique entre les sessions de formation et les sessions de test dans les analyses de potentiel lié aux événements (ERP). Ce raisonnement découle de l’idée que l’absence de l’effet ancien/nouveau dans Zäske et ^al.22, dans des conditions où des textes différents ont été utilisés, peut être attribuée à l’absence d’une session de vérification supplémentaire pendant la tâche de formation pour assurer un apprentissage approfondi et efficace de l’identité, comme suggéré par Lavan et ^al.23. Par conséquent, le premier objectif de l’étude est d’examiner et de valider cette hypothèse. Cette étude vise à tester cela en ajoutant une session de vérification au paradigme de test d’entraînement²².

Une autre question clé que cette étude vise à aborder est la robustesse de l’identification du locuteur en présence de prosodie de la parole. Des études comportementales antérieures ont suggéré que les auditeurs ont particulièrement du mal à reconnaître les locuteurs à travers différentes prosodies, ce qui indique un rôle modulateur du contexte prosodique – les auditeurs ont sous-performé dans les différentes conditions de prosodie de test d’entraînement. Cette étude vise à tester cela en exposant les auditeurs à reconnaître des locuteurs familiers dans des prosodies confiantes ou douteuses²⁴. Cette étude s’attend à ce que les différences observées dans l’ERP aident à expliquer comment la prosodie vocale influence la reconnaissance de l’identité.

L’objectif principal de la présente étude est d’étudier la robustesse de l’effet ancien/nouveau dans la reconnaissance du locuteur, en examinant spécifiquement s’il existe des différences dans la reconnaissance des locuteurs dans les prosodies confiantes et douteuses. Xu et Armony¹⁰ ont réalisé une étude comportementale en utilisant un paradigme de test d’entraînement, et leurs résultats suggèrent que les auditeurs ne peuvent pas surmonter les différences prosodiques (par exemple, entraînés à reconnaître un locuteur en prosodie neutre et testés sur la prosodie craintive) et ne peuvent atteindre une précision inférieure au niveau de chance¹⁰. L’analyse acoustique indique que les haut-parleurs exprimant des états émotionnels variés sont associés à la modulation VTL/F0 ; par exemple, la prosodie confiante est caractérisée par une VTL allongée et un F0 inférieur, alors que l’inverse est vrai pour la prosodie douteuse^11,24. Une autre preuve provient de l’étude de Lavan et ^al.23, qui a confirmé que les auditeurs peuvent s’adapter aux changements VTL et F0 du locuteur et former des représentations basées sur la moyenne des locuteurs. Cette étude confirme que, du point de vue des données comportementales, les auditeurs sont susceptibles de reconnaître l’identité du locuteur à travers les prosodies (par exemple, entraînés à reconnaître une prosodie confiante mais testés dans une prosodie douteuse ; rapportés dans un manuscrit séparé en préparation). Pourtant, les corrélats neuronaux de l’identification du locuteur, en particulier la généralisabilité de l’effet ancien/nouveau observé par Zäske et ^al.22, restent incertains. Par conséquent, la présente étude s’engage à valider la robustesse de l’effet ancien/nouveau dans les prosodies confiantes par rapport aux prosodies douteuses comme contextes de test.

L’étude s’écarte des paradigmes de recherche précédents dans les études sur les effets anciens/nouveaux. Alors que les recherches antérieures se concentraient sur la façon dont la reconnaissance des anciens/nouveaux locuteurs influence la perception, cette étude étend cela en incorporant deux niveaux de confiance (confiant ou douteux) dans le paradigme (donc, une étude 2+2). Cela nous permet d’étudier la reconnaissance du locuteur dans le contexte de prosodies de parole confiantes et douteuses. Le paradigme permet d’explorer la robustesse des effets anciens/nouveaux. Les analyses des effets de mémoire et des régions d’intérêt (ROI) dans des contextes de parole confiants et douteux servent de preuves à cette enquête.

Dans l’ensemble, l’étude vise à mettre à jour la compréhension des corrélats EEG de la reconnaissance vocale, avec les hypothèses que le LPC élargi de l’effet ancien/nouveau de l’EEG est observable même lorsque 1) le contenu linguistique n’est pas le même, et 2) avec la présence d’une prosodie confiante ou douteuse. Cette étude a examiné les hypothèses à travers un paradigme en trois étapes. Tout d’abord, pendant la phase de formation, les participants ont établi des associations entre trois voix et leurs noms correspondants. Par la suite, lors de la phase de vérification, ils ont été chargés d’identifier le nom correspondant à une voix parmi une sélection de trois candidats. Cette vérification, suivant Lavan et ^al.23, vise à surmonter la familiarisation insuffisante de l’ancien locuteur, ce qui a conduit à l’effet ancien/nouveau non observé lorsque le texte dans les phases d’entraînement et de test différait⁶, et que les locuteurs ne pouvaient pas reconnaître les locuteurs à travers des prosodies neutres et craintives¹⁰. Enfin, dans la phase de test, les participants ont distingué entre trois anciennes et trois nouvelles voix de locuteur dans une tâche à choix forcé à deux alternatives, la prosodie de la parole étant présentée comme confiante ou douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux et ont subi un prétraitement avant l’analyse. L’analyse statistique et l’analyse du potentiel lié aux événements (ERP) ont été effectuées dans RStudio, tandis que MATLAB a été utilisé pour l’analyse de la topographie cérébrale.

En ce qui concerne les détails de conception, cette étude propose une expérience d’apprentissage de l’identité du locuteur qui contrôle la taille de l’orateur, qui est liée à la VTL et influence les impressions de qui parle²³. Cet aspect influence également les impressions sociales, telles que la dominance perçue²⁵, et une telle formation d’impression de niveau supérieur pourrait interagir avec le décodage de l’identité du locuteur²⁶.

Protocol

Le Comité d’éthique de l’Institut de linguistique de l’Université d’études internationales de Shanghai a approuvé le plan d’expérience décrit ci-dessous. Le consentement éclairé a été obtenu de tous les participants à cette étude. 1. Préparation et validation de la bibliothèque audio Enregistrement et édition audioCréez une base de données vocale chinoise en suivant la procédure standard de création d’une version anglaise préc…

Representative Results

L’effet classique ancien/nouveau est caractérisé par une augmentation significative de l’activité cérébrale des auditeurs sur l’électrode Pz (entre 300 et 700 ms) lorsque le contenu de la parole de la session de test correspond à celui de la session d’entraînement, en particulier dans l’ancien état du locuteur par rapport à la nouvelle conditiondu locuteur 22. Le protocole dévoile une version mise à jour de cet effet : tout d’abord, en observant des tendances positives plus…

Discussion

L’étude présente un pipeline pour la collecte et l’analyse de données EEG, en se concentrant sur la reconnaissance des identités de locuteurs précédemment apprises. Cette étude aborde les variations entre les phases d’apprentissage et de reconnaissance, y compris les différences dans le contenu de la parole²² et la prosodie¹⁰. La conception est adaptable à une gamme de domaines de recherche, y compris la psycholinguistique, comme le traitement des pronoms et …

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par la Fondation des sciences naturelles de Chine (subvention n° 31971037) ; le programme Shuguang soutenu par la Fondation pour le développement de l’éducation de Shanghai et le Comité municipal de l’éducation de Shanghai (subvention n° 20SG31) ; la Fondation des sciences naturelles de Shanghai (22ZR1460200) ; le programme d’orientation des superviseurs de l’Université d’études internationales de Shanghai (2022113001) ; et le programme majeur de la Fondation nationale des sciences sociales de Chine (subvention n° 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Referenzen

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
. Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Offenlegungen

Acknowledgements

Materials

Referenzen

Tags

Diesen Artikel zitieren

View Video

Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Offenlegungen

Acknowledgements

Materials

Referenzen

Tags

Diesen Artikel zitieren

View Video

✖

To prove you're not a robot, please enter the text in the image below