Summary

Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

Published: August 09, 2024
doi:

Summary

L’étude introduit un paradigme de test d’entraînement pour étudier les effets anciens/nouveaux des potentiels liés aux événements dans des scénarios prosodiques confiants et douteux. Les données révèlent une composante positive tardive améliorée entre 400 et 850 ms à Pz et à d’autres électrodes. Ce pipeline peut explorer des facteurs au-delà de la prosodie de la parole et leur influence sur l’identification des cibles de liaison aux indices.

Abstract

Reconnaître les locuteurs familiers des flux vocaux est un aspect fondamental de la communication verbale humaine. Cependant, il n’est pas clair comment les auditeurs peuvent encore discerner l’identité du locuteur dans un discours expressif. Cette étude développe une approche de reconnaissance de l’identité individuelle du locuteur basée sur la mémorisation et un pipeline d’analyse de données d’électroencéphalogramme (EEG) qui l’accompagne, qui surveille la façon dont les auditeurs reconnaissent les locuteurs familiers et distinguent les inconnus. Les données EEG capturent les processus cognitifs en ligne lors de la distinction entre les nouveaux et les anciens locuteurs en fonction de la voix, offrant une mesure en temps réel de l’activité cérébrale, dépassant les limites des temps de réaction et des mesures de précision. Le paradigme comprend trois étapes : les auditeurs établissent des associations entre trois voix et leurs noms (formation) ; les auditeurs indiquent le nom correspondant à une voix de trois candidats (vérification) ; Les auditeurs font la distinction entre trois anciennes et trois nouvelles voix de haut-parleur dans une tâche à choix forcé à deux alternatives (test). La prosodie de la parole lors des tests était soit confiante, soit douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux, puis prétraitées et importées dans RStudio pour l’ERP et l’analyse statistique et MATLAB pour la topographie cérébrale. Les résultats ont montré qu’une composante positive tardive (LPC) élargie était induite chez l’ancien locuteur par rapport à la condition du nouveau locuteur dans la fenêtre de 400 à 850 ms dans le Pz et dans d’autres gammes plus larges d’électrodes dans les deux prosodies. Pourtant, l’effet ancien/nouveau était robuste dans les électrodes centrales et postérieures pour la perception douteuse de la prosodie, tandis que les électrodes antérieures, centrales et postérieures sont pour l’état de prosodie confiante. Cette étude propose que ce modèle d’expérience puisse servir de référence pour étudier les effets de liaison de signaux spécifiques au locuteur dans divers scénarios (par exemple, l’expression anaphorique) et des pathologies chez des patients comme la phonagnosie.

Introduction

Les flux vocaux humains sont riches en informations, telles que l’émotion1,2, l’état de santé 3,4, le sexe biologique5, l’âge6 et, plus important encore, l’identité vocale individuelle 7,8. Des études ont suggéré que les auditeurs humains ont une solide capacité à reconnaître et à différencier l’identité de leurs pairs à travers les voix, surmontant les variations au sein du locuteur autour de la représentation moyenne de l’identité du locuteur dans l’espace acoustique9. De telles variations sont provoquées par une manipulation acoustique (fréquence fondamentale et longueur du conduit vocal, c’est-à-dire F0 et VTL) qui ne correspond à aucune intention pragmatique claire9, à des prosodies émotionnelles10 et à une confiance vocale qui transmet le sentiment de savoir11 du locuteur. Les expériences comportementales se sont concentrées sur de nombreux facteurs qui influencent la performance des auditeurs dans la reconnaissance des locuteurs, y compris les manipulations liées au langage 8,12,13, les caractéristiques liées aux participants telles que l’expérience musicale ou la capacité de lecture14,15, et les adaptations liées aux stimuli comme la parole à l’envers ou les non-mots16,17 ; On peut en trouver plus dans les revues de littérature18,19. Quelques expériences récentes ont examiné comment la variation individuelle de la représentation de l’identité du locuteur pourrait miner la précision de la reconnaissance, en tenant compte d’aspects tels que l’expressivité émotionnelle élevée par rapport à faible16 et les prosodies neutres par rapport aux prosodies craintives5 ; D’autres scénarios possibles peuvent faire l’objet d’une enquête plus approfondie, comme le suggère une étude20.

Pour la première lacune de la recherche, l’étude propose que les fondements neurologiques de l’identification du locuteur n’ont pas encore pleinement exploré comment la variation au sein du locuteur défie les activités cérébrales des auditeurs. Par exemple, dans une tâche de reconnaissance du locuteur basée sur l’IRMf par Zäske et al., le gyrus temporal postérieur supérieur droit (pSTG), le gyrus frontal inférieur droit/moyen (IFG/MFG), le gyrus frontal médial droit et le corps caudé gauche des participants ont montré une activation réduite lorsqu’ils étaient correctement identifiés comme anciens ou nouveaux locuteurs, que le contenu linguistique soit identique ou différent21. Cependant, une étude antérieure d’électroencéphalographie (EEG) réalisée par Zäske et al. n’a pas observé cet effet ancien/nouveau lorsque la variation de l’identité du locuteur était introduite à travers différents textes22. Plus précisément, une composante positive tardive (LPC) plus grande, allant de 300 à 700 ms, détectée à l’électrode Pz lorsque les auditeurs rencontraient leur locuteur familier exprimant le même texte (c’est-à-dire entendant une relecture avec un contenu linguistique non varié), était absente lorsque les locuteurs délivraient de nouveaux textes.

À l’appui de l’affirmation de Zäske et al.21, cette étude soupçonne qu’un effet ancien/nouveau peut encore être observé malgré les différences de contenu linguistique entre les sessions de formation et les sessions de test dans les analyses de potentiel lié aux événements (ERP). Ce raisonnement découle de l’idée que l’absence de l’effet ancien/nouveau dans Zäske et al.22, dans des conditions où des textes différents ont été utilisés, peut être attribuée à l’absence d’une session de vérification supplémentaire pendant la tâche de formation pour assurer un apprentissage approfondi et efficace de l’identité, comme suggéré par Lavan et al.23. Par conséquent, le premier objectif de l’étude est d’examiner et de valider cette hypothèse. Cette étude vise à tester cela en ajoutant une session de vérification au paradigme de test d’entraînement22.

Une autre question clé que cette étude vise à aborder est la robustesse de l’identification du locuteur en présence de prosodie de la parole. Des études comportementales antérieures ont suggéré que les auditeurs ont particulièrement du mal à reconnaître les locuteurs à travers différentes prosodies, ce qui indique un rôle modulateur du contexte prosodique – les auditeurs ont sous-performé dans les différentes conditions de prosodie de test d’entraînement. Cette étude vise à tester cela en exposant les auditeurs à reconnaître des locuteurs familiers dans des prosodies confiantes ou douteuses24. Cette étude s’attend à ce que les différences observées dans l’ERP aident à expliquer comment la prosodie vocale influence la reconnaissance de l’identité.

L’objectif principal de la présente étude est d’étudier la robustesse de l’effet ancien/nouveau dans la reconnaissance du locuteur, en examinant spécifiquement s’il existe des différences dans la reconnaissance des locuteurs dans les prosodies confiantes et douteuses. Xu et Armony10 ont réalisé une étude comportementale en utilisant un paradigme de test d’entraînement, et leurs résultats suggèrent que les auditeurs ne peuvent pas surmonter les différences prosodiques (par exemple, entraînés à reconnaître un locuteur en prosodie neutre et testés sur la prosodie craintive) et ne peuvent atteindre une précision inférieure au niveau de chance10. L’analyse acoustique indique que les haut-parleurs exprimant des états émotionnels variés sont associés à la modulation VTL/F0 ; par exemple, la prosodie confiante est caractérisée par une VTL allongée et un F0 inférieur, alors que l’inverse est vrai pour la prosodie douteuse11,24. Une autre preuve provient de l’étude de Lavan et al.23, qui a confirmé que les auditeurs peuvent s’adapter aux changements VTL et F0 du locuteur et former des représentations basées sur la moyenne des locuteurs. Cette étude confirme que, du point de vue des données comportementales, les auditeurs sont susceptibles de reconnaître l’identité du locuteur à travers les prosodies (par exemple, entraînés à reconnaître une prosodie confiante mais testés dans une prosodie douteuse ; rapportés dans un manuscrit séparé en préparation). Pourtant, les corrélats neuronaux de l’identification du locuteur, en particulier la généralisabilité de l’effet ancien/nouveau observé par Zäske et al.22, restent incertains. Par conséquent, la présente étude s’engage à valider la robustesse de l’effet ancien/nouveau dans les prosodies confiantes par rapport aux prosodies douteuses comme contextes de test.

L’étude s’écarte des paradigmes de recherche précédents dans les études sur les effets anciens/nouveaux. Alors que les recherches antérieures se concentraient sur la façon dont la reconnaissance des anciens/nouveaux locuteurs influence la perception, cette étude étend cela en incorporant deux niveaux de confiance (confiant ou douteux) dans le paradigme (donc, une étude 2+2). Cela nous permet d’étudier la reconnaissance du locuteur dans le contexte de prosodies de parole confiantes et douteuses. Le paradigme permet d’explorer la robustesse des effets anciens/nouveaux. Les analyses des effets de mémoire et des régions d’intérêt (ROI) dans des contextes de parole confiants et douteux servent de preuves à cette enquête.

Dans l’ensemble, l’étude vise à mettre à jour la compréhension des corrélats EEG de la reconnaissance vocale, avec les hypothèses que le LPC élargi de l’effet ancien/nouveau de l’EEG est observable même lorsque 1) le contenu linguistique n’est pas le même, et 2) avec la présence d’une prosodie confiante ou douteuse. Cette étude a examiné les hypothèses à travers un paradigme en trois étapes. Tout d’abord, pendant la phase de formation, les participants ont établi des associations entre trois voix et leurs noms correspondants. Par la suite, lors de la phase de vérification, ils ont été chargés d’identifier le nom correspondant à une voix parmi une sélection de trois candidats. Cette vérification, suivant Lavan et al.23, vise à surmonter la familiarisation insuffisante de l’ancien locuteur, ce qui a conduit à l’effet ancien/nouveau non observé lorsque le texte dans les phases d’entraînement et de test différait6, et que les locuteurs ne pouvaient pas reconnaître les locuteurs à travers des prosodies neutres et craintives10. Enfin, dans la phase de test, les participants ont distingué entre trois anciennes et trois nouvelles voix de locuteur dans une tâche à choix forcé à deux alternatives, la prosodie de la parole étant présentée comme confiante ou douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux et ont subi un prétraitement avant l’analyse. L’analyse statistique et l’analyse du potentiel lié aux événements (ERP) ont été effectuées dans RStudio, tandis que MATLAB a été utilisé pour l’analyse de la topographie cérébrale.

En ce qui concerne les détails de conception, cette étude propose une expérience d’apprentissage de l’identité du locuteur qui contrôle la taille de l’orateur, qui est liée à la VTL et influence les impressions de qui parle23. Cet aspect influence également les impressions sociales, telles que la dominance perçue25, et une telle formation d’impression de niveau supérieur pourrait interagir avec le décodage de l’identité du locuteur26.

Protocol

Le Comité d’éthique de l’Institut de linguistique de l’Université d’études internationales de Shanghai a approuvé le plan d’expérience décrit ci-dessous. Le consentement éclairé a été obtenu de tous les participants à cette étude. 1. Préparation et validation de la bibliothèque audio Enregistrement et édition audioCréez une base de données vocale chinoise en suivant la procédure standard de création d’une version anglaise préc…

Representative Results

L’effet classique ancien/nouveau est caractérisé par une augmentation significative de l’activité cérébrale des auditeurs sur l’électrode Pz (entre 300 et 700 ms) lorsque le contenu de la parole de la session de test correspond à celui de la session d’entraînement, en particulier dans l’ancien état du locuteur par rapport à la nouvelle conditiondu locuteur 22. Le protocole dévoile une version mise à jour de cet effet : tout d’abord, en observant des tendances positives plus…

Discussion

L’étude présente un pipeline pour la collecte et l’analyse de données EEG, en se concentrant sur la reconnaissance des identités de locuteurs précédemment apprises. Cette étude aborde les variations entre les phases d’apprentissage et de reconnaissance, y compris les différences dans le contenu de la parole22 et la prosodie10. La conception est adaptable à une gamme de domaines de recherche, y compris la psycholinguistique, comme le traitement des pronoms et …

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par la Fondation des sciences naturelles de Chine (subvention n° 31971037) ; le programme Shuguang soutenu par la Fondation pour le développement de l’éducation de Shanghai et le Comité municipal de l’éducation de Shanghai (subvention n° 20SG31) ; la Fondation des sciences naturelles de Shanghai (22ZR1460200) ; le programme d’orientation des superviseurs de l’Université d’études internationales de Shanghai (2022113001) ; et le programme majeur de la Fondation nationale des sciences sociales de Chine (subvention n° 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

Referenzen

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Diesen Artikel zitieren
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video