Summary

Op memorisatie gebaseerd trainings- en testparadigma voor robuuste vocale identiteitsherkenning in expressieve spraak met behulp van gebeurtenisgerelateerde potentialenanalyse

Published: August 09, 2024
doi:

Summary

De studie introduceert een trainingstestparadigma om oude/nieuwe effecten van gebeurtenisgerelateerde potentialen te onderzoeken in zelfverzekerde en twijfelachtige prosodische scenario’s. Gegevens onthullen een verbeterde late positieve component tussen 400-850 ms bij Pz en andere elektroden. Deze pijplijn kan factoren onderzoeken die verder gaan dan spraakprosodie en hun invloed op cue-bindende doelidentificatie.

Abstract

Het herkennen van bekende sprekers uit vocale streams is een fundamenteel aspect van menselijke verbale communicatie. Het blijft echter onduidelijk hoe luisteraars de identiteit van de spreker nog kunnen onderscheiden in expressieve spraak. Deze studie ontwikkelt een op memorisatie gebaseerde benadering van individuele sprekersidentiteitsherkenning en een bijbehorende pijplijn voor elektro-encefalogram (EEG) gegevensanalyse, die controleert hoe luisteraars bekende sprekers herkennen en onbekende uit elkaar houden. EEG-gegevens leggen online cognitieve processen vast tijdens het onderscheid tussen nieuwe en oude sprekers op basis van spraak, en bieden een real-time meting van hersenactiviteit, het overwinnen van limieten van reactietijden en nauwkeurigheidsmetingen. Het paradigma bestaat uit drie stappen: luisteraars leggen associaties tussen drie stemmen en hun namen (training); luisteraars geven de naam aan die overeenkomt met een stem van drie kandidaten (controleren); Luisteraars maken onderscheid tussen drie oude en drie nieuwe luidsprekerstemmen in een twee-alternatieve forced-choice-taak (testen). De spraakprosodie bij het testen was zelfverzekerd of twijfelachtig. EEG-gegevens werden verzameld met behulp van een 64-kanaals EEG-systeem, gevolgd door voorbewerking en geïmporteerd in RStudio voor ERP en statistische analyse en MATLAB voor hersentopografie. De resultaten toonden aan dat een vergrote late positieve component (LPC) werd opgewekt in de oude prater in vergelijking met de nieuwe prater in het 400-850 ms-venster in de Pz en een ander breder scala aan elektroden in beide prosodieën. Toch was het oude/nieuwe effect robuust in centrale en achterste elektroden voor twijfelachtige prosodieperceptie, terwijl de voorste, centrale en achterste elektroden voor zelfverzekerde prosodieconditie zijn. Deze studie stelt voor dat dit experimentontwerp als referentie kan dienen voor het onderzoeken van sprekerspecifieke cue-bindende effecten in verschillende scenario’s (bijv. anaforische expressie) en pathologieën bij patiënten zoals fonagnosie.

Introduction

Menselijke vocale stromen zijn rijk aan informatie, zoals emotie 1,2, gezondheidstoestand 3,4, biologisch geslacht5, 6 jaar en, nog belangrijker, de individuele vocale identiteit 7,8. Studies hebben gesuggereerd dat menselijke luisteraars een robuust vermogen hebben om de identiteit van hun leeftijdsgenoten te herkennen en te differentiëren door middel van stemmen, waardoor variaties binnen de spreker rond de gemiddelde representatie van de sprekeridentiteit in de akoestische ruimte worden overwonnen9. Dergelijke variaties worden teweeggebracht door akoestische manipulatie (fundamentele frequentie en lengte van het stemkanaal, d.w.z. F0 en VTL) die niet overeenkomt met duidelijke pragmatische bedoelingen9, emotieprosodieën10 en vocaal vertrouwen dat het gevoel van weten van de sprekers overbrengt11. Gedragsexperimenten hebben zich gericht op vele factoren die van invloed zijn op de prestaties van luisteraars bij het herkennen van de sprekers, waaronder taalgerelateerde manipulaties 8,12,13, deelnemersgerelateerde kenmerken zoals muziekervaring of leesvaardigheid14,15, en stimuli-gerelateerde aanpassingen zoals achterwaartse spraak of niet-woorden16,17; Meer is te vinden in literatuuroverzichten18,19. Een paar recente experimenten hebben onderzocht hoe individuele variatie van de representatie van de identiteit van de spreker de herkenningsnauwkeurigheid zou kunnen ondermijnen, rekening houdend met aspecten als hoge versus lage emotionele expressiviteit16 en neutrale versus angstige prosodieën5; Er staan meer mogelijke scenario’s open voor verder onderzoek, zoals gesuggereerd door een review20.

Voor de eerste onderzoekslacune stelt de studie voor dat de neurologische onderbouwing van sprekeridentificatie nog niet volledig moet worden onderzocht hoe variatie binnen de spreker de hersenactiviteiten van luisteraars uitdaagt. Bijvoorbeeld, in een op fMRI gebaseerde sprekerherkenningstaak van Zäske et al., vertoonden de rechter posterieure superieure temporale gyrus (pSTG), rechter inferieure/middelste frontale gyrus (IFG/MFG), rechter mediale frontale gyrus en linker caudatus verminderde activering wanneer ze correct werden geïdentificeerd als oude versus nieuwe praters, ongeacht of de taalkundige inhoud hetzelfde of anders was21. Een eerdere elektro-encefalografie (EEG) studie van Zäske et al. observeerde dit oude/nieuwe effect echter niet wanneer variatie in de identiteit van de spreker werd geïntroduceerd via verschillende teksten22. In het bijzonder was een grotere, late positieve component (LPC) variërend van 300 tot 700 ms, gedetecteerd aan de Pz-elektrode wanneer luisteraars hun bekende getrainde spreker tegenkwamen die dezelfde tekst uitdrukte (d.w.z. een herhaling hoorde met niet-gevarieerde taalkundige inhoud), afwezig wanneer de sprekers nieuwe teksten leverden.

Ter ondersteuning van de bewering van Zäske et al.21 vermoedt deze studie dat er nog steeds een oud/nieuw-effect kan worden waargenomen, ondanks verschillen in taalkundige inhoud tussen trainings- en testsessies in event-related potential (ERP) analyses. Deze grondgedachte komt voort uit het idee dat het ontbreken van het oude/nieuwe effect in Zäske et al.22, onder omstandigheden waarin andere teksten werden gebruikt, kan worden toegeschreven aan het ontbreken van een extra controlesessie tijdens de trainingstaak om grondig en effectief identiteitsleren te garanderen, zoals gesuggereerd door Lavan et al.23. Het eerste doel van de studie is dan ook om deze hypothese te onderzoeken en te valideren. Deze studie heeft tot doel dit te testen door een controlesessie toe te voegen aan het trainings-testparadigma22.

Een andere belangrijke vraag die deze studie wil beantwoorden, is de robuustheid van sprekersidentificatie in aanwezigheid van spraakprosodie. Eerdere gedragsstudies hebben gesuggereerd dat luisteraars vooral moeite hebben om praters in verschillende prosodieën te herkennen, wat wijst op een modulerende rol van de prosodische context – luisteraars presteerden ondermaats in de verschillende trainingstestende prosodiecondities. Deze studie heeft tot doel dit te testen door luisteraars bloot te stellen aan het herkennen van bekende praters in zelfverzekerde of twijfelachtige prosodieën24. Deze studie verwacht dat de waargenomen ERP-verschillen zullen helpen verklaren hoe spraakprosodie identiteitsherkenning beïnvloedt.

Het kerndoel van de huidige studie is om de robuustheid van het oude/nieuwe effect in sprekerherkenning te onderzoeken, waarbij specifiek wordt onderzocht of er verschillen zijn in het herkennen van praters in zelfverzekerde versus twijfelachtige prosodieën. Xu en Armony10 voerden een gedragsonderzoek uit met behulp van een trainingstestparadigma, en hun bevindingen suggereren dat luisteraars prosodische verschillen niet kunnen overwinnen (bijvoorbeeld getraind om een prater te herkennen in neutrale prosodie en getest op angstige prosodie) en alleen een nauwkeurigheid kunnen bereiken die lager is dan kansniveau10. Akoestische analyse geeft aan dat luidsprekers die verschillende emotionele toestanden uitdrukken, geassocieerd zijn met VTL/F0-modulatie; zelfverzekerde prosodie wordt bijvoorbeeld gekenmerkt door verlengde VTL en lagere F0, terwijl het tegenovergestelde waar is voor twijfelachtige prosodie11,24. Een ander bewijs komt uit de studie van Lavan et al.23, die bevestigde dat luisteraars zich kunnen aanpassen aan VTL- en F0-veranderingen van de spreker en op gemiddelden gebaseerde representaties van de sprekers kunnen vormen. Deze studie verzoent dat, vanuit het perspectief van gedragsgegevens, luisteraars waarschijnlijk nog steeds de identiteit van de spreker herkennen in prosodieën (bijv. getraind om er een te herkennen in zelfverzekerde prosodie, maar getest in twijfelachtige prosodie; gerapporteerd in een afzonderlijk manuscript in voorbereiding). Toch blijven de neurale correlaten van sprekeridentificatie, met name de generaliseerbaarheid van het oude/nieuwe effect waargenomen door Zäske et al.22, onduidelijk. Daarom zet de huidige studie zich in voor het valideren van de robuustheid van het oude/nieuwe effect in zelfverzekerde versus twijfelachtige prosodieën als contexten voor testen.

De studie introduceert een afwijking van eerdere onderzoeksparadigma’s in oude/nieuwe effectstudies. Terwijl eerder onderzoek zich richtte op hoe herkenning van oude/nieuwe praters de perceptie beïnvloedt, breidt deze studie dit uit door twee betrouwbaarheidsniveaus (zelfverzekerd versus twijfelachtig) in het paradigma op te nemen (dus een 2+2-studie). Dit stelt ons in staat om sprekerherkenning te onderzoeken binnen de context van zelfverzekerde en twijfelachtige spraakprosodieën. Het paradigma maakt het mogelijk om de robuustheid van oude/nieuwe effecten te verkennen. De analyses van geheugeneffecten en interessegebieden (ROI) binnen zowel zelfverzekerde als twijfelachtige spraakcontexten dienen als bewijs voor dit onderzoek.

Al met al heeft de studie tot doel het begrip van de EEG-correlaten van spraakherkenning bij te werken, met de hypothesen dat de vergrote LPC van het EEG oud/nieuw-effect waarneembaar is, zelfs wanneer 1) de taalkundige inhoud niet hetzelfde is, en 2) met de aanwezigheid van zelfverzekerde versus twijfelachtige prosodie. Deze studie onderzocht de hypothesen aan de hand van een paradigma in drie stappen. Ten eerste legden de deelnemers tijdens de trainingsfase associaties tussen drie stemmen en hun bijbehorende namen. Vervolgens, in de controlefase, kregen ze de taak om uit een selectie van drie kandidaten de naam te identificeren die overeenkwam met een stem. Deze controle, in navolging van Lavan et al.23, heeft tot doel onvoldoende vertrouwd te raken met oude sprekers, wat leidde tot het niet-waargenomen oud/nieuw-effect wanneer de tekst in de trainings- en testfasen verschilde6, en praters praters over neutrale en angstige prosodieën niet konden herkennen10. Ten slotte maakten de deelnemers in de testfase onderscheid tussen drie oude en drie nieuwe sprekersstemmen in een taak met twee alternatieve gedwongen keuzes, waarbij spraakprosodie werd gepresenteerd als zelfverzekerd of twijfelachtig. EEG-gegevens werden verzameld met behulp van een 64-kanaals EEG-systeem en ondergingen voorbewerking vóór analyse. Statistische analyse en event-related potential (ERP) analyse werden uitgevoerd in RStudio, terwijl MATLAB werd gebruikt voor analyse van de hersentopografie.

Wat de ontwerpdetails betreft, stelt deze studie een experiment voor het leren van de identiteit van de spreker voor dat de lengte van de spreker controleert, wat gerelateerd is aan VTL en de indrukken van wie er aan het woord isbeïnvloedt 23. Dit aspect beïnvloedt ook sociale indrukken, zoals waargenomen dominantie25, en een dergelijke indrukvorming op een hoger niveau kan interageren met het decoderen van de identiteit van de spreker26.

Protocol

De ethische commissie van het Institute of Linguistics, Shanghai International Studies University, heeft het hieronder beschreven experimentontwerp goedgekeurd. Voor dit onderzoek werd geïnformeerde toestemming verkregen van alle deelnemers. 1. Voorbereiding en validatie van de audiobibliotheek Audio-opname en -bewerkingCreëer een Chinese vocale database volgens de standaardprocedure van het maken van een eerdere Engelse versie, terwijl u waar nodig aanpass…

Representative Results

Het klassieke oud/nieuw-effect wordt gekenmerkt door een significante toename van de hersenactiviteit van luisteraars op de Pz-elektrode (tussen 300 en 700 ms) wanneer de spraakinhoud van de testsessie overeenkomt met die van de trainingssessie, met name in de oude sprekersconditie in vergelijking met de nieuwe sprekersconditie22. Het protocol onthult een bijgewerkte versie van dit effect: ten eerste worden grotere positieve trends waargenomen in de Pz-elektrode en over het hele hersengebied voor …

Discussion

De studie presenteert een pijplijn voor het verzamelen en analyseren van EEG-gegevens, gericht op het herkennen van eerder geleerde sprekersidentiteiten. Deze studie richt zich op variaties tussen leer- en herkenningsfasen, waaronder verschillen in spraakinhoud22 en prosodie10. Het ontwerp is aanpasbaar aan een reeks onderzoeksgebieden, waaronder psycholinguïstiek, zoals voornaamwoord- en anaforische verwerking41.

Het tr…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door de Natural Science Foundation of China (Grant No. 31971037); het Shuguang-programma dat wordt ondersteund door de Shanghai Education Development Foundation en het Shanghai Municipal Education Committee (subsidie nr. 20SG31); de Natuurwetenschappelijke Stichting van Shanghai (22ZR1460200); het Supervisor Guidance Program van de Shanghai International Studies University (2022113001); en het grote programma van de National Social Science Foundation of China (subsidie nr. 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

References

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Cite This Article
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video