Summary

使用事件相关电位分析在表达性语音中实现稳健声音身份识别的基于记忆的训练和测试范式

Published: August 09, 2024
doi:

Summary

该研究引入了一种训练测试范式,以研究事件相关电位在置信和可疑韵律场景中的旧/新影响。数据显示,在 Pz 和其他电极处,在 400-850 ms 之间,晚期阳性成分增强。此管道可以探索语音韵律以外的因素及其对线索绑定目标识别的影响。

Abstract

从声带中识别熟悉的说话者是人类口头交流的一个基本方面。然而,目前尚不清楚听众如何在富有表现力的言语中辨别说话者的身份。本研究开发了一种基于记忆的个体说话人身份识别方法和随附的脑电图 (EEG) 数据分析管道,用于监测听众如何识别熟悉的说话人和区分不熟悉的说话者。脑电图数据在基于语音区分新旧说话人期间捕捉在线认知过程,提供大脑活动的实时测量,克服反应时间和准确性测量的限制。该范式包括三个步骤:听众在三个声音及其名称之间建立关联(训练);listeners 指示与三个候选者的声音对应的名称 (checking);听众在两个备选强制选择任务 (测试) 中区分三个旧的和三个新的说话人声音。测试中的语音韵律要么是自信的,要么是可疑的。使用 64 通道 EEG 系统收集 EEG 数据,然后进行预处理并导入 RStudio 进行 ERP 和统计分析,并导入 MATLAB 进行脑地形图。结果显示,与 New Talker 条件相比,在 Pz 和其他更宽范围的韵律中,在 Pz 和其他更宽范围的电极中,老说话者中引发了扩大的晚期正成分 (LPC)。然而,对于可疑的韵律感知,中央和后电极的旧/新效应是稳健的,而前、中央和后电极则用于可靠的韵律条件。本研究提出,该实验设计可作为研究各种场景(例如,隐喻表达)和声觉失认症等患者病理中的说话人特异性线索结合效应的参考。

Introduction

人类的声流信息丰富,例如情绪 1,2、健康状况 3,4、生理性别5、年龄6,更重要的是,个人声音身份 7,8研究表明,人类听众具有强大的能力,可以通过声音识别和区分同伴的身份,从而克服了声学空间中说话人身份基于平均值的表示的说话人内部差异9。这种变化是由声学操纵(基频和声带长度,即F0和VTL)引起的,它对应于没有明确的语用意图9(clear pragmatic intentions)9、情感韵律10(emotion prosodies)和传达说话者认知感的声音自信11。行为实验集中在影响听众识别说话者表现的许多因素上,包括与语言相关的操作 8,12,13,与参与者相关的特征,如音乐体验或阅读能力 14,15,以及与刺激相关的适应,如倒退语音或非单词16,17;更多信息可以在文献综述中找到18,19。最近的一些实验调查了说话人身份表征的个体差异如何破坏识别准确性,考虑了包括高与低情绪表达16 和中性与恐惧韵律5 等方面;正如 A Review20 所建议的那样,更多可能的情况可供进一步调查。

对于第一个研究空白,该研究提出,说话人识别的神经学基础尚未充分探索说话人内部差异如何挑战听众的大脑活动。例如,在 Zäske 等人基于 fMRI 的说话人识别任务中,参与者的右颞后上回 (pSTG)、右额下回/额中回 (IFG/MFG)、右内侧额回和左尾状核在正确识别为老说话者与新说话者时表现出激活减少,无论语言内容相同还是不同21.然而,Zäske 等人早期的脑电图 (EEG) 研究并没有观察到当说话人身份变异通过不同的文本引入时,这种旧/新效应22。具体来说,当听众遇到他们熟悉的训练有素的说话者表达相同的文本时(即,听到具有非变化语言内容的重播),在 Pz 电极上检测到一个更大的、较晚的正分量 (LPC),范围为 300 到 700 毫秒,当说话者提供新文本时,不存在。

为了支持 Zäske 等人 21 的断言,本研究怀疑,尽管在事件相关电位 (ERP) 分析中训练和测试会话之间的语言内容存在差异,但仍可以观察到旧/新效应。这一基本原理源于这样一种观念,即在使用不同文本的情况下,Zäske 等人22 中没有旧/新效应,这可能归因于在训练任务期间缺乏额外的检查会话,以确保彻底和有效的身份学习,正如 Lavan 等人所建议的23。因此,该研究的首要目标是检验和验证这一假设。本研究旨在通过在训练-测试范式22 中添加检查会话来测试这一点。

本研究旨在解决的另一个关键问题是在存在语音韵律的情况下说话人识别的稳健性。之前的行为研究表明,听众特别难以识别不同韵律的说话者,这表明韵律上下文的调节作用——听众在不同的训练测试韵律条件下表现不佳。本研究旨在通过让听众在自信或可疑的韵律中识别熟悉的说话者来测试这一点24。本研究预计观察到的 ERP 差异将有助于解释语音韵律如何影响身份识别。

本研究的核心目标是调查旧/新效应在说话人识别中的稳健性,特别是检查在自信和可疑的韵律中识别说话者是否存在差异。Xu 和 Armony10 使用训练-测试范式进行了一项行为研究,他们的发现表明,听众无法克服韵律差异(例如,受过训练以识别中性韵律的说话者,并在恐惧韵律上进行测试),并且只能达到低于机会水平10 的准确性。声学分析表明,表达不同情绪状态的说话人与 VTL/F0 调制有关;例如,置信韵律的特征是 VTL 延长和 F0 降低,而可疑韵律11,24 则相反。另一个证据来自 Lavan 等人的研究23,该研究证实了听众可以适应说话者的 VTL 和 F0 变化,并形成基于平均值的谈话者表示。本研究调和了,从行为数据的角度来看,听众可能仍然能够识别出跨韵律说话者的身份(例如,受过训练可以在自信的韵律中识别一个人,但在可疑的韵律中进行测试;在准备中的单独手稿中报告)。然而,说话人识别的神经相关性,特别是 Zäske 等人22观察到的旧/新效应的普遍性,仍然不清楚。因此,目前的研究致力于验证置信韵律与可疑韵律中旧/新效应的稳健性,作为测试的背景。

该研究引入了与以前旧/新效应研究研究范式的背离。虽然过去的研究侧重于旧/新说话者的识别如何影响感知,但本研究通过将两个置信水平(自信与怀疑)纳入范式(因此,一项 2+2 研究)来扩展这一点。这使我们能够在自信和可疑语音韵律的上下文中研究说话人识别。该范例可以探索旧/新效果的稳健性。在自信和可疑的语音环境中对记忆效应和感兴趣区域 (ROI) 的分析可作为这项调查的证据。

总而言之,该研究旨在更新对语音识别的脑电图相关性的理解,假设即使 1) 语言内容不同,以及 2) 存在自信与可疑的韵律,也可以观察到脑电图旧/新效应的扩大 LPC。本研究通过三步范式调查了这些假设。首先,在训练阶段,参与者在三种声音及其相应的名称之间建立了关联。随后,在检查阶段,他们的任务是从三名候选人中确定与声音相对应的名称。这种检查遵循 Lavan 等人 23 ,旨在克服对老说话人熟悉不足的问题,当训练和测试阶段的文本不同时,这会导致未观察到的旧/新效应6,并且说话者无法识别中性和恐惧韵律的说话者10。最后,在测试阶段,参与者在两个替代强制选择任务中区分了三个旧的和三个新的说话人声音,语音韵律表现为自信或可疑。使用 64 通道 EEG 系统收集 EEG 数据,并在分析前进行预处理。统计分析和事件相关电位 (ERP) 分析在 RStudio 中进行,而 MATLAB 用于脑地形图分析。

关于设计细节,本研究提出了一个说话者身份学习实验,该实验控制说话者的身高,这与 VTL 有关,并影响对谁在说话的印象23。这方面也影响社会印象,例如感知支配25 (perception dominance),这种更高层次的印象形成可能与解码说话人身份26 (Decoding speaker identity) 相互作用。

Protocol

上海外国语大学语言学研究所伦理委员会已批准了下述实验设计。本研究的所有参与者均已获得知情同意。 1. 音频库的准备和验证 音频录制和编辑按照制作以前的英文版本的标准程序创建一个中文声乐数据库,同时根据需要进行调整以适应中国11 的背景。对于这里的实验,使用了 123 个句子,其中包含三种类型的语用意图,即判断…

Representative Results

经典的旧/新效应的特点是,当测试会话的语音内容与训练会话的语音内容相匹配时,听者在 Pz 电极上的大脑活动显着增加(在 300 到 700 毫秒之间),尤其是在旧说话者条件下与新说话者条件相比22。该协议揭示了这种效应的更新版本:首先,与 400 到 850 毫秒之间的新说话者条件相比,在 Pz 电极和整个大脑区域中观察到更大的正趋势。其次,测试环节中的语音内容将与培训课程…

Discussion

该研究提出了一个用于 EEG 数据收集和分析的管道,重点是识别以前学习的说话人身份。本研究解决了学习和识别阶段之间的差异,包括语音内容22 和韵律10 的差异。该设计适用于一系列研究领域,包括心理语言学,例如代词和隐喻处理41

训练测试范式是一种经典的实验设计,用于评估参与者在特定主题上的学习成果,…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

这项工作得到了中国自然科学基金(第 31971037 号资助)的支持;上海市教育发展基金会和上海市教育委员会支持的曙光计划(批准号:20SG31);上海市自然科学基金(22ZR1460200);上海外国语大学导师指导项目(2022113001);和国家社科基金重大计划(批准号 18ZDA293)。

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

Referenzen

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Diesen Artikel zitieren
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video