Summary

이벤트 관련 전위 분석을 사용하여 표현 음성에서 강력한 음성 정체성 인식을 위한 암기 기반 교육 및 테스트 패러다임

Published: August 09, 2024
doi:

Summary

이 연구는 확신에 차고 의심스런 운율 시나리오에서 이벤트 관련 잠재력의 오래된/새로운 효과를 조사하기 위한 훈련-테스트 패러다임을 소개합니다. 데이터는 Pz 및 기타 전극에서 400-850ms 사이의 향상된 후기 양성 성분을 보여줍니다. 이 파이프라인은 음성 운율 이상의 요인과 신호 바인딩 대상 식별에 미치는 영향을 탐색할 수 있습니다.

Abstract

음성 스트림에서 친숙한 화자를 인식하는 것은 인간의 언어 의사 소통의 기본 측면입니다. 그러나 청취자가 어떻게 표현 언어에서 화자의 정체성을 식별할 수 있는지는 여전히 불분명합니다. 이 연구는 암기 기반 개별 화자 정체성 인식 접근 방식과 수반되는 뇌파(EEG) 데이터 분석 파이프라인을 개발하여 청취자가 친숙한 화자를 인식하고 낯선 화자를 구별하는 방법을 모니터링합니다. EEG 데이터는 음성을 기반으로 새로운 화자와 기존 화자를 구분하는 동안 온라인 인지 과정을 캡처하여 뇌 활동을 실시간으로 측정하고 반응 시간 및 정확도 측정의 한계를 극복합니다. 패러다임은 세 단계로 구성됩니다 : 청취자는 세 가지 목소리와 그들의 이름 (훈련) 사이의 연관성을 설정합니다. 청취자는 세 명의 후보의 음성에 해당하는 이름을 나타냅니다(확인). 청취자는 두 가지 대안 강제 선택 작업(테스트)에서 세 가지 이전 화자 목소리와 세 가지 새로운 화자 목소리를 구별합니다. 테스트에서 언어 운율은 자신감이 있거나 의심스러웠습니다. EEG 데이터는 64채널 EEG 시스템을 사용하여 수집한 다음 전처리를 거쳐 ERP 및 통계 분석을 위한 RStudio와 뇌 지형학을 위한 MATLAB으로 가져왔습니다. 결과는 Pz의 400-850ms 창 및 두 프로소디의 다른 더 넓은 범위의 전극에서 새로운 토커 조건과 비교하여 올드 토커에서 확대된 후기 양성 성분(LPC)이 유도되었음을 보여주었습니다. 그러나 이전/새 효과는 의심스런 운율 인식을 위해 중앙 및 후방 전극에서 강력했던 반면, 전방, 중앙 및 후방 전극은 확신 있는 운율 상태를 위한 것입니다. 이 연구는 이 실험 설계가 다양한 시나리오(예: 혐기성 표현) 및 발성아증과 같은 환자의 병리에서 화자별 신호 결합 효과를 조사하기 위한 참고 자료 역할을 할 수 있음을 제안합니다.

Introduction

인간의 발성에는 감정(emotion)1,2, 건강 상태3,4, 생물학적 성(biological sex)5, 나이(age)6, 그리고 더 중요하게는 개인의 발성 정체성(vocal identity)7,8과 같은 정보가 풍부하다. 연구에 따르면 인간 청취자는 목소리를 통해 동료의 정체성을 인식하고 구별할 수 있는 강력한 능력을 가지고 있으며, 음향 공간에서 화자 정체성의 평균 기반 표현을 둘러싼 화자 내 변동을 극복한다9. 이러한 변화는 명확한 실용적 의도9, 감정 운율(emotion prosodies)10, 화자의 앎감을 전달하는 목소리 자신감(vocal confidence)11에 해당하는 음향 조작(기본 주파수 및 성도 길이, 즉 F0 및 VTL)에 의해 발생한다. 행동 실험은 언어 관련 조작8,12,13, 음악 경험 또는 읽기 능력과 같은 참가자 관련 특성14,15, 거꾸로 말하기 또는 비단어와 같은 자극 관련 적응16,17 등 청취자가 화자를 인식하는 데 영향을 미치는 많은 요인에 초점을 맞췄다. 더 많은 것은 문헌 검토18,19에서 찾을 수 있습니다. 최근의 몇몇 실험에서는 화자의 정체성 표현의 개인적 차이가 어떻게 인식 정확도를 저해할 수 있는지를 조사했으며, 이는 높은 감정 표현력과 낮은 감정 표현력(high and low emotional expressiveness)16, 중립적 표현력과 두려운 표현력(neutral versus fearful prosodies5)을 포함한 여러 측면을 고려했다. 리뷰20에서 제안한 바와 같이 추가 조사를 위해 더 많은 가능한 시나리오가 열려 있습니다.

첫 번째 연구 격차에 대해, 이 연구는 화자 식별의 신경학적 토대가 화자 내 변이가 청취자의 뇌 활동에 어떻게 도전하는지 아직 완전히 탐구하지 않았다고 제안합니다. 예를 들어, Zäske et al.의 fMRI 기반 화자 인식 과제에서 참가자의 우측 후방상측두이랑(pSTG), 우측 하측/중전두회(IFG/MFG), 우측 내측 전두이랑, 좌측 미상이랑은 언어 내용이 같거나 다르는지에 관계없이 오래된 화자와 새로운 화자로 올바르게 식별되었을 때 활성화가 감소한 것으로 나타났다21. 그러나 Zäske et al.의 초기 뇌파 검사(EEG) 연구에서는 화자 정체성 변이가 다른 텍스트를 통해 도입되었을 때 이러한 구/신 효과를 관찰하지 못했다22. 구체적으로, 청취자가 동일한 텍스트를 표현하는 친숙하고 훈련된 발화자를 만났을 때(즉, 다양하지 않은 언어 내용의 재생을 들었을 때) Pz 전극에서 감지된 300ms에서 700ms에 이르는 더 큰 LPC(Late Positive Component)는 발화자가 새로운 텍스트를 전달할 때 없었습니다.

Zäske et al.21의 주장을 뒷받침하기 위해 이 연구는 ERP(Event-Related Potential) 분석에서 교육 세션과 테스트 세션 간의 언어 내용의 차이에도 불구하고 이전/새로운 효과가 여전히 관찰될 수 있다고 의심합니다. 이 이론적 근거는 다른 텍스트가 사용된 조건에서 Zäske et al.22에서 구/신 효과가 없는 것은 Lavan et al.23이 제안한 것처럼 철저하고 효과적인 정체성 학습을 보장하기 위해 훈련 과제 중에 추가 점검 세션이 부족했기 때문일 수 있다는 개념에서 비롯됩니다. 결과적으로 이 연구의 첫 번째 목표는 이 가설을 조사하고 검증하는 것입니다. 본 연구는 훈련-테스팅 패러다임22에 체크 세션(checking session)을 추가하여 이를 검증하는 것을 목표로 한다.

이 연구가 다루고자 하는 또 다른 핵심 질문은 언어 운율이 있을 때 화자 식별의 견고성입니다. 이전의 행동 연구는 청취자가 서로 다른 운율에 걸쳐 화자를 인식하는 데 특히 어려움을 겪는다는 것을 시사했는데, 이는 운율 맥락의 조절적 역할, 즉 청취자는 다양한 훈련 테스트 운율 조건에서 저조한 성과를 보였습니다. 본 연구는 청자가 자신감 있는 또는 의심스런 운율에서 친숙한 화자를 인식하도록 노출시킴으로써 이를 검증하는 것을 목표로 한다24. 이 연구는 관찰된 ERP 차이가 음성 운율이 ID 인식에 미치는 영향을 설명하는 데 도움이 될 것으로 기대합니다.

본 연구의 핵심 목적은 화자 인식에서 구/신 효과의 견고성을 조사하고, 특히 자신감 있는 운율과 의심스러운 운율에서 발화자를 인식하는 데 차이가 있는지 여부를 조사하는 것입니다. Xu와 Armony10은 훈련-테스트 패러다임을 사용하여 행동 연구를 수행했으며, 그들의 연구 결과는 청취자가 운율 차이를 극복할 수 없으며(예: 중립 운율에서 발화자를 인식하도록 훈련받은 후 두려운 운율에서 테스트) 확률 수준10 미만의 정확도만 달성할 수 있음을 시사합니다. 음향 분석에 따르면 다양한 감정 상태를 표현하는 스피커는 VTL/F0 변조와 관련이 있습니다. 예를 들어, 자신감 있는 운율은 VTL이 길어지고 F0가 낮아지는 것이 특징인 반면, 의심스런 운율11,24의 경우 그 반대입니다. 또 다른 증거는 Lavan et al.23의 연구에서 나온 것으로, 청취자는 화자의 VTL 및 F0 변화에 적응하고 화자의 평균 기반 표현을 형성할 수 있음을 확인했습니다. 이 연구는 행동 데이터 관점에서 청취자가 운율 전반에 걸쳐 화자의 정체성을 여전히 인식할 가능성이 있음을 조정합니다(예: 자신감 있는 운율에서 자신을 인식하도록 훈련받았지만 의심스러운 운율에서 테스트됨, 준비 중인 별도의 원고에 보고됨). 그러나 화자 식별의 신경 상관 관계, 특히 Zäske et al.22이 관찰한 이전/새로운 효과의 일반화 가능성은 여전히 불분명합니다. 따라서 현재 연구는 테스트를 위한 맥락으로 확신에 찬 운율과 의심스러운 운율에서 이전/새로운 효과의 견고성을 검증하는 데 전념하고 있습니다.

이 연구는 구/신 효과 연구에서 기존 연구 패러다임에서 벗어난 것을 소개합니다. 과거의 연구는 오래된/새로운 화자 인식이 인식에 미치는 영향에 초점을 맞췄지만, 이 연구는 패러다임에 두 가지 자신감 수준(확신 대 의심)을 통합함으로써 이를 확장했습니다(따라서 2+2 연구). 이를 통해 우리는 자신감 있고 의심스러운 언어 운율의 맥락에서 화자 인식을 조사할 수 있습니다. 이 패러다임은 이전/새로운 효과의 견고성을 탐구할 수 있게 해줍니다. 자신감 있는 음성 맥락과 의심스러운 음성 맥락 모두에서 기억 효과와 관심 영역(ROI)에 대한 분석은 이 조사의 증거로 사용됩니다.

전체적으로, 이 연구는 1) 언어 내용이 동일하지 않고 2) 확신 대 의심 운율이 있는 경우에도 EEG 이전/새 효과의 확대된 LPC가 관찰 가능하다는 가설을 통해 음성 인식의 EEG 상관 관계에 대한 이해를 업데이트하는 것을 목표로 합니다. 본 연구는 3단계 패러다임을 통해 가설을 조사하였다. 첫째, 훈련 단계에서 참가자들은 세 가지 목소리와 그에 해당하는 이름 사이의 연관성을 확립했습니다. 그 후, 확인 단계에서 그들은 3명의 후보 중에서 선택한 음성에 해당하는 이름을 식별하는 임무를 맡았습니다. Lavan et al.23에 따른 이러한 점검은 훈련 단계와 테스트 단계의텍스트가 다를 때 관찰되지 않는 오래된 화자 친숙화(old speaker familiarization)가 불충분하고6, 발화자가 중립적이고 두려운 운율(prosodies)을 가로지르는 발화자를 인식할 수 없을 때 관찰되지 않는 오래된 화자에 대한 친숙함을 극복하는 것을 목표로 한다10. 마지막으로, 테스트 단계에서 참가자들은 두 가지 대안 강제 선택 과제에서 세 가지 기존 화자 목소리와 세 가지 새로운 화자 목소리를 구별했으며, 언어 운율은 자신감 있거나 의심스러운 것으로 제시되었습니다. EEG 데이터는 64채널 EEG 시스템을 사용하여 수집되었으며 분석 전에 전처리를 거쳤습니다. 통계 분석과 ERP(Event-related Potential) 분석은 RStudio에서 수행되었으며, MATLAB은 뇌 지형 분석에 활용되었습니다.

디자인 세부사항과 관련하여, 본 연구는 VTL과 관련이 있고 말하는 사람에 대한 인상에 영향을 미치는 화자의 키를 조절하는 화자 정체성 학습 실험을 제안한다23. 이러한 측면은 또한 인지된 지배력(perceived dominance)25과 같은 사회적 인상에 영향을 미치며, 이러한 높은 수준의 인상 형성은 화자 정체성(화자 정체성)26을 해독하는 것과 상호작용할 수 있다.

Protocol

상하이국제대학(Shanghai International Studies University)의 언어학 연구소(Institute of Linguistics)의 윤리위원회(Ethics Committee)는 아래에 설명된 실험 설계를 승인했다. 이 연구에 대한 모든 참가자로부터 정보에 입각한 동의를 얻었습니다. 1. 오디오 라이브러리의 준비 및 검증 오디오 녹음 및 편집이전 영어 버전을 만드는 표준 절차에 따라 중국어 음성 데이터베…

Representative Results

고전적인 구/신 효과는 테스트 세션의 음성 내용이 훈련 세션의 내용과 일치할 때, 특히 새로운 발화자 조건(22)과 비교하여 이전 발화자 조건에서 Pz 전극(300 내지 700ms 사이)에서 청취자의 뇌 활동이 크게 증가하는 것이 특징이다. 이 프로토콜은 이 효과의 업데이트된 버전을 공개합니다: 첫째, 400에서 850ms 사이의 새로운 발화자 상태와 비교하여 이전 상태에 대한 Pz 전극과 전체 ?…

Discussion

이 연구는 EEG 데이터 수집 및 분석을 위한 파이프라인을 제시하며, 이전에 학습된 화자 정체성을 인식하는 데 중점을 둡니다. 본 연구는 학습 단계와 인식 단계 간의 차이를 다루는데, 여기에는 말하기 내용22 과 운율10의 차이도 포함된다. 이 디자인은 대명사 및 아나포릭 처리(anaphoric processing)와 같은 심리언어학을 포함한 다양한 연구 분야에 적용할 수 있다(<su…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

이 연구는 중국 자연 과학 재단 (Grant No. 31971037)의 지원을 받았습니다. 상하이 교육 발전 재단 (Shanghai Education Development Foundation)과 상하이시 교육위원회 (Shanghai Municipal Education Committee)가 지원하는 Shuguang 프로그램 (보조금 번호 20SG31); 상하이 자연과학재단(22ZR1460200); Shanghai International Studies University (2022113001)의 감독자지도 프로그램; 중국 국가사회과학재단(National Social Science Foundation of China)의 주요 프로그램(보조금 번호 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

Referenzen

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Diesen Artikel zitieren
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video