Summary

イベント関連ポテンシャル分析を用いた表現力豊かな音声におけるロバストな音声同一認識のための暗記ベース訓練とテストパラダイム

Published: August 09, 2024
doi:

Summary

この研究では、自信のある韻律シナリオと疑わしい韻律シナリオにおけるイベント関連の可能性の古い/新しい影響を調査するためのトレーニングテストパラダイムを導入しています。データは、Pzおよび他の電極で400〜850ミリ秒の間に強化された遅延正極成分を明らかにしています。このパイプラインでは、音声の韻律を超えた要因と、それらがキューバインディングターゲットの同定に与える影響を探ることができます。

Abstract

音声ストリームから馴染みのある話者を認識することは、人間の言語コミュニケーションの基本的な側面です。しかし、聞き手が表現力豊かなスピーチで話し手のアイデンティティをどのように識別できるかは不明のままです。本研究では、記憶に基づく個々の話者識別認識アプローチと、聞き手が聞き覚えのある話者をどのように認識し、聞き慣れない話者を区別するかを監視する、付随する脳波(EEG)データ分析パイプラインを開発します。EEGデータは、音声に基づいて新旧の話者の区別中にオンライン認知プロセスをキャプチャし、脳活動のリアルタイム測定を提供し、反応時間と精度測定の限界を克服します。パラダイムは3つのステップで構成されています:リスナーは3つの声とその名前の間の関連付けを確立します(トレーニング)。リスナーは、3つの候補からの音声に対応する名前を示します(チェック中)。リスナーは、2 つの代替の強制選択タスク (テスト) で 3 つの古い話者の声と 3 つの新しい話者の声を区別します。テストでのスピーチの韻律は、自信があるか疑わしいかのどちらかでした。脳波データは、64チャンネルの脳波システムを使用して収集され、その後前処理が行われ、ERPと統計解析のためにRStudioにインポートされ、脳のトポグラフィーのためにMATLABにインポートされました。結果は、Pzおよび両方の韻律の他の広範囲の電極の400-850 msウィンドウでの新語者条件と比較して、旧話者で拡大した後期正成分(LPC)が誘発されたことを示しました。それでも、古い/新しい効果は、疑わしい韻律知覚のための中央電極と後電極で堅牢でしたが、前電極、中央電極、および後電極は自信のある韻律状態のためのものです。この研究では、この実験デザインが、さまざまなシナリオ(照応表現など)やフォナグノシアなどの患者の病状における話者固有の手がかり結合効果を調査するための参照として役立つことを提案しています。

Introduction

人間の声の流れは、感情1,2、健康状態3,4、生物学的性別5年齢6、そしてさらに重要なことに、個々の声のアイデンティティ7,8などの情報が豊富です。研究によると、人間のリスナーは、声を通じて仲間のアイデンティティを認識し、区別する強固な能力を持っており、音響空間における話者アイデンティティの平均ベースの表現をめぐる話者内の変動を克服することが示唆されている9。このような変化は、明確な語用論的意図9に対応する音響操作(基本周波数と声道の長さ、すなわちF0とVTL)、感情の韻律10、そして話し手の知った感覚を伝える声の自信11によってもたらされる。行動実験は、言語関連の操作8,12,13、音楽経験や読解能力などの参加者関連の特性14,15、後方発話や非単語16,17などの刺激関連の適応など、聞き手が話し手を認識する際のパフォーマンスに影響を与える多くの要因に焦点を当ててきました。詳細については、文献レビュー18,19をご覧ください。最近のいくつかの実験では、話者のアイデンティティ表現の個々のバリエーションが認識精度をどのように損なうかを調査しており、感情表現力の高低16、中立的な韻律と恐怖の韻律5などの側面を考慮しています。レビュー20で示唆されているように、さらなる調査のために開かれている可能性のあるシナリオ。

最初の研究ギャップについては、この研究は、話者識別の神経学的基盤が、話者内の変動がリスナーの脳活動にどのように挑戦するかをまだ完全には調査していないことを提案しています。例えば、ZäskeらによるfMRIに基づく話者認識課題では、参加者の右後上側頭回(pSTG)、右下/中前頭回(IFG/MFG)、右内側前頭回、および左尾状は、言語内容が同じか異なるかに関係なく、古い話し手と新しい話し手として正しく識別された場合、活性化の低下を示した21.しかし、Zäskeらによる以前の脳波計(EEG)研究では、話者のアイデンティティのバリエーションが異なるテキストを通じて導入された場合、この新旧の影響は観察されなかった22。具体的には、聞き手が同じテキストを表現する(つまり、変化しない言語内容のリプレイを聞く)慣れ親しんだ訓練された話し手に出くわしたときにPz電極で検出された、300〜700ミリ秒の範囲のより大きな遅延正成分(LPC)は、話し手が新しいテキストを配信したときには存在しませんでした。

Zäske et al.21による主張を支持して、この研究では、イベント関連電位(ERP)分析におけるトレーニングセッションとテストセッションの間の言語内容の違いにもかかわらず、古い/新しい効果が依然として観察される可能性があると疑っています。この理論的根拠は、異なるテキストが使用された条件下で、Zäske et al.22に新旧の効果が存在しないのは、Lavan et al.23が示唆しているように、徹底的かつ効果的なアイデンティティ学習を確保するためのトレーニングタスク中の追加のチェックセッションの欠如に起因する可能性があるという考えに由来しています。したがって、この研究の最初の目的は、この仮説を調査し、検証することです。この研究は、トレーニングテストパラダイム22にチェックセッションを追加することにより、これをテストすることを目的としています。

この研究が取り組むことを目指しているもう一つの重要な問題は、音声韻律の存在下での話者識別の堅牢性です。これまでの行動研究では、聞き手は特に異なる韻律の話し手を認識するのに苦労していることが示唆されており、これは韻律の文脈の調節的な役割を示しています。これは、聞き手がさまざまなトレーニングテストの韻律条件でパフォーマンスが低いことを示しています。この研究は、聞き手が自信に満ちた韻律または疑わしい韻律24で馴染みのある話し手を認識するように公開することにより、これをテストすることを目的としています。この研究では、観察されたERPの違いが、音声の韻律がID認識にどのように影響するかを説明するのに役立つと期待しています。

現在の研究の主な目的は、話者認識における新旧の効果の堅牢性を調査することであり、具体的には、自信のある韻律と疑わしい韻律で話し手を認識することに違いがあるかどうかを調べることです。XuとArmony10は、トレーニングテストパラダイムを使用して行動研究を行い、その結果は、聞き手が韻律の違いを克服することができず(たとえば、中立的な韻律で話し手を認識するように訓練され、恐ろしい韻律でテストされた)、偶然のレベル10よりも低い精度しか達成できないことを示唆しています。音響解析は、さまざまな感情状態を表現するスピーカーがVTL/F0変調に関連していることを示しています。たとえば、自信のある韻律は VTL が長くなり、F0 が低くなるという特徴がありますが、疑わしい韻律11,24 ではその逆が当てはまります。もう1つの証拠は、Lavanらの研究から来ています.23、これにより、リスナーは話者のVTLおよびF0の変化に適応し、話し手の平均ベースの表現を形成できることを確認しました。この研究は、行動データの観点から、聞き手は韻律全体で話し手のアイデンティティを認識する可能性が高いことを調和させています(たとえば、自信のある韻律では話し手を認識するように訓練されているが、疑わしい韻律でテストされている、準備中の別の原稿で報告されています)。しかし、話者識別の神経相関、特にZäskeらによって観察された新旧の効果の一般化可能性は不明のままです22。したがって、現在の研究では、テストのコンテキストとして、自信のある韻律と疑わしい韻律における古い/新しい効果の堅牢性を検証することに専念しています。

この研究は、新旧の影響研究における以前の研究パラダイムからの逸脱を導入しています。過去の研究では、新旧の話し手の認識が知覚にどのように影響するかに焦点を当てていましたが、この研究では、2つの信頼レベル(自信と疑わしい)をパラダイムに組み込むことでこれを拡張しました(したがって、2+2研究)。これにより、自信に満ちた韻律と疑わしい韻律の文脈における話者の認識を調査することができます。このパラダイムにより、新旧の効果の堅牢性を探求することができます。自信のある音声文脈と疑わしい音声文脈の両方における記憶効果と関心領域(ROI)の分析は、この調査の証拠として役立ちます。

全体として、この研究は、音声認識のEEG相関の理解を更新することを目的としており、EEGの新旧効果の拡大したLPCは、1)言語内容が同じでない場合でも観察可能であり、2)自信のある韻律と疑わしい韻律の存在でも観察できます。この研究では、3段階のパラダイムを通じて仮説を調査しました。まず、トレーニングフェーズでは、参加者は3つの声とそれに対応する名前の間の関連付けを確立しました。その後、チェックフェーズでは、3つの候補から音声に対応する名前を特定するタスクが課せられました。このチェックは、Lavan et al.23に倣い、トレーニングフェーズとテストフェーズのテキストが異なるときに観察されない古い/新しい影響につながった、不十分な古い話者の習熟を克服することを目的としており、6、話し手は中立的で恐ろしい韻律10の話し手を認識することができませんでした。最後に、テストフェーズでは、参加者は2つの選択肢からなる強制選択課題で、3つの古い話者の声と3つの新しい話者の声を区別し、音声の韻律は自信があるか疑わしいかとして提示されました。脳波データは、64チャンネルの脳波システムを使用して収集され、分析前に前処理が行われました。統計解析とイベント関連ポテンシャル(ERP)解析はRStudioで行い、脳トポグラフィー解析にはMATLABを利用しました。

設計詳細に関しては、本研究では、VTLに関連し、誰が話しているかの印象に影響を与える話し手の身長を制御する話者アイデンティティ学習実験を提案する23。この側面は、知覚された優位性25などの社会的印象にも影響を及ぼし、そのような高レベルの印象形成は、話者のアイデンティティ26の解読と相互作用するかもしれない。

Protocol

上海外国語大学言語学研究所の倫理委員会は、以下の実験計画を承認しました。この研究では、すべての参加者からインフォームド コンセントが得られました。 1. オーディオライブラリの準備と検証 オーディオの録音と編集以前の英語版を作成する標準的な手順に従って中国語のボーカルデータベースを作成し、必要に応じてChina<sup class="xref"…

Representative Results

古典的な新旧の効果は、テストセッションの音声内容がトレーニングセッションの音声内容と一致する場合、特に新しい話し手条件22と比較して古い話し手条件で、Pz電極上のリスナーの脳活動の大幅な増加(300〜700ミリ秒)によって特徴付けられる。このプロトコルは、この効果の更新バージョンを明らかにします:まず、400〜850ミリ秒の間に、新しいトーカー状態と比較して…

Discussion

この研究は、以前に学習した話者の身元を認識することに焦点を当てた、EEGデータの収集と分析のパイプラインを示しています。この研究では、音声内容の違い22 と韻律の違い10など、学習段階と認識段階の違いを取り上げます。このデザインは、代名詞や照応処理41などの心理言語学を含むさまざまな研究分野に適応できる。

<p class=…

Disclosures

The authors have nothing to disclose.

Acknowledgements

この研究は、中国自然科学基金会(助成金第31971037号)の支援を受けました。上海教育発展基金会と上海市教育委員会が支援するShuguangプログラム(助成金番号20SG31)。上海自然科学基金会(22ZR1460200);上海外国語大学(2022113001)のスーパーバイザーガイダンスプログラム。中国国家社会科学基金会の主要プログラム(助成金番号18ZDA293)。

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

References

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Cite This Article
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video