Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

JoVE Journal > Behavior

Please note that all translations are automatically generated. Click here for the English version.

Behavior

Основанная на запоминании парадигма обучения и тестирования для надежного распознавания вокальной идентичности в экспрессивной речи с использованием анализа потенциалов, связанных с событиями

Published: August 09, 2024

doi:

10.3791/66913

Wenjun Chen¹, Xiaoming Jiang^1,2

¹Institute of Linguistics,Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence,Shanghai International Studies University

Summary

В исследовании представлена парадигма обучения-тестирования для изучения старых/новых эффектов потенциалов, связанных с событиями, в уверенных и сомнительных просодических сценариях. Данные показывают усиленный поздний положительный компонент между 400-850 мс на Pz и других электродах. Этот конвейер может исследовать факторы, выходящие за рамки речевой просодии, и их влияние на идентификацию мишени.

Abstract

Узнавание знакомых говорящих из голосовых потоков является фундаментальным аспектом вербальной коммуникации человека. Тем не менее, остается неясным, как слушатели все еще могут различить личность говорящего в экспрессивной речи. В этом исследовании разрабатывается основанный на запоминании подход к распознаванию личности индивидуального говорящего и сопутствующий конвейер анализа данных электроэнцефалограммы (ЭЭГ), который отслеживает, как слушатели узнают знакомых говорящих и различают незнакомых. Данные ЭЭГ фиксируют когнитивные процессы в режиме онлайн во время различения новых и старых говорящих на основе голоса, предлагая измерение активности мозга в режиме реального времени, преодолевая ограничения времени реакции и точных измерений. Парадигма состоит из трех этапов: слушатели устанавливают ассоциации между тремя голосами и их именами (обучение); слушатели указывают имя, соответствующее голосу, из трех кандидатов (проверка); Слушатели различают три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором (тестирование). Голосовая просодия при тестировании была либо уверенной, либо сомнительной. Данные ЭЭГ были собраны с помощью 64-канальной системы ЭЭГ с последующей предварительной обработкой и импортированы в RStudio для ERP и статистического анализа и MATLAB для топографии мозга. Результаты показали, что у староговорящего человека был вызван увеличенный поздний положительный компонент (LPC) по сравнению с состоянием новоговорящего в окне 400-850 мс в Pz и других более широком диапазоне электродов в обоих просодиях. Тем не менее, старый/новый эффект был устойчивым в центральном и заднем электродах для сомнительного восприятия просодии, в то время как передний, центральный и задний электроды обеспечивают уверенное состояние просодии. Данное исследование предполагает, что этот дизайн эксперимента может служить эталоном для изучения специфичных для говорящего эффектов связывания сигналов в различных сценариях (например, анафорическая экспрессия) и патологий у пациентов, таких как фонагнозия.

Introduction

Человеческие голосовые потоки богаты информацией, такой как эмоции ^1,2, состояние здоровья ^3,4, биологический пол⁵, возраст⁶ и, что более важно, индивидуальная голосовая идентичность ^7,8. Исследования показали, что слушатели-люди обладают устойчивой способностью узнавать и дифференцировать идентичность своих сверстников с помощью голосов, преодолевая внутриговорящие вариации вокруг среднего представления идентичности говорящего в акустическом пространстве⁹. Такие вариации обусловлены акустическими манипуляциями (основной частотой и длиной голосового тракта, т.е. F0 и VTL), что соответствует отсутствию четких прагматических намерений⁹, эмоциональным просодиям¹⁰ и голосовой уверенности, передающей ощущение знания говорящими¹¹. Поведенческие эксперименты были сосредоточены на многих факторах, влияющих на успеваемость слушателей в распознавании говорящих, включая языковые манипуляции ^8,12,13, характеристики, связанные с участниками, такие как музыкальный опыт или способность к чтению ^14,15, и адаптации, связанные со стимулами, такие как обратная речь или неслова^16,17; Больше можно найти в обзорах литературы ^18,19. В нескольких недавних экспериментах изучалось, как индивидуальные вариации репрезентации идентичности говорящего могут подорвать точность распознавания, учитывая такие аспекты, как высокая и низкая эмоциональная выразительность¹⁶ и нейтральные и боязливые просодия⁵; Другие возможные сценарии открыты для дальнейшего изучения, как это было предложено в обзоре²⁰.

Что касается первого пробела в исследованиях, исследование предполагает, что неврологические основы идентификации говорящего еще не полностью изучены, как вариации внутри говорящего влияют на мозговую деятельность слушателей. Например, в задаче по распознаванию говорящего на основе фМРТ Zäske et al., правая задняя верхняя височная извилина (pSTG), правая нижняя/средняя лобная извилины (IFG/MFG), правая медиальная лобная извилина и левая хвостатая извилины показали сниженную активацию при правильной идентификации как старых по сравнению с новыми говорящими, независимо от того, было ли языковое содержание одинаковым или разным²¹. Тем не менее, более раннее исследование электроэнцефалографии (ЭЭГ), проведенное Zäske et al., не наблюдало этого старого/нового эффекта, когда изменение идентичности говорящего вносилось через различные тексты^. В частности, более крупный, поздний положительный компонент (LPC) в диапазоне от 300 до 700 мс, обнаруживаемый на Pz-электроде, когда слушатели сталкивались со своим знакомым обученным говорящим, произносящим тот же текст (т.е. слышащим повтор с неизменяемым лингвистическим содержанием), отсутствовал, когда говорящие произносили новые тексты.

В поддержку утверждения, сделанного Zäske et ^al.21, это исследование предполагает, что старый/новый эффект все еще может наблюдаться, несмотря на различия в лингвистическом содержании между тренировочными и тестовыми сессиями в анализе потенциала, связанного с событиями (ERP). Это обоснование проистекает из представления о том, что отсутствие эффекта старого/нового у Zäske et ^al.22 в условиях, когда использовались разные тексты, может быть связано с отсутствием дополнительной контрольной сессии во время учебного задания для обеспечения тщательного и эффективного обучения идентичности, как это предлагается в Lavan et ^al.23. Следовательно, первая цель исследования состоит в том, чтобы проверить и подтвердить эту гипотезу. Данное исследование направлено на то, чтобы проверить это путем добавления контрольной сессии к парадигме обучения-тестирования²².

Еще одним ключевым вопросом, на который направлено это исследование, является надежность идентификации говорящего в присутствии речевой просодии. Предыдущие поведенческие исследования показали, что слушателям особенно трудно распознавать говорящих в разных просодиях, что указывает на модулирующую роль просодического контекста – слушатели показали слабые результаты в различных условиях обучения-тестирования просодии. Данное исследование направлено на то, чтобы проверить это, представив слушателям возможность узнавать знакомых собеседников в уверенных или сомневающихся просодиях. В этом исследовании ожидается, что наблюдаемые различия в ERP помогут объяснить, как речевая просодия влияет на распознавание личности.

Основной целью настоящего исследования является изучение надежности старого/нового эффекта в распознавании говорящего, в частности, изучение того, существуют ли различия в распознавании говорящих в уверенных и сомнительных просодиях. Сюй и Армони¹⁰ провели поведенческое исследование с использованием парадигмы обучения-тестирования, и их результаты показывают, что слушатели не могут преодолеть просодические различия (например, обучены распознавать говорящего в нейтральной просодии, а протестированы на пугливой просодии) и могут достичь точности только ниже уровня случайности¹⁰. Акустический анализ показывает, что динамики, выражающие различные эмоциональные состояния, связаны с модуляцией VTL/F0; Например, для уверенной просоды характерно удлинение VTL и снижение F0, тогда как для сомнительной просодия^11,24 верно обратное. Еще одно доказательство получено из исследования Lavan et ^al.23, которое подтвердило, что слушатели могут адаптироваться к изменениям VTL и F0 говорящего и формировать усредненные представления говорящих. Это исследование подтверждает, что с точки зрения поведенческих данных слушатели, скорее всего, все еще узнают личность говорящего в разных просодиях (например, обучены распознавать его в уверенной просодии, но протестированы в сомнительной просодии; сообщается в отдельной рукописи, находящейся в стадии подготовки). Тем не менее, нейронные корреляты идентификации говорящего, в частности, обобщаемость эффекта старого/нового, наблюдаемого Zäske et ^al.22, остаются неясными. Следовательно, настоящее исследование направлено на проверку надежности старого/нового эффекта в уверенных и сомнительных просодиях в качестве контекстов для тестирования.

Исследование представляет собой отход от предыдущих исследовательских парадигм в исследованиях старых/новых эффектов. В то время как прошлые исследования были сосредоточены на том, как распознавание старого/нового говорящего влияет на восприятие, это исследование расширяет эту теорию, включая два уровня уверенности (уверенный и сомневающийся) в парадигму (таким образом, исследование 2+2). Это позволяет исследовать распознавание говорящего в контексте уверенных и сомнительных речевых просодий. Эта парадигма позволяет исследовать надежность старых/новых эффектов. Анализ эффектов памяти и областей интереса (ROI) как в контексте уверенной, так и сомнительной речи служит доказательством для этого исследования.

В целом, исследование направлено на актуализацию представлений о коррелятах ЭЭГ распознавания голоса, с гипотезой о том, что увеличенный ЛПК старого/нового эффекта ЭЭГ наблюдается даже при 1) неодинаковом языковом содержании и 2) при наличии уверенной и сомнительной просодии. В этом исследовании гипотезы изучались через трехступенчатую парадигму. Во-первых, на этапе обучения участники установили ассоциации между тремя голосами и соответствующими им именами. Впоследствии, на этапе проверки, им было поручено определить имя, соответствующее голосу, из трех кандидатов. Эта проверка, вслед за Lavan et ^al.23, направлена на преодоление недостаточного освоения старого говорящего, что приводило к ненаблюдаемому эффекту старого/нового^{, когда} текст на этапах обучения и тестирования отличался 6, и говорящие не могли распознать говорящих в нейтральных и боязливых просодиях¹⁰. Наконец, на этапе тестирования участники различали три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором, при этом просодия речи представлялась либо уверенной, либо сомнительной. Данные ЭЭГ собирали с помощью 64-канальной ЭЭГ-системы и подвергали предварительной обработке перед анализом. Статистический анализ и анализ событийного потенциала (ERP) проводились в RStudio, в то время как MATLAB использовался для анализа топографии мозга.

Что касается деталей дизайна, в этом исследовании предлагается эксперимент по обучению идентичности говорящего, который контролирует рост говорящего, который связан с VTL и влияет на впечатление от того, кто говорит²³. Этот аспект также влияет на социальные впечатления, такие как воспринимаемое доминирование²⁵, и такое формирование впечатлений более высокого уровня может взаимодействовать с декодированием идентичности^{говорящего26}.

Protocol

Комитет по этике Института лингвистики Шанхайского университета международных исследований одобрил описанную ниже схему эксперимента. Для участия в этом исследовании было получено информированное согласие всех участников. 1. Подготовка и валидация аудиотеки</…

Representative Results

Классический эффект «старый/новый» характеризуется значительным увеличением мозговой активности слушателей на Pz-электроде (от 300 до 700 мс), когда содержание речи в тестовой сессии совпадает с речевым во время учебной сессии, особенно в состоянии старого говорящего по сравнению с новым …

Discussion

В исследовании представлен конвейер для сбора и анализа данных ЭЭГ, уделяя особое внимание распознаванию ранее изученных идентичностей говорящих. В этом исследовании рассматриваются различия между фазами обучения и узнавания, в том числе различия в содержании речи²² и<sup c…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Работа выполнена при поддержке Фонда естественных наук Китая (грант No 31971037); программа «Шугуан» при поддержке Шанхайского фонда развития образования и Шанхайского муниципального комитета по образованию (грант No 20SG31); Шанхайский фонд естественных наук (22ZR1460200); Программа ориентации супервайзеров Шанхайского университета международных исследований (2022113001); и Крупная программа Национального фонда социальных наук Китая (грант No 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

References

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
. Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Automatically Generated

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Cite This Article

View Video

Automatically Generated

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below