Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

JoVE Journal > Behavior

Please note that all translations are automatically generated. Click here for the English version.

Verhalten

Paradigma de entrenamiento y prueba basado en la memorización para el reconocimiento robusto de la identidad vocal en el habla expresiva mediante el análisis de potenciales relacionados con eventos

Published: August 09, 2024

doi:

10.3791/66913

Wenjun Chen¹, Xiaoming Jiang^1,2

¹Institute of Linguistics,Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence,Shanghai International Studies University

Summary

El estudio introduce un paradigma de pruebas de entrenamiento para investigar los efectos antiguos/nuevos de los potenciales relacionados con eventos en escenarios prosódicos seguros y dudosos. Los datos revelan un componente positivo tardío mejorado entre 400-850 ms en Pz y otros electrodos. Esta canalización puede explorar factores más allá de la prosodia del habla y su influencia en la identificación de objetivos de enlace de señales.

Abstract

Reconocer a los hablantes conocidos de las corrientes vocales es un aspecto fundamental de la comunicación verbal humana. Sin embargo, sigue sin estar claro cómo los oyentes pueden discernir la identidad del hablante en el habla expresiva. Este estudio desarrolla un enfoque de reconocimiento de identidad de hablante individual basado en la memorización y un canal de análisis de datos de electroencefalograma (EEG) que monitorea cómo los oyentes reconocen a los hablantes conocidos y distinguen a los desconocidos. Los datos de EEG capturan los procesos cognitivos en línea durante la distinción entre los nuevos y los antiguos hablantes en función de la voz, lo que ofrece una medida en tiempo real de la actividad cerebral, superando los límites de los tiempos de reacción y mediciones de precisión. El paradigma comprende tres pasos: los oyentes establecen asociaciones entre tres voces y sus nombres (entrenamiento); los oyentes indican el nombre correspondiente a una voz de tres candidatos (comprobación); Los oyentes distinguen entre tres voces antiguas y tres nuevas en una tarea de elección forzada de dos alternativas (prueba). La prosodia del habla en las pruebas fue confiada o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales, seguido de preprocesamiento e importado a RStudio para ERP y análisis estadístico y MATLAB para topografía cerebral. Los resultados mostraron que se produjo un componente positivo tardío (LPC) agrandado en el hablante antiguo en comparación con la condición del hablante nuevo en la ventana de 400-850 ms en el Pz y otra gama más amplia de electrodos en ambas prosodias. Sin embargo, el efecto antiguo/nuevo fue robusto en los electrodos central y posterior para la percepción dudosa de la prosodia, mientras que los electrodos anterior, central y posterior son para la condición de prosodia segura. Este estudio propone que este diseño de experimento puede servir como referencia para investigar los efectos de unión de señales específicos del hablante en diversos escenarios (por ejemplo, expresión anafórica) y patologías en pacientes como la fonagnosia.

Introduction

Los flujos vocales humanos son ricos en información, como la emoción ^1,2, el estado de salud ^3,4, el sexo biológico⁵, la edad⁶ y, lo que es más importante, la identidad vocal individual ^7,8. Los estudios han sugerido que los oyentes humanos tienen una capacidad robusta para reconocer y diferenciar las identidades de sus pares a través de las voces, superando las variaciones dentro del hablante en torno a la representación basada en la identidad del hablante en^{el espacio acústico}. Tales variaciones son provocadas por la manipulación acústica (frecuencia fundamental y longitud del tracto vocal, es decir, F0 y VTL) que corresponde a intenciones pragmáticas no claras⁹, prosodias emocionales¹⁰ y confianza vocal que transmite la sensación de conocimiento de los hablantes¹¹. Los experimentos conductuales se han centrado en muchos factores que influyen en el rendimiento de los oyentes para reconocer a los hablantes, incluidas las manipulaciones relacionadas con el lenguaje ^8,12,13, las características relacionadas con los participantes, como la experiencia musical o la capacidad de lectura^14,15, y las adaptaciones relacionadas con estímulos, como el habla al revés o las no palabras^16,17; Se puede encontrar más en Revisiones de la literatura^18,19. Algunos experimentos recientes han investigado cómo la variación individual de la representación de la identidad del hablante podría socavar la precisión del reconocimiento, considerando aspectos que incluyen la expresividad emocional alta frente a la baja¹⁶ y las prosodias neutras frente a las temerosas⁵; Se abren más escenarios posibles para una investigación más profunda, como lo sugiere una revisión²⁰.

Para la primera brecha de investigación, el estudio propone que los fundamentos neurológicos de la identificación del hablante aún no han explorado completamente cómo la variación dentro del hablante desafía las actividades cerebrales de los oyentes. Por ejemplo, en una tarea de reconocimiento de hablantes basada en fMRI realizada por Zäske et al., la circunvolución temporal superior posterior derecha (pSTG), la circunvolución frontal inferior/media derecha (IFG/MFG), la circunvolución frontal medial derecha y el caudado izquierdo mostraron una activación reducida cuando se identificaron correctamente como hablantes viejos frente a nuevos, independientemente de que el contenido lingüístico fuera el mismo o diferente²¹. Sin embargo, un estudio anterior de electroencefalografía (EEG) realizado por Zäske et al. no observó este efecto antiguo/nuevo cuando se introdujo la variación de la identidad del hablante a través de diferentes textos²². Específicamente, un componente positivo tardío (LPC) más grande que oscila entre 300 y 700 ms, detectado en el electrodo Pz cuando los oyentes se encontraron con su hablante entrenado familiar que expresaba el mismo texto (es decir, escuchando una repetición con contenido lingüístico no variado), estaba ausente cuando los hablantes entregaban nuevos textos.

En apoyo de la afirmación de Zäske et ^al.21, este estudio sospecha que aún se puede observar un efecto antiguo/nuevo a pesar de las diferencias en el contenido lingüístico entre las sesiones de entrenamiento y las de prueba en los análisis de potencial relacionado con eventos (ERP). Este razonamiento se deriva de la noción de que la ausencia del efecto viejo/nuevo en Zäske et ^al.22, en condiciones en las que se utilizaron textos diferentes, puede atribuirse a la falta de una sesión de verificación adicional durante la tarea de entrenamiento para garantizar un aprendizaje exhaustivo y efectivo de la identidad, como sugieren Lavan et ^al.23. En consecuencia, el primer objetivo del estudio es examinar y validar esta hipótesis. Este estudio tiene como objetivo probar esto mediante la adición de una sesión de verificación al paradigma de entrenamiento-prueba²².

Otra cuestión clave que este estudio pretende abordar es la robustez de la identificación del hablante en presencia de prosodia del habla. Estudios conductuales previos han sugerido que los oyentes tienen dificultades para reconocer a los hablantes a través de diferentes prosodias, lo que indica un papel modulador del contexto prosódico: los oyentes tuvieron un rendimiento inferior en las diferentes condiciones de prosodia de prueba de entrenamiento. Este estudio tiene como objetivo probar esto exponiendo a los oyentes a reconocer a los hablantes conocidos en prosodias seguras o dudosas²⁴. Este estudio espera que las diferencias observadas en la ERP ayuden a explicar cómo la prosodia del habla influye en el reconocimiento de identidad.

El objetivo principal del presente estudio es investigar la robustez del efecto antiguo/nuevo en el reconocimiento del hablante, examinando específicamente si existen diferencias en el reconocimiento de los hablantes en las prosodias seguras frente a las dudosas. Xu y Armony¹⁰ realizaron un estudio conductual utilizando un paradigma de entrenamiento-prueba, y sus hallazgos sugieren que los oyentes no pueden superar las diferencias prosódicas (por ejemplo, entrenados para reconocer a un hablante en prosodia neutral y probados en prosodia temerosa) y solo pueden lograr una precisión inferior al nivel de probabilidad¹⁰. El análisis acústico indica que los altavoces que expresan estados emotivos variados se asocian con la modulación VTL/F0; por ejemplo, la prosodia segura se caracteriza por un VTL alargado y una F0 más baja, mientras que lo contrario ocurre con la prosodia dudosa^11,24. Otra evidencia proviene del estudio de Lavan et ^al.23, que confirmó que los oyentes pueden adaptarse a los cambios VTL y F0 del hablante y formar representaciones basadas en el promedio de los hablantes. Este estudio concilia que, desde una perspectiva de datos conductuales, es probable que los oyentes aún reconozcan la identidad del hablante a través de las prosodias (por ejemplo, entrenados para reconocer a uno en una prosodia segura pero probados en una prosodia dudosa; informados en un manuscrito separado en preparación). Sin embargo, los correlatos neuronales de la identificación del hablante, específicamente la generalizabilidad del efecto viejo/nuevo observado por Zäske et ^al.22, siguen sin estar claros. Por lo tanto, el presente estudio se compromete a validar la robustez del efecto antiguo/nuevo en las prosodias seguras frente a las dudosas como contextos para las pruebas.

El estudio introduce una desviación de los paradigmas de investigación anteriores en los estudios de efectos antiguos/nuevos. Mientras que las investigaciones anteriores se centraron en cómo el reconocimiento de los hablantes viejos/nuevos influye en la percepción, este estudio amplía esto incorporando dos niveles de confianza (seguro versus dudoso) en el paradigma (por lo tanto, un estudio 2 + 2). Esto nos permite investigar el reconocimiento del hablante en los contextos de las prosodias del habla seguras y dudosas. El paradigma permite explorar la robustez de los efectos antiguos/nuevos. Los análisis de los efectos de la memoria y las regiones de interés (ROI) dentro de los contextos de habla segura y dudosa sirven como evidencia para esta investigación.

En conjunto, el estudio tiene como objetivo actualizar la comprensión de los correlatos del EEG del reconocimiento de voz, con las hipótesis de que el LPC ampliado del efecto antiguo/nuevo del EEG es observable incluso cuando 1) el contenido lingüístico no es el mismo, y 2) con la presencia de prosodia segura frente a dudosa. Este estudio investigó las hipótesis a través de un paradigma de tres pasos. En primer lugar, durante la fase de formación, los participantes establecieron asociaciones entre tres voces y sus correspondientes nombres. Posteriormente, en la fase de comprobación, se les encargó identificar el nombre correspondiente a una voz de una selección de tres candidatos. Esta comprobación, siguiendo a Lavan et ^al.23, tiene como objetivo superar la insuficiente familiarización con el hablante antiguo, que condujo al efecto antiguo/nuevo no observado cuando el texto en las fases de entrenamiento y prueba difería⁶, y los hablantes no podían reconocer a los hablantes a través de prosodias neutrales y temerosas¹⁰. Finalmente, en la fase de prueba, los participantes distinguieron entre tres voces de hablantes antiguos y tres nuevos en una tarea de elección forzada de dos alternativas, con la prosodia del habla presentada como segura o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales y se sometieron a un preprocesamiento antes del análisis. El análisis estadístico y el análisis de potencial relacionado con eventos (ERP) se llevaron a cabo en RStudio, mientras que MATLAB se utilizó para el análisis de la topografía cerebral.

En cuanto a los detalles de diseño, este estudio propone un experimento de aprendizaje de la identidad del hablante que controla la altura del hablante, que se relaciona con la VTL e influye en las impresiones de quién está hablando²³. Este aspecto también influye en las impresiones sociales, como la dominancia percibida²⁵, y la formación de impresiones de nivel superior podría interactuar con la decodificación de la identidad del hablante²⁶.

Protocol

El Comité de Ética del Instituto de Lingüística de la Universidad de Estudios Internacionales de Shanghái ha aprobado el diseño del experimento que se describe a continuación. Se obtuvo el consentimiento informado de todos los participantes para este estudio. 1. Preparación y validación de la audioteca Grabación y edición de audioCree una base de datos de voces chinas siguiendo el procedimiento estándar de hacer una versión anterior en inglés mi…

Representative Results

El clásico efecto viejo/nuevo se caracteriza por un aumento significativo en la actividad cerebral de los oyentes en el electrodo Pz (entre 300 y 700 ms) cuando el contenido del habla de la sesión de prueba coincide con el de la sesión de entrenamiento, particularmente en la condición de hablante antiguo en comparación con la condición de hablante nuevo22. El protocolo revela una versión actualizada de este efecto: en primer lugar, la observación de tendencias positivas más grandes en el …

Discussion

El estudio presenta una línea para la recopilación y el análisis de datos de EEG, centrándose en el reconocimiento de las identidades de los hablantes previamente aprendidas. Este estudio aborda las variaciones entre las fases de aprendizaje y reconocimiento, incluidas las diferencias en el contenido del habla²² y la prosodia¹⁰. El diseño es adaptable a una variedad de campos de investigación, incluida la psicolingüística, como el procesamiento de pronombres y anafo…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Este trabajo contó con el apoyo de la Fundación de Ciencias Naturales de China (Subvención Nº 31971037); el Programa Shuguang, apoyado por la Fundación para el Desarrollo de la Educación de Shanghái y el Comité Municipal de Educación de Shanghái (Subvención Nº 20SG31); la Fundación de Ciencias Naturales de Shanghái (22ZR1460200); el Programa de Orientación para Supervisores de la Universidad de Estudios Internacionales de Shanghái (2022113001); y el Programa Principal de la Fundación Nacional de Ciencias Sociales de China (Subvención Nº 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Referenzen

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
. Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Paradigma de entrenamiento y prueba basado en la memorización para el reconocimiento robusto de la identidad vocal en el habla expresiva mediante el análisis de potenciales relacionados con eventos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Offenlegungen

Acknowledgements

Materials

Referenzen

Tags

Diesen Artikel zitieren

View Video

Paradigma de entrenamiento y prueba basado en la memorización para el reconocimiento robusto de la identidad vocal en el habla expresiva mediante el análisis de potenciales relacionados con eventos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Offenlegungen

Acknowledgements

Materials

Referenzen

Tags

Diesen Artikel zitieren

View Video

✖

To prove you're not a robot, please enter the text in the image below