Summary

Gedächtnisbasiertes Trainings- und Testparadigma für eine robuste stimmliche Identitätserkennung in expressiver Sprache unter Verwendung der ereigniskorrelierten Potentialanalyse

Published: August 09, 2024
doi:

Summary

Die Studie führt ein Trainings-Test-Paradigma ein, um alte/neue Effekte ereigniskorrelierter Potentiale in zuversichtlichen und zweifelhaften prosodischen Szenarien zu untersuchen. Die Daten zeigen eine erhöhte späte positive Komponente zwischen 400 und 850 ms an Pz und anderen Elektroden. Diese Pipeline kann Faktoren untersuchen, die über die Sprachprosodie hinausgehen, und ihren Einfluss auf die Identifizierung von Zielmolekülen bei der Signalbindung.

Abstract

Das Erkennen vertrauter Sprecher anhand von Stimmströmen ist ein grundlegender Aspekt der menschlichen verbalen Kommunikation. Unklar bleibt allerdings, wie Zuhörer die Identität des Sprechers in ausdrucksstarker Sprache noch erkennen können. In dieser Studie wird ein auf dem Auswendiglernen basierender Ansatz zur Erkennung der Identität einzelner Sprecher und eine begleitende Elektroenzephalogramm (EEG)-Datenanalysepipeline entwickelt, die überwacht, wie Zuhörer vertraute Sprecher erkennen und unbekannte Sprecher auseinanderhalten. EEG-Daten erfassen kognitive Online-Prozesse bei der Unterscheidung zwischen neuen und alten Sprechern auf der Grundlage der Stimme und bieten eine Echtzeitmessung der Gehirnaktivität, die Überwindung von Grenzen der Reaktionszeiten und Genauigkeitsmessungen. Das Paradigma umfasst drei Schritte: Die Zuhörer stellen Assoziationen zwischen drei Stimmen und ihren Namen her (Training); Die Zuhörer geben den Namen an, der einer Stimme von drei Kandidaten entspricht (Prüfen); Die Zuhörer unterscheiden zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe (Testing). Die Sprachprosodie im Test war entweder zuversichtlich oder zweifelhaft. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System gesammelt, anschließend vorverarbeitet und in RStudio für ERP und statistische Analysen und MATLAB für die Hirntopographie importiert. Die Ergebnisse zeigten, dass eine vergrößerte späte positive Komponente (LPC) im Old-Talker im Vergleich zum New-Talker-Zustand im 400-850-ms-Fenster im Pz und anderen breiteren Elektrodenbereichen in beiden Prosodien hervorgerufen wurde. Der alte/neue Effekt war jedoch in den zentralen und hinteren Elektroden robust für eine zweifelhafte Prosodiewahrnehmung, während die vorderen, zentralen und hinteren Elektroden für einen sicheren Prosodiezustand stehen. Diese Studie schlägt vor, dass dieses Versuchsdesign als Referenz für die Untersuchung sprecherspezifischer Signalbindungseffekte in verschiedenen Szenarien (z.B. anaphorische Expression) und Pathologien bei Patienten wie Phonagnosie dienen kann.

Introduction

Menschliche Stimmströme sind reich an Informationen, wie z. B. Emotion 1,2, Gesundheitszustand 3,4, biologisches Geschlecht5, Alter6 und, was noch wichtiger ist, die individuelle stimmliche Identität 7,8. Studien haben gezeigt, dass menschliche Zuhörer über eine robuste Fähigkeit verfügen, die Identitäten ihrer Altersgenossen anhand von Stimmen zu erkennen und zu unterscheiden, wodurch Schwankungen innerhalb des Sprechers in Bezug auf die durchschnittlich basierte Repräsentation der Sprecheridentität im akustischen Raum überwundenwerden 9. Solche Variationen werden durch akustische Manipulation (Grundfrequenz und Länge des Vokaltrakts, d.h. F0 und VTL) hervorgerufen, die keinen klaren pragmatischen Absichten entspricht9, Emotionsprosodien10 und stimmliches Selbstvertrauen, das das Gefühl des Wissens der Sprecher vermittelt11. Verhaltensexperimente haben sich auf viele Faktoren konzentriert, die die Leistung der Zuhörer beim Erkennen der Sprechenden beeinflussen, einschließlich sprachbezogener Manipulationen 8,12,13, teilnehmerbezogener Merkmale wie Musikerfahrung oder Lesefähigkeit14,15 und reizbezogener Anpassungen wie Rückwärtssprechen oder Nichtwörter16,17; Mehr dazu finden Sie in den Literaturübersichten18,19. In einigen neueren Experimenten wurde untersucht, wie individuelle Variationen der Repräsentation der Sprecheridentität die Erkennungsgenauigkeit untergraben können, wobei Aspekte wie hohe und niedrige emotionale Ausdrucksfähigkeit16 und neutrale versus ängstliche Prosodien5 berücksichtigt wurden. Weitere mögliche Szenarien können weiter untersucht werden, wie in einem Berichtvorgeschlagen wird 20.

Für die erste Forschungslücke schlägt die Studie vor, dass die neurologischen Grundlagen der Sprecheridentifikation noch nicht vollständig erforscht sind, wie die Variation innerhalb des Sprechers die Gehirnaktivitäten der Zuhörer herausfordert. In einer fMRT-basierten Sprechererkennungsaufgabe von Zäske et al. zeigten beispielsweise der rechte hintere Gyrus temporalis (pSTG), der rechte untere/mittlere frontale Gyrus (IFG/MFG), der rechte mediale frontale Gyrus und der linke Caudatus eine verminderte Aktivierung, wenn sie korrekt als alte oder neue Sprechende identifiziert wurden, unabhängig davon, ob der sprachliche Inhalt gleich oder unterschiedlich war21. Eine frühere Elektroenzephalographie (EEG)-Studie von Zäske et al. beobachtete diesen alten/neuen Effekt jedoch nicht, wenn die Variation der Sprecheridentität durch verschiedene Texte eingeführt wurde22. Insbesondere fehlte eine größere, späte positive Komponente (LPC) im Bereich von 300 bis 700 ms, die an der Pz-Elektrode nachgewiesen wurde, wenn Zuhörer auf ihren vertrauten trainierten Sprecher trafen, der denselben Text ausdrückte (d. h. eine Wiederholung mit nicht verändertem sprachlichem Inhalt hörte), wenn die Sprecher neue Texte lieferten.

Zur Untermauerung der Behauptung von Zäske et al.21 vermutet diese Studie, dass trotz unterschiedlicher sprachlicher Inhalte zwischen Trainings- und Testsitzungen in ereigniskorrelierten Potenzialanalysen (ERP) immer noch ein alter/neuer Effekt beobachtet werden kann. Diese Begründung beruht auf der Vorstellung, dass das Fehlen des alten/neuen Effekts in Zäske et al.22 unter Bedingungen, unter denen unterschiedliche Texte verwendet wurden, auf das Fehlen einer zusätzlichen Kontrollsitzung während der Trainingsaufgabe zurückzuführen sein könnte, um ein gründliches und effektives Identitätslernen zu gewährleisten, wie von Lavan et al.23 vorgeschlagen. Folglich besteht das erste Ziel der Studie darin, diese Hypothese zu überprüfen und zu validieren. Diese Studie zielt darauf ab, dies zu testen, indem sie dem Trainings-Test-Paradigma22 eine Überprüfungssitzung hinzufügt.

Eine weitere Schlüsselfrage, die in dieser Studie beantwortet werden soll, ist die Robustheit der Sprecheridentifikation in Gegenwart von Sprachprosodie. Frühere Verhaltensstudien haben gezeigt, dass Zuhörer besonders Schwierigkeiten haben, Sprecher über verschiedene Prosodien hinweg zu erkennen, was auf eine modulatorische Rolle des prosodischen Kontexts hinweist – Zuhörer schnitten in den verschiedenen Trainingstest-Prosodiebedingungen unterdurchschnittlich ab. Diese Studie zielt darauf ab, dies zu testen, indem Zuhörer dazu gebracht werden, vertraute Sprecher entweder in selbstbewussten oder zweifelnden Prosodien zu erkennen24. Diese Studie geht davon aus, dass die beobachteten ERP-Unterschiede dazu beitragen werden, zu erklären, wie die Sprachprosodie die Identitätserkennung beeinflusst.

Das Kernziel der vorliegenden Studie ist es, die Robustheit des alten/neuen Effekts bei der Sprechererkennung zu untersuchen, insbesondere zu untersuchen, ob es Unterschiede beim Erkennen von Sprechern in selbstbewussten und zweifelhaften Prosodien gibt. Xu und Armony10 führten eine Verhaltensstudie mit einem Trainings-Test-Paradigma durch, und ihre Ergebnisse deuten darauf hin, dass Zuhörer prosodische Unterschiede nicht überwinden können (z. B. trainiert, einen Sprecher in neutraler Prosodie zu erkennen und getestet auf ängstlicher Prosodie) und nur eine Genauigkeit unterhalb des Zufallsniveaus10 erreichen können. Die akustische Analyse zeigt, dass Lautsprecher, die unterschiedliche emotionale Zustände ausdrücken, mit der VTL/F0-Modulation verbunden sind. Zum Beispiel ist die zuversichtliche Prosodie durch eine verlängerte VTL und ein niedrigeres F0 gekennzeichnet, während das Gegenteil für die zweifelhafte Prosodie11,24 der Fall ist. Ein weiterer Beweis stammt aus der Studie von Lavan et al.23, die bestätigte, dass Zuhörer sich an VTL- und F0-Veränderungen des Sprechers anpassen und durchschnittliche Repräsentationen der Sprechenden bilden können. Diese Studie kommt zu dem Schluss, dass Zuhörer aus der Perspektive der Verhaltensdaten wahrscheinlich immer noch die Identität des Sprechenden über Prosodien hinweg erkennen (z. B. trainiert, eine Person in einer selbstbewussten Prosodie zu erkennen, aber in einer zweifelhaften Prosodie getestet; berichtet in einem separaten Manuskript zur Vorbereitung). Die neuronalen Korrelate der Sprecheridentifikation, insbesondere die von Zäske et al.22 beobachtete Generalisierbarkeit des alten/neuen Effekts, bleiben jedoch unklar. Daher ist die vorliegende Studie darauf ausgerichtet, die Robustheit des alten/neuen Effekts in zuversichtlichen versus zweifelhaften Prosodien als Kontext für die Prüfung zu validieren.

Die Studie stellt eine Abkehr von bisherigen Forschungsparadigmen in alten/neuen Wirkungsstudien dar. Während sich frühere Forschungen darauf konzentrierten, wie die Erkennung alter/neuer Sprecher die Wahrnehmung beeinflusst, erweitert diese Studie dies, indem sie zwei Konfidenzniveaus (zuversichtlich und zweifelhaft) in das Paradigma einbezieht (daher eine 2+2-Studie). Dies ermöglicht es uns, die Sprechererkennung im Kontext von selbstbewussten und zweifelhaften Sprechprosodien zu untersuchen. Das Paradigma ermöglicht die Erforschung der Robustheit alter/neuer Effekte. Die Analysen von Gedächtniseffekten und Regions of Interest (ROI) sowohl in selbstbewussten als auch in zweifelhaften Sprachkontexten dienen als Evidenz für diese Untersuchung.

Insgesamt zielt die Studie darauf ab, das Verständnis der EEG-Korrelate der Spracherkennung zu aktualisieren, mit der Hypothese, dass der vergrößerte LPC des EEG-Effekts alt/neu auch dann beobachtbar ist, wenn 1) der sprachliche Inhalt nicht derselbe ist und 2) eine sichere versus zweifelhafte Prosodie vorhanden ist. In dieser Studie wurden die Hypothesen anhand eines dreistufigen Paradigmas untersucht. Zunächst stellten die Teilnehmer während der Trainingsphase Assoziationen zwischen drei Stimmen und den entsprechenden Namen her. Anschließend wurden sie in der Prüfphase damit beauftragt, aus einer Auswahl von drei Kandidaten den Namen zu identifizieren, der einer Stimme entspricht. Diese Überprüfung, in Anlehnung an Lavan et al.23, zielt darauf ab, eine unzureichende Vertrautheit mit alten Sprechern zu überwinden, die zu dem unbeobachteten alten/neuen Effekt führte, wenn sich der Text in der Trainings- und Testphase unterschied6 und die Sprecher Sprecher über neutrale und ängstliche Prosodien hinweg nicht erkennen konnten10. In der Testphase schließlich unterschieden die Teilnehmer zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe, wobei die Sprechprosodie entweder als zuversichtlich oder zweifelhaft dargestellt wurde. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System erhoben und vor der Analyse vorverarbeitet. Statistische Analysen und ereigniskorrelierte Potenzialanalysen (ERP) wurden in RStudio durchgeführt, während MATLAB für die Analyse der Hirntopographie verwendet wurde.

In Bezug auf Designdetails schlägt diese Studie ein Lernexperiment zur Sprecheridentität vor, das die Körpergröße des Sprechers kontrolliert, die mit VTL zusammenhängt und die Eindrücke davon beeinflusst, wer spricht23. Dieser Aspekt beeinflusst auch soziale Eindrücke, wie z. B. wahrgenommene Dominanz25, und eine solche Eindrucksbildung auf höherer Ebene könnte mit der Dekodierung der Sprecheridentitätinteragieren 26.

Protocol

Die Ethikkommission des Institute of Linguistics der Shanghai International Studies University hat das unten beschriebene Versuchsdesign genehmigt. Für diese Studie wurde von allen Teilnehmern eine Einverständniserklärung eingeholt. 1. Vorbereitung und Validierung der Audiobibliothek Audioaufnahme und -bearbeitungErstellen Sie eine chinesische Gesangsdatenbank nach dem Standardverfahren, bei dem eine frühere englische Version erstellt wird, und nehmen Sie…

Representative Results

Der klassische Alt-Neu-Effekt zeichnet sich durch eine signifikante Steigerung der Gehirnaktivität der Zuhörer an der Pz-Elektrode (zwischen 300 und 700 ms) aus, wenn der Sprachinhalt der Testsitzung mit dem der Trainingseinheit übereinstimmt, insbesondere in der alten Sprecherbedingung im Vergleich zur neuen Sprecherbedingung22. Das Protokoll enthüllt eine aktualisierte Version dieses Effekts: Zunächst werden größere positive Trends in der Pz-Elektrode und in der gesamten Gehirnregion für…

Discussion

Die Studie stellt eine Pipeline für die EEG-Datenerfassung und -analyse vor, wobei der Schwerpunkt auf der Erkennung zuvor erlernter Sprecheridentitäten liegt. Diese Studie befasst sich mit Variationen zwischen Lern- und Erkennungsphasen, einschließlich Unterschieden im Sprachinhalt22 und in der Prosodie10. Das Design ist an eine Reihe von Forschungsbereichen anpassbar, einschließlich der Psycholinguistik, wie z. B. Pronomen und anaphorische Verarbeitung<sup class="xref…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde unterstützt von der Natural Science Foundation of China (Grant No. 31971037); das Shuguang-Programm, das von der Shanghai Education Development Foundation und dem Shanghai Municipal Education Committee unterstützt wird (Zuschuss Nr. 20SG31); die Natural Science Foundation von Shanghai (22ZR1460200); das Supervisor Guidance Program der Shanghai International Studies University (2022113001); und das Major Program der National Social Science Foundation of China (Grant No. 18ZDA293).

Materials

64Ch Standard BrainCap for BrainAmp Easycap GmbH Steingrabenstrasse 14 DE-82211 https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel Easycap GmbH Abralyt 2000 https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus Brain Products GmbH 64 channels + 8 AUX https://www.brainproducts.com/solutions/actichamp/
Audio Interface Native Instruments GmbH Komplete audio 6 https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips Neuronix ER3-14  https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system Brain Products GmbH BC 01453 https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel  Easycap GmbH SuperVisc https://shop.easycap.de/products/supervisc

References

  1. Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
  2. Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
  3. Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
  4. Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
  5. Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
  6. Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
  7. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
  8. Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
  9. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
  10. Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
  11. Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
  12. Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
  13. Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
  14. Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
  15. Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
  16. Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
  17. White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
  18. Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
  19. Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The oxford handbook of voice perception. , 515-538 (2018).
  20. Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
  21. Zäske, R., Hasan, B. a. S., Belin, P. It doesn’t matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
  22. Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
  23. Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
  24. Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
  25. Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
  26. Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
  27. . Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
  28. Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
  29. Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
  30. Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
  31. Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
  32. . Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
  33. . Brainvision recorder Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
  34. Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
  35. Jiang, X., Pell, M. D. The feeling of another’s knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
  36. Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
  37. Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
  38. Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
  39. Bates, D. Fitting linear mixed models in r. R news. 5 (1), 27-30 (2005).
  40. Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
  41. Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
  42. Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
  43. Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
  44. Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
  45. Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
  46. Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
  47. Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
  48. Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
  49. Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
  50. Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).
This article has been published
Video Coming Soon
Keep me updated:

.

Cite This Article
Chen, W., Jiang, X. Memorization-Based Training and Testing Paradigm for Robust Vocal Identity Recognition in Expressive Speech Using Event-Related Potentials Analysis. J. Vis. Exp. (210), e66913, doi:10.3791/66913 (2024).

View Video