Die Studie führt ein Trainings-Test-Paradigma ein, um alte/neue Effekte ereigniskorrelierter Potentiale in zuversichtlichen und zweifelhaften prosodischen Szenarien zu untersuchen. Die Daten zeigen eine erhöhte späte positive Komponente zwischen 400 und 850 ms an Pz und anderen Elektroden. Diese Pipeline kann Faktoren untersuchen, die über die Sprachprosodie hinausgehen, und ihren Einfluss auf die Identifizierung von Zielmolekülen bei der Signalbindung.
Das Erkennen vertrauter Sprecher anhand von Stimmströmen ist ein grundlegender Aspekt der menschlichen verbalen Kommunikation. Unklar bleibt allerdings, wie Zuhörer die Identität des Sprechers in ausdrucksstarker Sprache noch erkennen können. In dieser Studie wird ein auf dem Auswendiglernen basierender Ansatz zur Erkennung der Identität einzelner Sprecher und eine begleitende Elektroenzephalogramm (EEG)-Datenanalysepipeline entwickelt, die überwacht, wie Zuhörer vertraute Sprecher erkennen und unbekannte Sprecher auseinanderhalten. EEG-Daten erfassen kognitive Online-Prozesse bei der Unterscheidung zwischen neuen und alten Sprechern auf der Grundlage der Stimme und bieten eine Echtzeitmessung der Gehirnaktivität, die Überwindung von Grenzen der Reaktionszeiten und Genauigkeitsmessungen. Das Paradigma umfasst drei Schritte: Die Zuhörer stellen Assoziationen zwischen drei Stimmen und ihren Namen her (Training); Die Zuhörer geben den Namen an, der einer Stimme von drei Kandidaten entspricht (Prüfen); Die Zuhörer unterscheiden zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe (Testing). Die Sprachprosodie im Test war entweder zuversichtlich oder zweifelhaft. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System gesammelt, anschließend vorverarbeitet und in RStudio für ERP und statistische Analysen und MATLAB für die Hirntopographie importiert. Die Ergebnisse zeigten, dass eine vergrößerte späte positive Komponente (LPC) im Old-Talker im Vergleich zum New-Talker-Zustand im 400-850-ms-Fenster im Pz und anderen breiteren Elektrodenbereichen in beiden Prosodien hervorgerufen wurde. Der alte/neue Effekt war jedoch in den zentralen und hinteren Elektroden robust für eine zweifelhafte Prosodiewahrnehmung, während die vorderen, zentralen und hinteren Elektroden für einen sicheren Prosodiezustand stehen. Diese Studie schlägt vor, dass dieses Versuchsdesign als Referenz für die Untersuchung sprecherspezifischer Signalbindungseffekte in verschiedenen Szenarien (z.B. anaphorische Expression) und Pathologien bei Patienten wie Phonagnosie dienen kann.
Menschliche Stimmströme sind reich an Informationen, wie z. B. Emotion 1,2, Gesundheitszustand 3,4, biologisches Geschlecht5, Alter6 und, was noch wichtiger ist, die individuelle stimmliche Identität 7,8. Studien haben gezeigt, dass menschliche Zuhörer über eine robuste Fähigkeit verfügen, die Identitäten ihrer Altersgenossen anhand von Stimmen zu erkennen und zu unterscheiden, wodurch Schwankungen innerhalb des Sprechers in Bezug auf die durchschnittlich basierte Repräsentation der Sprecheridentität im akustischen Raum überwundenwerden 9. Solche Variationen werden durch akustische Manipulation (Grundfrequenz und Länge des Vokaltrakts, d.h. F0 und VTL) hervorgerufen, die keinen klaren pragmatischen Absichten entspricht9, Emotionsprosodien10 und stimmliches Selbstvertrauen, das das Gefühl des Wissens der Sprecher vermittelt11. Verhaltensexperimente haben sich auf viele Faktoren konzentriert, die die Leistung der Zuhörer beim Erkennen der Sprechenden beeinflussen, einschließlich sprachbezogener Manipulationen 8,12,13, teilnehmerbezogener Merkmale wie Musikerfahrung oder Lesefähigkeit14,15 und reizbezogener Anpassungen wie Rückwärtssprechen oder Nichtwörter16,17; Mehr dazu finden Sie in den Literaturübersichten18,19. In einigen neueren Experimenten wurde untersucht, wie individuelle Variationen der Repräsentation der Sprecheridentität die Erkennungsgenauigkeit untergraben können, wobei Aspekte wie hohe und niedrige emotionale Ausdrucksfähigkeit16 und neutrale versus ängstliche Prosodien5 berücksichtigt wurden. Weitere mögliche Szenarien können weiter untersucht werden, wie in einem Berichtvorgeschlagen wird 20.
Für die erste Forschungslücke schlägt die Studie vor, dass die neurologischen Grundlagen der Sprecheridentifikation noch nicht vollständig erforscht sind, wie die Variation innerhalb des Sprechers die Gehirnaktivitäten der Zuhörer herausfordert. In einer fMRT-basierten Sprechererkennungsaufgabe von Zäske et al. zeigten beispielsweise der rechte hintere Gyrus temporalis (pSTG), der rechte untere/mittlere frontale Gyrus (IFG/MFG), der rechte mediale frontale Gyrus und der linke Caudatus eine verminderte Aktivierung, wenn sie korrekt als alte oder neue Sprechende identifiziert wurden, unabhängig davon, ob der sprachliche Inhalt gleich oder unterschiedlich war21. Eine frühere Elektroenzephalographie (EEG)-Studie von Zäske et al. beobachtete diesen alten/neuen Effekt jedoch nicht, wenn die Variation der Sprecheridentität durch verschiedene Texte eingeführt wurde22. Insbesondere fehlte eine größere, späte positive Komponente (LPC) im Bereich von 300 bis 700 ms, die an der Pz-Elektrode nachgewiesen wurde, wenn Zuhörer auf ihren vertrauten trainierten Sprecher trafen, der denselben Text ausdrückte (d. h. eine Wiederholung mit nicht verändertem sprachlichem Inhalt hörte), wenn die Sprecher neue Texte lieferten.
Zur Untermauerung der Behauptung von Zäske et al.21 vermutet diese Studie, dass trotz unterschiedlicher sprachlicher Inhalte zwischen Trainings- und Testsitzungen in ereigniskorrelierten Potenzialanalysen (ERP) immer noch ein alter/neuer Effekt beobachtet werden kann. Diese Begründung beruht auf der Vorstellung, dass das Fehlen des alten/neuen Effekts in Zäske et al.22 unter Bedingungen, unter denen unterschiedliche Texte verwendet wurden, auf das Fehlen einer zusätzlichen Kontrollsitzung während der Trainingsaufgabe zurückzuführen sein könnte, um ein gründliches und effektives Identitätslernen zu gewährleisten, wie von Lavan et al.23 vorgeschlagen. Folglich besteht das erste Ziel der Studie darin, diese Hypothese zu überprüfen und zu validieren. Diese Studie zielt darauf ab, dies zu testen, indem sie dem Trainings-Test-Paradigma22 eine Überprüfungssitzung hinzufügt.
Eine weitere Schlüsselfrage, die in dieser Studie beantwortet werden soll, ist die Robustheit der Sprecheridentifikation in Gegenwart von Sprachprosodie. Frühere Verhaltensstudien haben gezeigt, dass Zuhörer besonders Schwierigkeiten haben, Sprecher über verschiedene Prosodien hinweg zu erkennen, was auf eine modulatorische Rolle des prosodischen Kontexts hinweist – Zuhörer schnitten in den verschiedenen Trainingstest-Prosodiebedingungen unterdurchschnittlich ab. Diese Studie zielt darauf ab, dies zu testen, indem Zuhörer dazu gebracht werden, vertraute Sprecher entweder in selbstbewussten oder zweifelnden Prosodien zu erkennen24. Diese Studie geht davon aus, dass die beobachteten ERP-Unterschiede dazu beitragen werden, zu erklären, wie die Sprachprosodie die Identitätserkennung beeinflusst.
Das Kernziel der vorliegenden Studie ist es, die Robustheit des alten/neuen Effekts bei der Sprechererkennung zu untersuchen, insbesondere zu untersuchen, ob es Unterschiede beim Erkennen von Sprechern in selbstbewussten und zweifelhaften Prosodien gibt. Xu und Armony10 führten eine Verhaltensstudie mit einem Trainings-Test-Paradigma durch, und ihre Ergebnisse deuten darauf hin, dass Zuhörer prosodische Unterschiede nicht überwinden können (z. B. trainiert, einen Sprecher in neutraler Prosodie zu erkennen und getestet auf ängstlicher Prosodie) und nur eine Genauigkeit unterhalb des Zufallsniveaus10 erreichen können. Die akustische Analyse zeigt, dass Lautsprecher, die unterschiedliche emotionale Zustände ausdrücken, mit der VTL/F0-Modulation verbunden sind. Zum Beispiel ist die zuversichtliche Prosodie durch eine verlängerte VTL und ein niedrigeres F0 gekennzeichnet, während das Gegenteil für die zweifelhafte Prosodie11,24 der Fall ist. Ein weiterer Beweis stammt aus der Studie von Lavan et al.23, die bestätigte, dass Zuhörer sich an VTL- und F0-Veränderungen des Sprechers anpassen und durchschnittliche Repräsentationen der Sprechenden bilden können. Diese Studie kommt zu dem Schluss, dass Zuhörer aus der Perspektive der Verhaltensdaten wahrscheinlich immer noch die Identität des Sprechenden über Prosodien hinweg erkennen (z. B. trainiert, eine Person in einer selbstbewussten Prosodie zu erkennen, aber in einer zweifelhaften Prosodie getestet; berichtet in einem separaten Manuskript zur Vorbereitung). Die neuronalen Korrelate der Sprecheridentifikation, insbesondere die von Zäske et al.22 beobachtete Generalisierbarkeit des alten/neuen Effekts, bleiben jedoch unklar. Daher ist die vorliegende Studie darauf ausgerichtet, die Robustheit des alten/neuen Effekts in zuversichtlichen versus zweifelhaften Prosodien als Kontext für die Prüfung zu validieren.
Die Studie stellt eine Abkehr von bisherigen Forschungsparadigmen in alten/neuen Wirkungsstudien dar. Während sich frühere Forschungen darauf konzentrierten, wie die Erkennung alter/neuer Sprecher die Wahrnehmung beeinflusst, erweitert diese Studie dies, indem sie zwei Konfidenzniveaus (zuversichtlich und zweifelhaft) in das Paradigma einbezieht (daher eine 2+2-Studie). Dies ermöglicht es uns, die Sprechererkennung im Kontext von selbstbewussten und zweifelhaften Sprechprosodien zu untersuchen. Das Paradigma ermöglicht die Erforschung der Robustheit alter/neuer Effekte. Die Analysen von Gedächtniseffekten und Regions of Interest (ROI) sowohl in selbstbewussten als auch in zweifelhaften Sprachkontexten dienen als Evidenz für diese Untersuchung.
Insgesamt zielt die Studie darauf ab, das Verständnis der EEG-Korrelate der Spracherkennung zu aktualisieren, mit der Hypothese, dass der vergrößerte LPC des EEG-Effekts alt/neu auch dann beobachtbar ist, wenn 1) der sprachliche Inhalt nicht derselbe ist und 2) eine sichere versus zweifelhafte Prosodie vorhanden ist. In dieser Studie wurden die Hypothesen anhand eines dreistufigen Paradigmas untersucht. Zunächst stellten die Teilnehmer während der Trainingsphase Assoziationen zwischen drei Stimmen und den entsprechenden Namen her. Anschließend wurden sie in der Prüfphase damit beauftragt, aus einer Auswahl von drei Kandidaten den Namen zu identifizieren, der einer Stimme entspricht. Diese Überprüfung, in Anlehnung an Lavan et al.23, zielt darauf ab, eine unzureichende Vertrautheit mit alten Sprechern zu überwinden, die zu dem unbeobachteten alten/neuen Effekt führte, wenn sich der Text in der Trainings- und Testphase unterschied6 und die Sprecher Sprecher über neutrale und ängstliche Prosodien hinweg nicht erkennen konnten10. In der Testphase schließlich unterschieden die Teilnehmer zwischen drei alten und drei neuen Sprecherstimmen in einer zwei-alternativen Forced-Choice-Aufgabe, wobei die Sprechprosodie entweder als zuversichtlich oder zweifelhaft dargestellt wurde. Die EEG-Daten wurden mit einem 64-Kanal-EEG-System erhoben und vor der Analyse vorverarbeitet. Statistische Analysen und ereigniskorrelierte Potenzialanalysen (ERP) wurden in RStudio durchgeführt, während MATLAB für die Analyse der Hirntopographie verwendet wurde.
In Bezug auf Designdetails schlägt diese Studie ein Lernexperiment zur Sprecheridentität vor, das die Körpergröße des Sprechers kontrolliert, die mit VTL zusammenhängt und die Eindrücke davon beeinflusst, wer spricht23. Dieser Aspekt beeinflusst auch soziale Eindrücke, wie z. B. wahrgenommene Dominanz25, und eine solche Eindrucksbildung auf höherer Ebene könnte mit der Dekodierung der Sprecheridentitätinteragieren 26.
Die Studie stellt eine Pipeline für die EEG-Datenerfassung und -analyse vor, wobei der Schwerpunkt auf der Erkennung zuvor erlernter Sprecheridentitäten liegt. Diese Studie befasst sich mit Variationen zwischen Lern- und Erkennungsphasen, einschließlich Unterschieden im Sprachinhalt22 und in der Prosodie10. Das Design ist an eine Reihe von Forschungsbereichen anpassbar, einschließlich der Psycholinguistik, wie z. B. Pronomen und anaphorische Verarbeitung<sup class="xref…
The authors have nothing to disclose.
Diese Arbeit wurde unterstützt von der Natural Science Foundation of China (Grant No. 31971037); das Shuguang-Programm, das von der Shanghai Education Development Foundation und dem Shanghai Municipal Education Committee unterstützt wird (Zuschuss Nr. 20SG31); die Natural Science Foundation von Shanghai (22ZR1460200); das Supervisor Guidance Program der Shanghai International Studies University (2022113001); und das Major Program der National Social Science Foundation of China (Grant No. 18ZDA293).
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
.