L’étude introduit un paradigme de test d’entraînement pour étudier les effets anciens/nouveaux des potentiels liés aux événements dans des scénarios prosodiques confiants et douteux. Les données révèlent une composante positive tardive améliorée entre 400 et 850 ms à Pz et à d’autres électrodes. Ce pipeline peut explorer des facteurs au-delà de la prosodie de la parole et leur influence sur l’identification des cibles de liaison aux indices.
Reconnaître les locuteurs familiers des flux vocaux est un aspect fondamental de la communication verbale humaine. Cependant, il n’est pas clair comment les auditeurs peuvent encore discerner l’identité du locuteur dans un discours expressif. Cette étude développe une approche de reconnaissance de l’identité individuelle du locuteur basée sur la mémorisation et un pipeline d’analyse de données d’électroencéphalogramme (EEG) qui l’accompagne, qui surveille la façon dont les auditeurs reconnaissent les locuteurs familiers et distinguent les inconnus. Les données EEG capturent les processus cognitifs en ligne lors de la distinction entre les nouveaux et les anciens locuteurs en fonction de la voix, offrant une mesure en temps réel de l’activité cérébrale, dépassant les limites des temps de réaction et des mesures de précision. Le paradigme comprend trois étapes : les auditeurs établissent des associations entre trois voix et leurs noms (formation) ; les auditeurs indiquent le nom correspondant à une voix de trois candidats (vérification) ; Les auditeurs font la distinction entre trois anciennes et trois nouvelles voix de haut-parleur dans une tâche à choix forcé à deux alternatives (test). La prosodie de la parole lors des tests était soit confiante, soit douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux, puis prétraitées et importées dans RStudio pour l’ERP et l’analyse statistique et MATLAB pour la topographie cérébrale. Les résultats ont montré qu’une composante positive tardive (LPC) élargie était induite chez l’ancien locuteur par rapport à la condition du nouveau locuteur dans la fenêtre de 400 à 850 ms dans le Pz et dans d’autres gammes plus larges d’électrodes dans les deux prosodies. Pourtant, l’effet ancien/nouveau était robuste dans les électrodes centrales et postérieures pour la perception douteuse de la prosodie, tandis que les électrodes antérieures, centrales et postérieures sont pour l’état de prosodie confiante. Cette étude propose que ce modèle d’expérience puisse servir de référence pour étudier les effets de liaison de signaux spécifiques au locuteur dans divers scénarios (par exemple, l’expression anaphorique) et des pathologies chez des patients comme la phonagnosie.
Les flux vocaux humains sont riches en informations, telles que l’émotion1,2, l’état de santé 3,4, le sexe biologique5, l’âge6 et, plus important encore, l’identité vocale individuelle 7,8. Des études ont suggéré que les auditeurs humains ont une solide capacité à reconnaître et à différencier l’identité de leurs pairs à travers les voix, surmontant les variations au sein du locuteur autour de la représentation moyenne de l’identité du locuteur dans l’espace acoustique9. De telles variations sont provoquées par une manipulation acoustique (fréquence fondamentale et longueur du conduit vocal, c’est-à-dire F0 et VTL) qui ne correspond à aucune intention pragmatique claire9, à des prosodies émotionnelles10 et à une confiance vocale qui transmet le sentiment de savoir11 du locuteur. Les expériences comportementales se sont concentrées sur de nombreux facteurs qui influencent la performance des auditeurs dans la reconnaissance des locuteurs, y compris les manipulations liées au langage 8,12,13, les caractéristiques liées aux participants telles que l’expérience musicale ou la capacité de lecture14,15, et les adaptations liées aux stimuli comme la parole à l’envers ou les non-mots16,17 ; On peut en trouver plus dans les revues de littérature18,19. Quelques expériences récentes ont examiné comment la variation individuelle de la représentation de l’identité du locuteur pourrait miner la précision de la reconnaissance, en tenant compte d’aspects tels que l’expressivité émotionnelle élevée par rapport à faible16 et les prosodies neutres par rapport aux prosodies craintives5 ; D’autres scénarios possibles peuvent faire l’objet d’une enquête plus approfondie, comme le suggère une étude20.
Pour la première lacune de la recherche, l’étude propose que les fondements neurologiques de l’identification du locuteur n’ont pas encore pleinement exploré comment la variation au sein du locuteur défie les activités cérébrales des auditeurs. Par exemple, dans une tâche de reconnaissance du locuteur basée sur l’IRMf par Zäske et al., le gyrus temporal postérieur supérieur droit (pSTG), le gyrus frontal inférieur droit/moyen (IFG/MFG), le gyrus frontal médial droit et le corps caudé gauche des participants ont montré une activation réduite lorsqu’ils étaient correctement identifiés comme anciens ou nouveaux locuteurs, que le contenu linguistique soit identique ou différent21. Cependant, une étude antérieure d’électroencéphalographie (EEG) réalisée par Zäske et al. n’a pas observé cet effet ancien/nouveau lorsque la variation de l’identité du locuteur était introduite à travers différents textes22. Plus précisément, une composante positive tardive (LPC) plus grande, allant de 300 à 700 ms, détectée à l’électrode Pz lorsque les auditeurs rencontraient leur locuteur familier exprimant le même texte (c’est-à-dire entendant une relecture avec un contenu linguistique non varié), était absente lorsque les locuteurs délivraient de nouveaux textes.
À l’appui de l’affirmation de Zäske et al.21, cette étude soupçonne qu’un effet ancien/nouveau peut encore être observé malgré les différences de contenu linguistique entre les sessions de formation et les sessions de test dans les analyses de potentiel lié aux événements (ERP). Ce raisonnement découle de l’idée que l’absence de l’effet ancien/nouveau dans Zäske et al.22, dans des conditions où des textes différents ont été utilisés, peut être attribuée à l’absence d’une session de vérification supplémentaire pendant la tâche de formation pour assurer un apprentissage approfondi et efficace de l’identité, comme suggéré par Lavan et al.23. Par conséquent, le premier objectif de l’étude est d’examiner et de valider cette hypothèse. Cette étude vise à tester cela en ajoutant une session de vérification au paradigme de test d’entraînement22.
Une autre question clé que cette étude vise à aborder est la robustesse de l’identification du locuteur en présence de prosodie de la parole. Des études comportementales antérieures ont suggéré que les auditeurs ont particulièrement du mal à reconnaître les locuteurs à travers différentes prosodies, ce qui indique un rôle modulateur du contexte prosodique – les auditeurs ont sous-performé dans les différentes conditions de prosodie de test d’entraînement. Cette étude vise à tester cela en exposant les auditeurs à reconnaître des locuteurs familiers dans des prosodies confiantes ou douteuses24. Cette étude s’attend à ce que les différences observées dans l’ERP aident à expliquer comment la prosodie vocale influence la reconnaissance de l’identité.
L’objectif principal de la présente étude est d’étudier la robustesse de l’effet ancien/nouveau dans la reconnaissance du locuteur, en examinant spécifiquement s’il existe des différences dans la reconnaissance des locuteurs dans les prosodies confiantes et douteuses. Xu et Armony10 ont réalisé une étude comportementale en utilisant un paradigme de test d’entraînement, et leurs résultats suggèrent que les auditeurs ne peuvent pas surmonter les différences prosodiques (par exemple, entraînés à reconnaître un locuteur en prosodie neutre et testés sur la prosodie craintive) et ne peuvent atteindre une précision inférieure au niveau de chance10. L’analyse acoustique indique que les haut-parleurs exprimant des états émotionnels variés sont associés à la modulation VTL/F0 ; par exemple, la prosodie confiante est caractérisée par une VTL allongée et un F0 inférieur, alors que l’inverse est vrai pour la prosodie douteuse11,24. Une autre preuve provient de l’étude de Lavan et al.23, qui a confirmé que les auditeurs peuvent s’adapter aux changements VTL et F0 du locuteur et former des représentations basées sur la moyenne des locuteurs. Cette étude confirme que, du point de vue des données comportementales, les auditeurs sont susceptibles de reconnaître l’identité du locuteur à travers les prosodies (par exemple, entraînés à reconnaître une prosodie confiante mais testés dans une prosodie douteuse ; rapportés dans un manuscrit séparé en préparation). Pourtant, les corrélats neuronaux de l’identification du locuteur, en particulier la généralisabilité de l’effet ancien/nouveau observé par Zäske et al.22, restent incertains. Par conséquent, la présente étude s’engage à valider la robustesse de l’effet ancien/nouveau dans les prosodies confiantes par rapport aux prosodies douteuses comme contextes de test.
L’étude s’écarte des paradigmes de recherche précédents dans les études sur les effets anciens/nouveaux. Alors que les recherches antérieures se concentraient sur la façon dont la reconnaissance des anciens/nouveaux locuteurs influence la perception, cette étude étend cela en incorporant deux niveaux de confiance (confiant ou douteux) dans le paradigme (donc, une étude 2+2). Cela nous permet d’étudier la reconnaissance du locuteur dans le contexte de prosodies de parole confiantes et douteuses. Le paradigme permet d’explorer la robustesse des effets anciens/nouveaux. Les analyses des effets de mémoire et des régions d’intérêt (ROI) dans des contextes de parole confiants et douteux servent de preuves à cette enquête.
Dans l’ensemble, l’étude vise à mettre à jour la compréhension des corrélats EEG de la reconnaissance vocale, avec les hypothèses que le LPC élargi de l’effet ancien/nouveau de l’EEG est observable même lorsque 1) le contenu linguistique n’est pas le même, et 2) avec la présence d’une prosodie confiante ou douteuse. Cette étude a examiné les hypothèses à travers un paradigme en trois étapes. Tout d’abord, pendant la phase de formation, les participants ont établi des associations entre trois voix et leurs noms correspondants. Par la suite, lors de la phase de vérification, ils ont été chargés d’identifier le nom correspondant à une voix parmi une sélection de trois candidats. Cette vérification, suivant Lavan et al.23, vise à surmonter la familiarisation insuffisante de l’ancien locuteur, ce qui a conduit à l’effet ancien/nouveau non observé lorsque le texte dans les phases d’entraînement et de test différait6, et que les locuteurs ne pouvaient pas reconnaître les locuteurs à travers des prosodies neutres et craintives10. Enfin, dans la phase de test, les participants ont distingué entre trois anciennes et trois nouvelles voix de locuteur dans une tâche à choix forcé à deux alternatives, la prosodie de la parole étant présentée comme confiante ou douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux et ont subi un prétraitement avant l’analyse. L’analyse statistique et l’analyse du potentiel lié aux événements (ERP) ont été effectuées dans RStudio, tandis que MATLAB a été utilisé pour l’analyse de la topographie cérébrale.
En ce qui concerne les détails de conception, cette étude propose une expérience d’apprentissage de l’identité du locuteur qui contrôle la taille de l’orateur, qui est liée à la VTL et influence les impressions de qui parle23. Cet aspect influence également les impressions sociales, telles que la dominance perçue25, et une telle formation d’impression de niveau supérieur pourrait interagir avec le décodage de l’identité du locuteur26.
L’étude présente un pipeline pour la collecte et l’analyse de données EEG, en se concentrant sur la reconnaissance des identités de locuteurs précédemment apprises. Cette étude aborde les variations entre les phases d’apprentissage et de reconnaissance, y compris les différences dans le contenu de la parole22 et la prosodie10. La conception est adaptable à une gamme de domaines de recherche, y compris la psycholinguistique, comme le traitement des pronoms et …
The authors have nothing to disclose.
Ce travail a été soutenu par la Fondation des sciences naturelles de Chine (subvention n° 31971037) ; le programme Shuguang soutenu par la Fondation pour le développement de l’éducation de Shanghai et le Comité municipal de l’éducation de Shanghai (subvention n° 20SG31) ; la Fondation des sciences naturelles de Shanghai (22ZR1460200) ; le programme d’orientation des superviseurs de l’Université d’études internationales de Shanghai (2022113001) ; et le programme majeur de la Fondation nationale des sciences sociales de Chine (subvention n° 18ZDA293).
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
.