В исследовании представлена парадигма обучения-тестирования для изучения старых/новых эффектов потенциалов, связанных с событиями, в уверенных и сомнительных просодических сценариях. Данные показывают усиленный поздний положительный компонент между 400-850 мс на Pz и других электродах. Этот конвейер может исследовать факторы, выходящие за рамки речевой просодии, и их влияние на идентификацию мишени.
Узнавание знакомых говорящих из голосовых потоков является фундаментальным аспектом вербальной коммуникации человека. Тем не менее, остается неясным, как слушатели все еще могут различить личность говорящего в экспрессивной речи. В этом исследовании разрабатывается основанный на запоминании подход к распознаванию личности индивидуального говорящего и сопутствующий конвейер анализа данных электроэнцефалограммы (ЭЭГ), который отслеживает, как слушатели узнают знакомых говорящих и различают незнакомых. Данные ЭЭГ фиксируют когнитивные процессы в режиме онлайн во время различения новых и старых говорящих на основе голоса, предлагая измерение активности мозга в режиме реального времени, преодолевая ограничения времени реакции и точных измерений. Парадигма состоит из трех этапов: слушатели устанавливают ассоциации между тремя голосами и их именами (обучение); слушатели указывают имя, соответствующее голосу, из трех кандидатов (проверка); Слушатели различают три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором (тестирование). Голосовая просодия при тестировании была либо уверенной, либо сомнительной. Данные ЭЭГ были собраны с помощью 64-канальной системы ЭЭГ с последующей предварительной обработкой и импортированы в RStudio для ERP и статистического анализа и MATLAB для топографии мозга. Результаты показали, что у староговорящего человека был вызван увеличенный поздний положительный компонент (LPC) по сравнению с состоянием новоговорящего в окне 400-850 мс в Pz и других более широком диапазоне электродов в обоих просодиях. Тем не менее, старый/новый эффект был устойчивым в центральном и заднем электродах для сомнительного восприятия просодии, в то время как передний, центральный и задний электроды обеспечивают уверенное состояние просодии. Данное исследование предполагает, что этот дизайн эксперимента может служить эталоном для изучения специфичных для говорящего эффектов связывания сигналов в различных сценариях (например, анафорическая экспрессия) и патологий у пациентов, таких как фонагнозия.
Человеческие голосовые потоки богаты информацией, такой как эмоции 1,2, состояние здоровья 3,4, биологический пол5, возраст6 и, что более важно, индивидуальная голосовая идентичность 7,8. Исследования показали, что слушатели-люди обладают устойчивой способностью узнавать и дифференцировать идентичность своих сверстников с помощью голосов, преодолевая внутриговорящие вариации вокруг среднего представления идентичности говорящего в акустическом пространстве9. Такие вариации обусловлены акустическими манипуляциями (основной частотой и длиной голосового тракта, т.е. F0 и VTL), что соответствует отсутствию четких прагматических намерений9, эмоциональным просодиям10 и голосовой уверенности, передающей ощущение знания говорящими11. Поведенческие эксперименты были сосредоточены на многих факторах, влияющих на успеваемость слушателей в распознавании говорящих, включая языковые манипуляции 8,12,13, характеристики, связанные с участниками, такие как музыкальный опыт или способность к чтению 14,15, и адаптации, связанные со стимулами, такие как обратная речь или неслова16,17; Больше можно найти в обзорах литературы 18,19. В нескольких недавних экспериментах изучалось, как индивидуальные вариации репрезентации идентичности говорящего могут подорвать точность распознавания, учитывая такие аспекты, как высокая и низкая эмоциональная выразительность16 и нейтральные и боязливые просодия5; Другие возможные сценарии открыты для дальнейшего изучения, как это было предложено в обзоре20.
Что касается первого пробела в исследованиях, исследование предполагает, что неврологические основы идентификации говорящего еще не полностью изучены, как вариации внутри говорящего влияют на мозговую деятельность слушателей. Например, в задаче по распознаванию говорящего на основе фМРТ Zäske et al., правая задняя верхняя височная извилина (pSTG), правая нижняя/средняя лобная извилины (IFG/MFG), правая медиальная лобная извилина и левая хвостатая извилины показали сниженную активацию при правильной идентификации как старых по сравнению с новыми говорящими, независимо от того, было ли языковое содержание одинаковым или разным21. Тем не менее, более раннее исследование электроэнцефалографии (ЭЭГ), проведенное Zäske et al., не наблюдало этого старого/нового эффекта, когда изменение идентичности говорящего вносилось через различные тексты. В частности, более крупный, поздний положительный компонент (LPC) в диапазоне от 300 до 700 мс, обнаруживаемый на Pz-электроде, когда слушатели сталкивались со своим знакомым обученным говорящим, произносящим тот же текст (т.е. слышащим повтор с неизменяемым лингвистическим содержанием), отсутствовал, когда говорящие произносили новые тексты.
В поддержку утверждения, сделанного Zäske et al.21, это исследование предполагает, что старый/новый эффект все еще может наблюдаться, несмотря на различия в лингвистическом содержании между тренировочными и тестовыми сессиями в анализе потенциала, связанного с событиями (ERP). Это обоснование проистекает из представления о том, что отсутствие эффекта старого/нового у Zäske et al.22 в условиях, когда использовались разные тексты, может быть связано с отсутствием дополнительной контрольной сессии во время учебного задания для обеспечения тщательного и эффективного обучения идентичности, как это предлагается в Lavan et al.23. Следовательно, первая цель исследования состоит в том, чтобы проверить и подтвердить эту гипотезу. Данное исследование направлено на то, чтобы проверить это путем добавления контрольной сессии к парадигме обучения-тестирования22.
Еще одним ключевым вопросом, на который направлено это исследование, является надежность идентификации говорящего в присутствии речевой просодии. Предыдущие поведенческие исследования показали, что слушателям особенно трудно распознавать говорящих в разных просодиях, что указывает на модулирующую роль просодического контекста – слушатели показали слабые результаты в различных условиях обучения-тестирования просодии. Данное исследование направлено на то, чтобы проверить это, представив слушателям возможность узнавать знакомых собеседников в уверенных или сомневающихся просодиях. В этом исследовании ожидается, что наблюдаемые различия в ERP помогут объяснить, как речевая просодия влияет на распознавание личности.
Основной целью настоящего исследования является изучение надежности старого/нового эффекта в распознавании говорящего, в частности, изучение того, существуют ли различия в распознавании говорящих в уверенных и сомнительных просодиях. Сюй и Армони10 провели поведенческое исследование с использованием парадигмы обучения-тестирования, и их результаты показывают, что слушатели не могут преодолеть просодические различия (например, обучены распознавать говорящего в нейтральной просодии, а протестированы на пугливой просодии) и могут достичь точности только ниже уровня случайности10. Акустический анализ показывает, что динамики, выражающие различные эмоциональные состояния, связаны с модуляцией VTL/F0; Например, для уверенной просоды характерно удлинение VTL и снижение F0, тогда как для сомнительной просодия11,24 верно обратное. Еще одно доказательство получено из исследования Lavan et al.23, которое подтвердило, что слушатели могут адаптироваться к изменениям VTL и F0 говорящего и формировать усредненные представления говорящих. Это исследование подтверждает, что с точки зрения поведенческих данных слушатели, скорее всего, все еще узнают личность говорящего в разных просодиях (например, обучены распознавать его в уверенной просодии, но протестированы в сомнительной просодии; сообщается в отдельной рукописи, находящейся в стадии подготовки). Тем не менее, нейронные корреляты идентификации говорящего, в частности, обобщаемость эффекта старого/нового, наблюдаемого Zäske et al.22, остаются неясными. Следовательно, настоящее исследование направлено на проверку надежности старого/нового эффекта в уверенных и сомнительных просодиях в качестве контекстов для тестирования.
Исследование представляет собой отход от предыдущих исследовательских парадигм в исследованиях старых/новых эффектов. В то время как прошлые исследования были сосредоточены на том, как распознавание старого/нового говорящего влияет на восприятие, это исследование расширяет эту теорию, включая два уровня уверенности (уверенный и сомневающийся) в парадигму (таким образом, исследование 2+2). Это позволяет исследовать распознавание говорящего в контексте уверенных и сомнительных речевых просодий. Эта парадигма позволяет исследовать надежность старых/новых эффектов. Анализ эффектов памяти и областей интереса (ROI) как в контексте уверенной, так и сомнительной речи служит доказательством для этого исследования.
В целом, исследование направлено на актуализацию представлений о коррелятах ЭЭГ распознавания голоса, с гипотезой о том, что увеличенный ЛПК старого/нового эффекта ЭЭГ наблюдается даже при 1) неодинаковом языковом содержании и 2) при наличии уверенной и сомнительной просодии. В этом исследовании гипотезы изучались через трехступенчатую парадигму. Во-первых, на этапе обучения участники установили ассоциации между тремя голосами и соответствующими им именами. Впоследствии, на этапе проверки, им было поручено определить имя, соответствующее голосу, из трех кандидатов. Эта проверка, вслед за Lavan et al.23, направлена на преодоление недостаточного освоения старого говорящего, что приводило к ненаблюдаемому эффекту старого/нового, когда текст на этапах обучения и тестирования отличался 6, и говорящие не могли распознать говорящих в нейтральных и боязливых просодиях10. Наконец, на этапе тестирования участники различали три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором, при этом просодия речи представлялась либо уверенной, либо сомнительной. Данные ЭЭГ собирали с помощью 64-канальной ЭЭГ-системы и подвергали предварительной обработке перед анализом. Статистический анализ и анализ событийного потенциала (ERP) проводились в RStudio, в то время как MATLAB использовался для анализа топографии мозга.
Что касается деталей дизайна, в этом исследовании предлагается эксперимент по обучению идентичности говорящего, который контролирует рост говорящего, который связан с VTL и влияет на впечатление от того, кто говорит23. Этот аспект также влияет на социальные впечатления, такие как воспринимаемое доминирование25, и такое формирование впечатлений более высокого уровня может взаимодействовать с декодированием идентичностиговорящего26.
В исследовании представлен конвейер для сбора и анализа данных ЭЭГ, уделяя особое внимание распознаванию ранее изученных идентичностей говорящих. В этом исследовании рассматриваются различия между фазами обучения и узнавания, в том числе различия в содержании речи22 и<sup c…
The authors have nothing to disclose.
Работа выполнена при поддержке Фонда естественных наук Китая (грант No 31971037); программа «Шугуан» при поддержке Шанхайского фонда развития образования и Шанхайского муниципального комитета по образованию (грант No 20SG31); Шанхайский фонд естественных наук (22ZR1460200); Программа ориентации супервайзеров Шанхайского университета международных исследований (2022113001); и Крупная программа Национального фонда социальных наук Китая (грант No 18ZDA293).
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
.