本文综述了一种用于语言理解研究的眼动追踪方法。为了获得可靠的数据, 必须遵循协议的关键步骤。其中包括眼动仪的正确设置 (例如, 确保眼睛和头部图像的高质量) 和准确的校准。
本工作是对一种方法的描述和评估, 该方法旨在量化语言处理与视觉世界感知之间相互作用的不同方面。眼睛注视模式的记录为视觉语境和语言世界知识对语言理解的贡献提供了很好的证据。初步研究评估了对象上下文效应, 以检验语言处理中的模块化理论。在导言中, 我们描述了随后的调查如何将更广泛的视觉背景在语言处理中的作用本身作为一个研究主题, 并提出了我们对事件和说话者的视觉感知如何有助于理解的基础上, 了解理解的理解。视觉语境的研究方面包括动作、事件、说话者的目光、情感面部表情, 以及空间物体的配置。在概述了眼动追踪方法及其不同应用之后, 我们列出了该方法在协议中的关键步骤, 说明了如何成功地将其用于研究视觉位置的语言理解。最后一节介绍了三套具有代表性的结果, 并说明了眼动追踪在调查视觉世界感知与语言理解之间的相互作用方面的好处和局限性。
心理语言学研究强调了眼睛运动分析在理解语言理解中所涉及的过程中的重要性。从凝视记录推断理解过程的核心是将认知与眼动联系起来的假设.有三种主要类型的眼动: 囊, 前庭眼动, 和流畅的追求运动。saccades 速度快, 大部分发生在不知不觉中的弹道运动, 并与注意力的转移可靠地联系在一起。在囊之间相对注视稳定的时刻, 也就是所谓的固定时刻, 被认为是对当前视觉注意力的指数。测量固定点的位点及其与认知过程的持续时间被称为 “眼动追踪方法”。这种方法的早期实现有助于考察严格语言语境中的阅读理解 (请参见 rayner7 的回顾)。在这种方法中, 检查单词或句子区域的持续时间与处理难度有关。然而, 眼动追踪也被用来检查世界上的物体检查期间的口语理解 (或在计算机显示器2上)。在这个 “视觉世界” 的眼动跟踪版本中, 对物体的检查是以语言为指导的。例如, 当理解者听到斑马的声音时, 他们对屏幕上斑马的检查就会反映出他们在想这只动物。在所谓的视觉世界范式中, 一个理解的目光被用来反映口语理解和相关知识的激活 (例如,听众在听到放牧时也会检查斑马, 这表明斑马所做的动作)2。这种检查表明, 语言世界关系与眼球运动之间存在着系统的联系。量化此链接的常用方法是计算外观与屏幕上不同预定区域的比例。这使得研究人员能够直接 (跨条件, 通过参与者和项目) 比较特定时间对不同对象的关注程度, 以及这些值在毫秒分辨率下的变化情况。
心理语言学的研究利用视觉世界中的眼动追踪来区分关于思维结构的相互竞争的理论假设1。此外, 对所描绘的物体的眼睛固定也表明, 假设语言环境具有足够的限制性, 理解者可以对即将到来的字符进行增量语义解释,甚至对即将到来的字符产生期望9. 这些眼睛注视数据也揭示了一系列进一步的理解过程, 如词汇歧义分辨率10,11, 代词分辨率 12, 消除歧义的结构和主题作用通过信息分配在视觉上下文 13、14、16和语用过程15, 除其他许多4。显然, 在语言理解过程中, 对物体的眼球运动可以提供所涉及的过程的信息。
这种眼动追踪方法是非侵入性的, 可用于婴儿、年轻和年龄较大的语言使用者。一个关键的优点是, 与验证任务中对探测器或响应按钮按下的点点响应不同, 它以毫秒的分辨率提供了对语言如何引导注意力以及视觉上下文如何的洞察 (以对象、操作的形式,事件、说话者的注视、情感面部表情以及空间对象的配置) 有助于语言处理。句子理解过程中的连续性与其他句子后和实验后的测量方法有很好的配合, 如公开的图片句子验证、理解问题和记忆回忆任务。在这些任务中, 公开的反应可以通过深入了解理解过程、记忆和学习2的结果来丰富对眼睛注视记录的解释。将眼动追踪与这些其他任务结合起来, 揭示了视觉语境在多大程度上调节视觉注意力和 (即时以及延迟) 整个生命周期的理解。
语言 (口头或书面) 和场景的呈现可以是同步的, 也可以是顺序的。例如, Knoeferle 和合作者17在口语句之前呈现了 1, 000 毫秒的场景, 它在理解过程中仍然存在。他们报告的证据表明, 与对象动词-宾语 (ovs) 相比, 对动作事件的剪裁描述有助于解决德语动词-动词-对象 (svo) 中的局部结构歧义。Knoeferle 和 crocker18在写句子之前呈现了一个剪贴画场景, 并测试了句子理解过程中剪贴画事件的增量集成。他们观察到了增量一致性效应, 这意味着当这些不匹配 (与前一幕中描述的事件相匹配) 时, 参与者对句子成分的阅读时间会更长。在另一个刺激呈现变体中, 参与者首先阅读描述空间关系的句子, 然后看到一个特定空间排列的场景, 其中涉及对象线图19。这项研究评估了计算空间语言模型的预测, 要求参与者对给场景的句子的拟合进行评分, 并在现场审讯过程中记录眼动。参与者的凝视模式被他们所面对的物体的形状所调节–部分确认模型预测并为模型细化提供数据。
虽然许多研究使用了剪贴画17、18、19、20、21、22、23,但也可以结合现实世界对象、这些对象的视频或使用口语的静态照片1、21、24、25、26、46。Knoeferle 和他的同事使用了现实世界的环境24和 abashidze 和他的同事使用了一个录像演示格式来检查行动事件和紧张的影响25。改变场景的精确内容 (例如, 描述动作与否)22、27、38 是可能的, 也可以揭示视觉背景效果。rodríguez 和合作者26的一项相关研究调查了录像的视觉性别暗示对随后提出的口语句子理解的影响。参与者观看了显示男性或女性手的视频, 表演了与性别有关的陈规定型行动。然后, 他们听到一句关于男女动作事件的句子, 同时检查一个显示两张照片并排的显示, 一张是一张是男性照片, 另一张是一张是一张是一张是一张。这种丰富的视觉和语言环境使作者能够将语言介导的陈规定型知识对理解的影响与视觉呈现的 (手) 性别暗示的影响区分开来。
这种范式的进一步应用针对语言处理的发展变化。在口语理解过程中对物体的眼睛运动显示了描述事件的影响,在4-5岁的 27岁, 28岁和老年人 29岁的实时, 但与年轻成年人相比有些延迟。kröger 和合作者22在实验中研究了韵律提示和病例标记的影响, 并在成人和儿童的实验中对这些效果进行了比较。参与者在听一个明确的带有明显大小写的德语句子时, 检查了一个不明确的动作事件场景。眼睛的运动显示, 独特的韵律模式对成年人和4岁或5岁的孩子在消除对谁做什么的歧义时, 既没有帮助。然而, 最初的句子病例标记影响的是成年人的眼睛运动, 但并没有影响到儿童的眼睛运动。这表明, 5岁儿童对案例标记的理解不够有力, 无法进行专题角色分配 (见厄兹格和合作者30的研究), 至少在行动事件没有消除专题角色关系的情况下是如此。这些结果很有趣, 因为它们与以前对专题角色分配31的韵律效应结果形成鲜明对比。kröger 和合作者22提出, (或多或少支持) 视觉背景负责对比结果。在这些解释成立的程度上, 它们突出了上下文在整个生命周期中在语言理解中的作用。
眼动追踪方法很好地结合了从图片 (或视频) 句子验证任务18,20, 26, 图片图像验证任务32, 语料库研究 24, 评级的措施任务19, 或实验后召回任务25,33。abashidze 和合作者34和 kreysa 和合作者33分别调查了扬声器凝视和现实世界动作视频34和扬声器凝视和动作描述33之间的相互作用, 作为即将到来的句子内容。通过将语言理解过程中对场景中的眼视跟踪与实验后的记忆任务结合起来, 他们更好地了解了听众对说话者注视和所描述的行为的感知如何相互作用并影响两者即时语言处理和记忆召回。结果表明, 与实验后记忆回忆过程相比, 动作与说话人的注视对实时理解的贡献是显著的。
虽然可以非常灵活地使用眼动追踪方法, 但某些标准是关键。下面的协议总结了一个通用的过程, 可以根据研究人员的具体需要调整到不同类型的研究问题。该协议是柏林洪堡大学心理语言学实验室以及认知技术卓越集群 (citec) 前语言和认知实验室采用的标准化程序。比勒费尔德大学。该协议描述了桌面和远程设置。后者建议用于儿童或老年人的研究。代表性结果中提到的所有实验都使用一个眼动仪设备, 采样率为 1, 000 赫兹, 并与头部稳定器、用于测试参与者的 pc (显示 pc) 和用于监测实验的 pc 一起使用。参与者的眼动 (主机)。这个设备的主要区别是, 它允许双目眼动追踪。该协议旨在足够通用, 可用于其他眼动追踪设备, 包括头部稳定器, 并使用双 pc 设置 (主机 + 显示)。但是, 请务必记住, 其他设置可能会有不同的方法来处理校准失败或轨道丢失等问题, 在这种情况下, 实验者应参考其特定设备的用户手册。
总之, 所回顾的视觉环境中眼动追踪的变体已经揭示了视觉场景影响语言理解的多种方式。与测量反应时间等方法相比, 这种方法提供了至关重要的优势。例如, 持续的眼动为我们提供了一个了解语言理解过程的窗口, 以及这些过程如何随着时间的推移与我们对视觉世界的感知相互作用。此外, 在语言理解过程中, 不一定要求参与者执行明确的任务 (例如通过按钮按下来判断句子的语法性)。这使得研究人员能够对可能难以与眼睛注视以外的公开行为反应的人群使用这种方法, 如婴儿、儿童, 在某些情况下还有老年人。眼动追踪在生态上是有效的, 因为它反映了参与者的注意力反应–与人类在他们周围的世界中对与通信相关的事物的视觉询问并无不同。
视觉世界范式的边界之一 (或许是特征) 是, 并不是所有的事件都能直接、明确地描述。当然, 可以描述具体的物体和事件。但抽象概念是如何最好地描述的并不那么清楚。这可以限制 (或定义) 对语言处理与使用眼动视觉世界范式感知视觉世界之间互动的洞察。进一步的挑战涉及到观察到的行为和理解过程之间的联系假设。眼睛固定是一种单一的行为反应, 可能反映了语言理解过程中的许多子过程 (例如, 词汇访问、引用过程、语言中介的期望、视觉语境效果等)。鉴于这种洞察, 研究人员必须小心, 不要过度或误解观察到的凝视模式。为了解决这个问题, 先前的研究强调了理解子任务的作用, 以澄清对凝视记录40的解释.
提高眼动可解释性的一个方法是将它们与其他措施 (如事件相关的大脑电位) 结合起来。通过用两种在时间粒度上具有可比性和在连接假设上互补的方法来研究同一现象, 研究人员可以排除对其结果的替代解释, 并丰富对每种方法的解释个别措施41。这种方法已在实验43中采用, 但最近也在一个单一的实验中 (尽管是在严格的语言背景下)44。今后的研究可大大受益于这种方法整合以及与试验后和实验后任务的持续结合。
眼动追踪方法可以复制已建立的结果, 也可以测试关于场景中视觉注意力与语言理解相互作用的新假设。必须仔细遵循协议中概述的过程, 因为即使是轻微的实验错误也会影响数据质量。例如, 在阅读研究中, 相关的分析区域往往是个别单词甚至字母, 这意味着即使是很小的校准错误也可能扭曲结果 (见 raney 和同事42的文章)。协议的步骤1.4 和1.5、眼动仪的校准和漂移检查/漂移的正确性尤其重要, 因为它们直接影响记录的准确性。如果不能正确校准眼动仪, 可能会导致跟踪器无法准确跟踪眼动到预先确定的感兴趣的区域。这种跟踪失败将导致数据点缺失和统计能力的丧失, 这在调查非常微妙的世界与语言的关系时可能会出现问题, 并产生较小的统计效果大小 (请参见由 guerra 和 Knoeferle 和 münster和同事 37的实验)。
鉴于需要最大限度地提高设备的功率和灵敏度, 实验者必须知道如何处理实验期间经常发生的问题。例如, 戴眼镜的参与者的瞳孔位置和运动可能会由于参与者眼镜镜片上的光线反射而导致校准困难。解决此问题的一种方法是在 “显示 pc” 上镜像参与者的眼睛图像, 并鼓励他们移动头部, 直到眼镜上的光线反射在屏幕上不再可见, 这意味着相机不再捕捉到光线。校准失败的另一个原因可能是瞳孔收缩, 这可能是过度暴露在光线下的结果。在这种情况下, 调光实验室中的光线将增加瞳孔扩张, 从而帮助眼动仪准确地检测瞳孔。
作为最后的想法, 我们要讨论视觉世界范式对第二语言学习研究的潜力。该范式已成功地应用于心理语言学研究中, 以调查跨语言词汇和语音互动等现象 46、47、48。此外, 视觉注意力与语言学习之间的密切联系在关于第二语言习得的应用语言学文献中也经常凸显, 49、50、51.今后对第二语言学习的研究很可能继续受益于眼动追踪作为一种以毫秒分辨率提供视觉注意力指标的方法的有利位置。
The authors have nothing to disclose.
这项研究是由柏林洪堡大学 (emboldt-t ‘ t ‘ t 大学)、第2业集群 277 “认知相互作用技术” (德国研究理事会) 和欧洲联盟第七个研究框架方案资助的,技术发展, 以及在授予协议下的示范 n°316748 (lanpercept)。作者还感谢基础卓越中心基金、智利政府联合研究项目 fb0003 项目和 xprag (dfg) 焦点中心的 “fotero” 项目的支持。pia Knoeferle 提供了一份由实验室协议通报的文章初稿, helene kreysa 在 bielefeld 大学实例化, 并继续在柏林洪堡大学继续使用。所有作者都通过以这样或那样的形式提供方法和结果的输入, 为内容做出了贡献。camilo rodríguez ronderos 和 pia Knoeferle 协调了作者的投入, 并在两次迭代中对初稿作了实质性修订。 ernesto guerra 根据 katja münster、alba rodríguez 和 ernesto guerra 的投入制作了图 2-4 。helene kreysa 提供了图 1 , pia Knoeferle 对其进行了更新。所报告的部分结果已发表在认知科学学会年会论文集上。
Desktop mounted eye-tracker including head/chin rest | SR Research Ltd. | EyeLink 1000 plus | http://www.sr-research.com/eyelink1000plus.html |
Software for the design and execution of an eye-tracking experiment | SR Research Ltd. | Experiment Builder | http://www.sr-research.com/eb.html |