可视化世界范式监视参与者在视觉工作区中的眼球运动, 因为他们正在听或说口语。此范式可用于调查各种心理语言学问题的在线处理, 包括语义复杂的语句, 如析取语句。
在使用视觉世界范式的典型眼动追踪研究中, 参与者在视觉工作区中的物体或图片的眼球运动通过眼动仪记录, 因为参与者产生或理解一种描述并发视觉的口语语言。世界。这种范式具有很高的通用性, 因为它可以在广泛的人群中使用, 包括那些无法阅读和/或不能公然给予他们行为反应的人, 如 preliterate 儿童、老年人和病人。更重要的是, 该范式对语音信号的细粒度操作非常敏感, 它可用于研究多层次语言理解中大多数主题的在线处理, 如细粒度声学语音特征、词的属性和语言结构。本文中描述的协议阐释了如何进行典型的视觉世界眼动跟踪研究, 并举例说明如何利用可视化世界范式来探索一些语义复杂语句的在线处理。
口语是一种快速、持续的信息流, 它马上就会消失。这是一个挑战, 实验研究这个时间, 快速改变语音信号。视觉世界范式中记录的眼球运动可以用来克服这一挑战。在使用视觉世界范式的典型眼动追踪研究中, 参与者对显示的图片或视觉工作区中的真实对象的眼球移动会在他们收听或生成描述视觉世界内容的口头语言时受到监控1 ,2,3,4。这一范式背后的基本逻辑或关联假说是, 理解或规划话语将 (公然或秘密地) 将参与者的视觉注意力转移到视觉世界中的某一特定对象上。这种注意力转移将有很高的可能性, 以启动一个眼跳眼球运动, 使参与的区域进入中心凹视觉。有了这个范式, 研究人员打算确定在什么时间点, 关于语音信号中的一些声学标志, 参与者的视觉注意力的转移发生, 由眼跳眼球运动到对象或视觉上的图片测量世界。然后, 在眼跳眼动与语音信号相关的时间和位置, 用于推断在线语言处理。视觉世界范式可以用来研究口语理解1,2和生产5,6。这篇方法论文章将侧重于理解研究。在使用视觉世界范式的理解研究中, 在视觉显示中, 参与者的眼球运动会受到监控, 因为他们听着关于视觉显示的说话话语。
在历史上设计了不同的眼动追踪系统。最简单、最便宜、最便携的系统只是普通的摄像机, 它记录了参与者眼睛的图像。然后通过视频录制的逐帧检查手动编码眼球运动。然而, 这种眼动仪的采样率相对较低, 编码过程耗时。因此, 现代商业眼动追踪系统通常使用光学传感器测量其轨道7、8、9的方向。要了解现代商业眼动追踪系统的工作原理, 应考虑以下几点。首先, 要正确测量中心凹视觉的方向, 红外照明器 (通常与波长约为 780-880 nm) 通常沿或关闭相机的光轴, 使瞳孔的图像成绩亮或暗比周围的虹膜。瞳孔和/或瞳孔角膜反射 (通常是第一个浦肯野图像) 的图像, 然后用于计算在其轨道的眼睛的方向。其次, 视觉世界中的凝视位置实际上不仅取决于头部的眼睛方向, 还取决于视觉世界的头部方向。为了准确推断眼睛方向的视线, 眼睛追踪器的光源和相机都固定在参与者头部 (头部安装的眼动仪) 上, 或固定在视觉世界 (表安装或远程眼动追踪器)。第三, 参与者的头部方向必须固定在视觉世界上, 或者如果参与者的头部可以自由移动, 则计算得到补偿。当远程眼动仪在无头移动模式下使用时, 通常会通过在参与者前额放置一个小贴纸来记录参与者的头部位置。然后从眼睛方向减去头部方向, 以检索视觉世界中的凝视位置。第四, 然后需要校准和验证过程, 以将眼睛的方向映射到视觉世界中的视线。在校准过程中, 记录了来自已知目标点的参与者的固定样本, 以将原始眼数据映射到视觉世界中的凝视位置。在验证过程中, 参与者的目标点与校准过程相同。在视觉世界中, 通过标定结果与固定目标的实际位置之间存在的差异来判断标定的准确性。为了进一步确认测绘过程的准确性, 通常在每次试验中应用漂移检查, 其中单个固定目标被提交给参与者, 以测量计算的固定位置与实际位置之间的差异。当前目标。
视觉世界研究的主要数据是在视觉世界中以眼动仪的采样率记录的凝视位置的流, 范围在整个或部分的试验持续时间内。在视觉世界研究中使用的从属变量通常是参与者在特定时间窗的视觉世界中特定空间区域中的样本比例。要分析数据, 首先选择时间窗口, 通常称为感兴趣的期间。时间窗口通常在听觉输入中显示某些语言事件时被时间锁定。此外, 还需要将视觉世界分成几个感兴趣的区域 (ROIs), 其中每一个都与一个或多个对象相关联。其中一个区域包含对应于正确理解口语的对象, 因此通常被称为目标区域。可视化数据的一种典型方法是固定比例图, 其中在时间窗口的每个素材箱中, 每个感兴趣区域的样本的比例平均在参与者和项目之间。
使用从视觉世界中获得的数据, 可以回答不同的研究问题: a) 在粗粒度上, 是受不同听觉语言输入影响的视觉世界中的参与者眼球运动吗?b) 如果有效果, 在审判过程中, 效果的轨迹是什么?它是线性效应还是高阶效应?和 c) 如果有效果, 那么在细粒度水平, 什么时候是最早的时间点, 这样的效果出现, 这一效果持续多久?
要对结果进行统计分析, 应考虑以下几点。首先, 响应变量,即固定的比例, 是低于和高于有界 (介于0和1之间), 这将遵循多项式分布而不是正态分布。此后, 传统的基于正态分布的统计方法, 如 t-检验、方差分析和线性 (混合效应) 模型10, 不能直接利用, 直到比例转换为无界变量, 如使用经验 logit 公式11或已替换为无界依赖变量, 如欧氏距离12。不需要假设正态分布的统计技术, 如广义线性 (混合效应) 模型13也可以使用。其次, 为了探索观察效果的变化轨迹, 需要将时间序列的变量添加到模型中。这个时间序列变量最初是眼睛跟踪器的采样点重新调整到语言输入的起始位置。由于变化的轨迹通常不是线性的, 所以时间序列的高阶多项式函数通常被添加到 (广义) 线性 (混合效应) 模型中,即增长曲线分析14。此外, 参与者在当前采样点的眼位置高度依赖于以前的采样点, 特别是当记录频率较高时, 导致自相关问题。为了减少相邻采样点之间的自相关, 原始数据通常是向下采样或装箱的。近年来, 广义加法混合效应模型 (大卫甘姆) 也被用于处理自相关误差12、15、16。不同的研究中, 箱的宽度各不相同, 从几毫秒到几毫秒不等。研究可以选择的最窄的 bin 受特定研究中使用的眼动仪采样率的限制。例如, 如果眼动仪的采样速率为 500 Hz, 则时间窗口的宽度不能小于 2 ms = 1000/500。第三, 当对每一个感兴趣的时间段重复应用统计分析时, 应处理这些多重比较引起的 familywise 误差。正如我们前面所描述的, 轨迹分析告诉研究员, 在粗粒度上观察到的效果是否与时间的变化有关, 但不显示观察到的效果何时开始显现以及观察到的时间效果持续。为了确定观察到的差异开始偏离时的时间位置, 并计算观察到的效果持续的时间周期, 必须对每个时间段重复应用统计分析。无论使用何种统计方法, 这些多项比较都会引入所谓的 familywise 错误。familywise 错误传统上是通过 Bonferroni 调整17修正的。最近, 一种称为非参数置换试验的方法, 最初用于神经影像18 , 已应用于视觉词范式19控制 familywise 错误。
使用视觉世界范式的研究人员打算从视觉世界中的参与者的眼球运动中推断出某些口语的理解。为了确保这一推论的有效性, 其他可能影响眼球运动的因素应该排除在外或被控制。以下两个因素是需要考虑的常见问题之一。第一个因素涉及参与者的解释性固定的一些系统模式独立于语言输入, 如倾向于注视左上样方的视觉世界, 和移动的眼睛在水平方向比在更容易垂直方向等12、20确保观察到的固定模式与对象相关, 而不是对象所在的空间位置, 应平衡对象的空间位置在不同的试验或不同的参与者之间。影响参与者眼球运动的第二个因素是视觉世界中对象的基本图像特征, 如亮度对比度、颜色和边缘方向等21。为了诊断这一潜在的混淆, 视觉显示通常在口语开始之前或在口头语言的关键声学标记开始之前呈现, 约1000毫秒. 在时间段内从起始测试图像到测试音频的起始, 语言输入或语言输入的消歧义点尚未听到。在不同条件之间观察到的任何差异都应推导为其他混杂因素, 如视觉显示本身, 而不是语言输入。从此预览期间观察到的眼球运动为确定语言输入的效果提供了一个基线。这一预览阶段还允许参与者熟悉视觉显示, 并在提出口语时减少解释性固定的系统偏差。
为了说明如何使用视觉世界范式进行典型的眼动追踪研究, 以下协议描述了从 l. 站17改编的实验, 探讨语义复杂语句的在线处理,即析取语句 (S1 或 S2)、合合语句 (S1 和 S2) 和但语句 (S1 但 not-S2)。在普通养护中, 某些话语表达的信息实际上比字面意义更强。如小明的盒子里有一只母牛或一只公鸡这样的言论。从逻辑上讲, 只要两个外加状语小明的盒子里有一头母牛,小明的盒子里装着一只公鸡, 这个分离语句是真的。因此, 当两个外加状语都为真时, 该分离语句是真的, 其中相应的连词语句小明的盒子里包含一头母牛和一只公鸡也是真的。然而, 在普通的谈话中, 听到 “分离语句” 往往表明相应的连词语句是假的 (标量含义);并表明, 这两个外加状语的真理值是由说话人 (无知推断) 所未知的。文献中的科目不同于两个推论是语法还是语用过程22、23、24、25、26。通过探索三个复杂语句的在线处理, 该实验演示了如何利用可视化世界范式来评判这些帐户之间的关系。
要进行视觉世界研究, 需要遵循几个关键步骤。首先, 研究人员打算通过视觉世界中的参与者的眼球运动推断出触觉所呈现的语言的解释。今后, 在设计视觉刺激的布局时, 应控制可能影响参与者眼球运动的自然任务中眼球运动的性质。然后可以识别口语对参与者眼球运动的影响。第二, 口语中的声学提示是瞬态的, 没有与特定语言类别完全对应的声学特征。为了正确地锁定参与者在某些语言标记开?…
The authors have nothing to disclose.
这项研究是由北京语言文化大学科学基金会在中央大学基础研究基金 (批准编号 15YJ050003) 的支持下进行的。
Pixelmator | Pixelmator Team | http://www.pixelmator.com/pro/ | image editing app |
Praat | Open Sourse | http://www.fon.hum.uva.nl/praat/ | Sound analyses and editting software |
Eyelink 1000plus | SR-Research, Inc | https://www.sr-research.com/products/eyelink-1000-plus/ | remote infrared eye tracker |
Experimental Builder | SR-Research, Inc | https://www.sr-research.com/experiment-builder/ | eye tracker software |
Data Viewer | SR-Research, Inc | https://www.sr-research.com/data-viewer/ | eye tracker software |
R | Open Sourse | https://www.r-project.org | free software environment for statistical computing and graphics |