人机交互之人的因素(3)

本文摘自《Human-Computer.Interaction》第二章,作者:I. Scott MacKenzie,由江南大学设计学院研究生刘兆峰翻译。

2.7 人的行为

人类用他们的感受器,脑,和反射做的事情。当三要素共同努力实现目标时,人类行为便产生了。无论这个行为是绑鞋带,叠衣服,上网搜索,或在手机上输入短信,人类行为就在眼前。更好的行为,通常是以更快或更准确的动作有关,这导致了人类行为的速度与准确性权衡的一个基本性质:速度更快,误差更大;速度放慢,精度提高。在学术论文中报道可以追溯到一个多世纪之前(见Swensson,1972,某个评论),(“拔苗助长”)十分寻常,这个众所周知,而(我们本能地慢下来,避免错误)的常识也让人们裹足不前,很难想象比这种人类行为更平凡的特征了。显然,在一个新的界面和交互技术研究中,确定完成一项任务必须考虑精度和速度的问题。

人类将自己的行为在速度——准确性权衡上定位在一个既舒适又符合自己的目标的方式上。有时我们的行事匆匆,甚至不顾一切;有时我们的又表现地对细节的缜密心思。此外,我们的行为中存在次要任务,如听收音机,与朋友交谈,或驾驶汽车。显然,上下文情景起着重要的作用,这与感受器,脑和反射的限制和能力所起的效果相同。

考虑到人类的行为,在人机交互中我们开始看到其复杂性和挑战,这在传统的如物理、化学等科学中是不存在的。人类带来了多样性和变异性这些特性,而这些特性又带来的不精确性和不确定性。有些人比别人有更好的任务执行力。同时,同一个人可以在某个情景和环境中更加出色完成任务,在其他不同情景和环境中则不会做的这么好。此外,如果是同一人多次在同一语境与环境下执行相同的任务,输出结果也是会有所不同的。

如图2.23所示,在执行任务时人类多样性分布有时可以说明问题。这里分布揭示了执行任务的人的数量(Y轴)与他们的完成任务的能力(X轴)的关系。这个案例中将计算机用户作为人口数,在传统的计算机键盘上打字为执行任务。大部分的人都集中分布在中间的某个地方。这个频带里的打字速度的范围是每分钟30-70个字。有些人慢些,有些人快些。然而,只有很小一部分人会非常的快,即每分钟150字或更快。然而,剩下的那一小部分人,也是一个小数目,他们想要达到中等水平都很困难,比如每分钟打5字,相当于每12秒一个字。

2.23

图2.23 不同的人在打字任务中的表现不一

2.7.1 反应时间

人类行为最原始的表现之一是简单反应时间,其定义为从一个单一固定的刺激发生到反应开始的之间的延迟时间(Fitts和 Posner,1968,p. 95)。例子就是在刺激光线发射前开始反应并按下一个按钮。该任务涉及到人的三要素,如图2.17所示。认知操作是微不足道的,所以任务的研究相对容易。尽管实验设置的装置通常是简单的,在日常工作和在各种情况下,人类所有的时间都在对更复杂的装置做出反应,如电话响铃反应,交通灯或洗澡水温度(热!)。这三个例子都涉及到了运动反应,但感官刺激不同。手机响铃是一种听觉刺激;交通灯改变是一种视觉刺激;热水接触皮肤是触觉刺激。我们已知的是,简单的反应时间根据刺激源的不同而不同,近似值约在150毫秒(听觉),200毫秒(视觉),300毫秒(气味),和700毫秒(疼痛)。(Bailey,1996,p. 41)

进一步探讨反应时间,一个基于Java语言开发的应用程序能够通过实验测试,证明几个任务的反应时间。(见附录A)在描述了每个任务后,给出了实验结果。如图2.24所示的界面为简单的反应。实验开始时,在图形用户界面窗口中出现一个灰色方框。一段时间延迟后,方框变红(在灰度打印下颜色不明显)。这是感官刺激。用户的目标是刺激出现后尽快按下系统键盘按键。灰框的出现和框变红之间的延迟是随机的,防止用户对刺激预期反应。

2.24

图2.24简单反应时间:(a)用户注视于灰色方框(b)一段时间延迟后,方框变红,然后用户尽快按下按键

该软件实现了简单的反应任务三方面的扩展:物理匹配,名称匹配和类别匹配。各增加了一层复杂性的认知操作。这个任务是仿照Card等人的描述而设计的。(1983,65–71)。在物理匹配上,用户看到一五个字母的单词作为初始刺激。一段时间延迟后第二刺激出现,也是一个五个字母的单词。用户应尽快在两个按键中选择一个按下:如果第二个刺激与第一个刺激相匹配,那么就按下“匹配”键,如果不匹配则按下“不匹配”键。匹配发生的概率为50%。实验装置如图2.25所示。

2.25

图2.25物理匹配:(a)最初的刺激(b)一段时间延迟后,第二次刺激出现(c)按键设置

显然,物理匹配比简单的反应更为复杂,因为用户必须将刺激与存储在工作记忆中的编码进行比较。在人机交互中类似任务有很多,如在手机上使用预期输入法(T9输入法)输入文本信息。当输入了一个词后,用户心里会有一个预期的词出现。这是最初的刺激。随着最后用按键按下,系统显示出了一个词。这是第二次刺激。如果给出的单词匹配用户心里预期的话,用户按0确认单词。如果给出的词不匹配预期的话,用户按下*键在匹配的关键序列中继续检索下一个词。(具体操作取决于手机)

名称匹配与物理匹配除了词呈现方式不同以外,其它都大相径庭:大写或小写,固定宽度或无衬线字体,普通字体或粗体,18点或20点大小。如果是同一个词出现,无论字体的外观如何,都算是匹配成功。见图2.26。名称匹配要比物理匹配耗费时间更长,因为“用户必须等到视觉代码已被识别,且代表字母名称的抽象代码可用时,才能做出反应“。(Card 等人,1983,p. 69)

类别匹配,初始刺激包含一个字母或数字。一段时间延迟后,第二个刺激出现,还是包含一个字母或数字。字体是固定宽度或无衬线字体,普通字体或斜体,18点或20点。如果两个符号是同一类的;也就是说,两者都是字母或是数字时,匹配就发生了。类别匹配需要更长的时间,因为“用户需要参考长期记忆”(Card等人,1983,p. 70)。为了避免混淆,0(数字)和O(字母),1(数字)和l(字母)都不包括在内。(见图2.27)

2.26

图2.26 名称匹配:(a)初始刺激(b)第二刺激

2.27

图2.27 类别匹配:(a)初始刺激(b)第二刺激

上面所描述的界面是人机交互课程中实验室测试的一部分。十四名学生作为研究对象,进行了三大组试验,每个条件下测试十次。第一组是实践内容,被抛弃掉。为了抵消学习效果,被试被分成人数相等的两组。一组首先进行简单反应任务,其次是物理,名称,类别匹配任务。另一组执行任务的顺序刚好相反。

实验结果如图2.28所示。简单反应的平均时间为276毫秒。这个值是刚好在反应时间任务范围113—528毫秒的前面位置(见图2.17)。需要注意的是,时间测量是从第二次刺激出现和按键按下后这一事件被软件所识别记录这一过程;因此,测量中也包括了括运动反应时间。

2.28

图2.28实验结果比较了几种反应任务时间。误差线显示标准偏差±1。

根据第二个刺激是否是匹配(482毫秒)还是不匹配(538毫秒)来看,物理匹配需要花费的时间大约是简单反应的两倍。有趣的是,名称匹配没有超出物理匹配很多时间。一种解释是,在名称匹配任务中,外观上的可变性不足,导致需要额外的认知加工时间减少。类别匹配是最艰难的任务,匹配和不匹配的条件下耗费平均时间约为565毫秒。选择反应是另一种类型的反应时间任务。在这种情况下,用户受到N种刺激,例如光线,伴随着N种反应,如打开开关。刺激与反应之间是一个一一对应的关系。选择反应时间建模将在7章中讨论。

2.7.2 视觉搜索

反应时间的一个演变就是视觉搜索。在这里,用户浏览项目集合,寻找所需的目标。显然,随着项目数的增加,所需的浏览时间也会相应延长。上面描述的软件包括一种视觉搜索模式,搜索空间可配置为1,2,4,8,16或32个项目。例如图2.29所示,N = 16。最初的刺激是一个单一的字母。随机延迟两到五秒后,在右侧的区域是被随机选择的字母填满。右侧区域最初出现的刺激有50%的正确率。用户能够适当的按下“匹配”或“不匹配”的按键。

2.29

图2.29:视觉搜索(a)初始刺激(b)在延迟一段时间后字母集合出现

上述实验中的14名学生使用类似的程序又进行了一个小型实验。结果如图2.30中两个图表所示。在(a)中,反应时间(RT)与项目数(N)绘制的坐标图。每个标记揭示的14×(10 + 10)= 280个试验的平均值。标记连接和线性回归线相叠加。在R2 =.9929时,回归模型能够很好的适应。显然,视觉搜索任务的反应时间和浏览数量的之间存在线性关系。这在人机交互文献中广为人知的,特别是在菜单选择上的研究(例如,Cockburn,Gutwin和Greenberg,2007;Hornof和Kieras,1997;Landauer和Nachbar,1985)。对于这个实验,

RT 498+41* N ms               (1)

N = 1是一种特殊情况,因为只有一个需要扫描的项目。这减少了物理匹配任务量。这项任务与物理匹配实验相比略有不同,由于用户需要匹配的是字母而不是一个词。然而,结果如图2.28中所示,与物理匹配的结果一致(RT≈500毫秒)。

在图2.30b中,匹配试验和非匹配试验结果是分开记录的。不匹配的试验需要更长的时间。原因很简单。如果最初的刺激是不存在的,在确定按下不匹配按键前要进行详尽搜索。如果最初的刺激的存在,当初始刺激到达对应刺激区时,用户能够立即按下匹配按键。然而,这种影响只在n = 16和n= 32时显露出来。

在继续讲下去之前,这里有一个有趣的反应时间状况,它与本节的标题——人类行为——有直接关系。想象一名运动员正在参加奥运会100米短跑比赛。有时在比赛中会出现“抢跑”现象。抢跑的定义很有趣:如果运动员在发令枪响起前反应或枪响后100毫秒内反应,就算做该名运动员抢跑。显然,对于发令枪响之前的运动员的反应,其实不是反射反应,而是一种预期反应。定义尽管有趣,然而,抢跑的标准就是运动员在发令枪响起后100毫秒内反应。一百毫秒是濒临人类反应时间的下限,这是引用图2.17中的113毫秒。Card等人限定反应时间的下限在105毫秒(Card等人,1983,p. 66)。打破世界纪录并获得金牌的运动员,位于人类正态分布的尾部的极端位置。在抢跑没发生时,偶然,极其偶然的抢跑了(例如,发令枪响起后95毫秒是诚实的反应吗)?但是反应时间的下限和上述的抢跑情况略有差异。引用的值是对视觉刺激的反应,从而手指按下按键。而在100米短跑中运动反应信号需要传递更长的距离到达脚上。这往往会延长反应时间。同时,在100米短跑中出现的刺激是听觉,而非视觉。听觉反应时间小于视觉反应时间,所以这会缩短反应时间。然而,这个例子说明了低级别的实验心理学的研究在人类行为和人机系统的设计中的应用。

2.30

图2.30 视觉搜索实验结果:(a)结果的线性回归模型(b)匹配和不匹配试验的结果

2.7.3 熟练的行为

前一节中的反应时间的任务很简单:感官刺激启动了一个简单的认知操作,其次是一个简单的运动反应。它只需几个试验被试就可以很轻松地完成任务,额外的实践几乎带来不了任何改善的可能。然而,在许多任务中,人的行为随着实践会持续获得大幅度提高。对于这样的任务,通过学习得到提高的现象如此明显,任务最令人喜爱的特质就是人的行为效果能够进步并逐渐达到标准水平,这个标准可以是速度,精度,成功率等标准。那么,熟练的行为便是人类行为的一个属性,即通过实践必然会提升行为水平。例子包括玩飞镖,下棋,玩电脑游戏或其他程序。你完成这些任务的能力可能与你实践完成量有很大关系。

刚刚选择的那两个案例是有原因的。他们描绘出两类技能熟练的行为:感觉运动技能和心智技能(Welford,1968,p. 21)。在飞镖或其他游戏可能强调的感觉运动技能,而国际象棋或计算机编程能力可能更强调心理技能。当然,这不是二分法。所有的熟练行为都要求精神能力,如感知,决策,判断。同样的,即使是最熟练的任务也需要手和其他器官之间的协调。

虽然如游戏和计算机编程此类任务,可能集中在感觉运动技能或心智技能,相应地,其他的任务可能涉及到相当多的元素。想想一个医师进行微创手术,如常见的腹部手术。为了将装置放入腹腔,末端安装有摄像头和照明装置的腹腔镜通过一个小切口插入,显视器上实时显示图像。工具穿过切口是为了方便地窥视内部器官。外科医生观看监视器屏幕图像,操作工具进行抓握和切割组织。在图2.31a中,外科医生在监视器上进行胆囊切除手术时,工具的抓握(左)和切割(顶部)提示同时显示在屏幕上。工具都是手动的,在病人体外操作。图2.31b显示的是在模拟器上练习使用工具的例子。这个工具是一款复杂的仪器。注意,该工具的语音或弯曲提示,从而给提供医生一个额外的操作自由度(Martinec, Gatta, Zheng,Denk,和 Swanstrom  2009)。显然,人与机器的交互过程包括感觉运动技能(在查看监控时操作工具)和心智技能(知道该做什么和以及如何去做)。

2.31

图2.31感觉运动技能结合心理技能在腹腔镜手术时应用:(a)用于抓取和切割的工具提示(b)在训练模拟器上操作工具和观看外部图像

(照片承蒙温哥华总医院卓越模拟教育和创新中心提供)

学习技能的方法之一就是将过去的一段时间的技能上的进度记录并制成图表。技能水平是一个因变量的测量过程,如速度,精度,或其它一些变化因素。时间因素通常是一个方便的程序单元,如试验迭代,一组或一段数字,或一个以分钟,小时,天,月,年定义的时间单位。人机交互的研究中,测量和建模技术进展十分常见,特别是用户在面对新的界面和交互技术时。对熟练的行为的评价方法将在5章中介绍(见纵向研究),第7章中将介绍提出的数学建模步骤(见技能获取)。在本章的最后的学生练习2-4还将见到相关内容。

2.7.4 注意

开车时发短信。很难想象出一个更具挑衅性的主题来开启对于注意的讨论。虽然驾驶汽车是相对容易的,但是如果他或她选择边开车边阅读和发送短信的话,即便是最有经验的司机也会变成一个潜在的杀手。问题在于,一个人不能同时处理两件任务。就像工作记忆存在瓶颈(7±2项)一样,人处理任务的能力是有限的。但限制是什么?更重要的是,注意的是什么?什么任务需要注意?什么任务又不需要?人类行为是如何被影响的?有一种观点认为,注意是人类行为的一种属性,当一个人在做一件事时不能又同时参与到另一件事中(Keele,1973,p. 4)。例如打字就需要注意,因为打字的时候我们无法同时参与对话活动。另一方面,走路几乎不需要注意,因为此时我们还可以思考,交谈或做其他的事情。研究注意的一个方法是观察和测量人类分别执行两个任务,然后再重复的该过程,但是两个任务要同时进行。任务的绩效在同时进行时绩效降低了,这说明完成任务需要注意。

研究注意的往往离不开两个主题:分散注意和选择性注意(B. H. Kantowitz和Sorkin,1983,p. 179)。分散注意是指在同一时间内集中注意力完成超过一个任务的过程。开车时发短信就是一个例子,而且效果明显。在其他情况下,分散注意力是不构成问题的,就像边走路边说话。选择性注意(又名集中注意)是指因参与一项任务而排

斥其他任务。例如,我们在一个拥挤的充满噪音的房间里和朋友谈话,注意同时阻止了其余的声音干扰。但这也有限制。在相同的谈话中我们有时无法想起刚刚说过了什么话,因为我们的注意力散失掉和脱离了(思维),进而被分散。选择性注意,是无视外部事件,保持对首要任务关注的人类能力。一种选择性注意理论认为,我们有选择地参与到与个人承受能力相当的重要的事件中。一个人在听演讲时,如果别处有人叫他的名字,他就会停下来(转而去找声源)。(Keele,1973,p. 140)。自己的名字在本质上是重要的,当然也可能存在选择性地去继续听演讲的能力。显然,重要性是主观的。Wickens给出了一个飞机坠毁的实例,机组人员的注意都放在飞行安全的驾驶舱没有轴承故障上面(Wickens,1987,p. 249)。人员都关注的是哪里有故障而没有注意到临界高度表的读数显示飞机正在逐渐下降到地面上。故障对机组人员来说具有突出的重要性。

分散和选择性注意之间的区别通常在于通道方面的解释(Wickens,1987,p. 254)。事件在单通道中(例如,视觉,听觉,运动)是并行处理的,而在多通道中事件是串行处理。当事件并行处理时(单通道)一个事件可能会干扰注意另一个事件的能力。当事件串行处理时(多通道),我们的注意努力集中在一个事件上来排除其他干扰,或是在通道之间以一种便利的方式分散注意。

在人的因素中,分析事故是的一个重要的主题,正如上述航空的例子,类似这样的事件从来不会匮乏。公路、航空、航海、工厂中事故总是如影随形,在许多情况下,造成事故的原因至少部分是由于人的因素导致的——操作人员的注意被干扰或有选择地参与到了不适当的活动中。司机和一个骑自行车的人之间发生这种意外,可能是因为一个电子宠物让司机分心了。显然,宠物为“食物”而苦恼,并且产生迫切的需要:哔哔,哔哔哔哔,哔哔,哔哔声。宠物的呼唤在驾驶员看来具有突出的重要性,最终造成了一个可怕的、致命的结果(Casey,2006, 255–259页)。今天,更可能的是打电话带来的危险。统计数据结果令人震惊,但不足为奇的是——增加了23倍的碰撞风险是由于发短信(Richtel,2009)。

在人机交互中注意也有关联的,例如,办公环境下需求任务切换造成任务中断,进而影响生产力(Czerwinski,Horvitz,和Wilhite,2004)。移动时代带来了注意上的环境问题。注意资源不仅有限,用户在行走过程中也是需要的。即使是简单任务,注意的立即转变,也需要不断的警惕,对反应时间的期望要求也越来越高。所谓的心理任务竞争消耗着注意资源,有证据表明在交互中(注意资源消耗过度会造成)这种操作流畅性会最终崩溃(Oulasvirta,Tamminen,Roto,和Kuorelahti,2005)。

2.7.5 人的错误

人的错误可以从多角度去研究。在人机交互实验测试新的界面和交互技术时,误差是一个重要指标。在一项任务或试验中错误是一个输出结果不正确的离散事件,偏离了正确的和期望的结果。事件作为人类行为的组成部分,随着任务的完成时间和其他交互属性的测量结果都被用于记录和分析。通常情况下,错误报告包括出错试验占所有试验数目的比例,这经常以百分数(×100)计算。有时准确性也会报告——正确完成试验占所有试验数目的比例。

如图2.32所示为计算任务的两个例子。两个图标左侧显示了一项图形用户界面目标选择任务。顶部图像显示了目标:将跟踪符号从起始位置移动到目标位置,最后执行一个选择操作。底部的图像显示的是一个错误,因为最终的选择操作发生在目标之外。右侧显示的是一项文本输入的任务。顶部显示的是正确地完成了快速输入单词这一目标。底部图像显示的是任务出错,因为这个词没有被正确地输入。

在人的行为中小的意外和失误也很多。通常,将一个简单的任务的结果仅仅以正确或不正确进行分类不足以完全定义人的行为。我们需要看的东西远超过图2.32中的例子。不仅底部错误结果的任务具有离散性,也存在额外的行为导致任务偏离完美执行的路径。对于目标选择错误来说,跟踪标志导致偏离了直达目标的路径。对于文本输入错误而言,似乎至少部分单词的输入是正确的。

从更广泛的角度来看,研究人的错误往往是研究如何以及为什么错误会发生。再次,可以从图2.32中领悟到一些东西。在错误的目标选择任务中,是否存在输入装置的控制问题?装置是不是设置得太过敏感?这个输入设备是鼠标,触控板,眼动跟踪,

游戏控制器,还是一些其他的输入控制设备?同时需要注意的是跟踪标志进入和退出目标的过程。在任务中的最终目标的捕获是否存在问题?在错误文字输入任务中,如果是键盘输入,用户是不是会因为相邻按键相隔太近出现错按的错误呢?如果案件太小了呢?如果是用手指或手写笔在数字屏幕上输入,用户输入了错误的手势或者不规范的手势呢?如果数字屏幕太小,定位卡顿或不稳定呢?显然,在进一步全面理解错误如何以及为什么发生时,又有许多问题出现了。同时需要注意的是,上述问题不仅仅是只与人有关;他们也是装置和交互操作会出现问题的地方。

2.32

图2.32 常见的计算任务完成结果正确(顶部)和错误(底部)

以一种更广阔的视角来分析错误,则可能会质疑与任务执行相关的外部环境了。噪声,振动,照明或其他环境条件是不是让用户处于劣势地位?用户是在行走时还是在执行另一件任务的同时完成此次任务呢?他们是不是由于其他人的存在而分心了?这些是不是都可能是在社会环境的设定中发生的?

研究人的因素的人员经常会将人的错误作为工业事故的必然因素来审视,这些事故结果都造成了重大人员伤亡。发生这样的事件不只是因为操作者按错了按钮或系统或界面的交互操作失误。通常,失误都是系统性的——是一系列事件共同作用的结果,许多都和人没多大关系。

在某种程度上,重大事故是由于人为错误产生的,更深入的分析往往会揭示更多内容。Casey复述了几十个此类事故,最终得出的结论是,失败往往是由设计引起的误差导致的(Casey,1998,p. 2006)。这一观点重新复述如下:如果操作者误触了开关或输入一个不正确的值,这种行为就会导致严重的事故,这是人的错误吗?也许部分如此,但很明显是,事故是由设计不当引起的,无论是操作者是他还是她。设计如果纯粹基于操作者所犯的交互错误去执行,进而导致灾难性的后果,那么这是一种有缺陷的设计。对于攸关安全的系统而言,操作员的交互行为错误在设计时必须被考虑进去。这样的错误不仅可能发生,而且,他们更可能迟早会发生。攸关安全的系统设计必须满足如此变幻莫测的人的行为。