十种可用性研究方法

本文摘自《Measuring The User Experience》，作者：Tom Tullis和Bill Alibert，由江南大学设计学院研究生刘兆峰翻译。本书是探讨量化用户体验，有兴趣可以购买和阅读中文版《用户体验度量》。

仅供学习研究之用，未经许可，禁止任何形式的转载。

当你选择可用性研究的度量方法时，你应该考虑很多的问题才有可能获得想要的结果，这其中包括研究目的，用户目标，技术上收集和分析数据的可行性，以及项目预算和交付的时间问题。因为每一个可用性研究具有独特的属性，我们不能确切地规定每种类型的研究应该用什么度量方法。

相反，我们能够定义的，是已经确定的是十种可用性研究类型，以及就每种度量类型提出的参考建议。我们提供仅仅是简单的就如何去执行一个具有相似特性的可用性研究实践过程时的建议。反之，对你的研究来说必不可少的度量指标可能没有出现在项目列表当中。同时，我们强烈建议你深入挖掘你手中的原始数据找到新的度量数据，这对项目目标意义重大。

十种常用的可用性研究情景在表中罗列出来了。常用的或者适合每个可用性研究情景的度量方法都显示了出来。以下章节将就这十种情景来分别讨论。

1.完成一笔交易

很多可用性研究的目的是使交易尽可能顺利完成。交易的形式多样，可能需要一个用户完成一次产品的购买，注册一个新的软件，或者出售一只股票等。交易通常有一个界定明确的开始和结束点。例如对于一个电子商务网站来说，用户将看中的物品放到购物车里时，交易可能就已经开始了，当他在屏幕上确认完成了购买时，交易也随之结束。

也许你想收集的第一个可用性度量是任务是否成功完成。每个任务是成功了还是失败了，这显需要有一个明确的结束状态，例如确认交易达成说明任务成功了。

报告参与者的交易成功率是评估交易总体有效性的一个好的的措施。如果交易涉及到某个网站，一些网站的在线度量，如交易的流失率，也是非常有用的。通过了解用户量是在哪个环节流失的，这样你就能够把注意力集中在交易中问题最严重的步骤上了。

计算问题严重程度可以帮助聚焦与交易相关的特定可用性问题的原因。通过为每个可用性问题匹配不同的严重等级，你能够专注于处理任何交易中出现的优先级高的问题。两种类型的自我报告式度量也很有用：返回的可能性和用户期望值。在这些情况下，用户可以选择在哪里进行交易，重要的是要知道什么他们的体验如何。

最好的了解方法之一就是询问参与者是否会再次使用这款产品，该产品是否达到或超过了他们的预期。当用户不得不多次重复完成同一交易的时候，那么效率就是一个合适的可用性度量。效率是通过单位时间的任务完成量来衡量的。

2.产品比较

知道你的产品与竞争对手或以前的版本相比差异在哪里是非常有用的。

通过对比，你可以准确把握产品的优势和劣势所在，判别改进后的版本是否真的比前一个版本有了提升。使用各种可用性度量是比较不同的产品或版本优劣的最好方式。你选择的度量方法应基于产品本身特征。一些产品的目的是最大限度地提高效率，而另一些则试图创造极致的用户体验（这都是不同的）。

对于大多数类型的产品来说，我们建议通过三类可用性度量来对可用性建立一个整体意义上的认知。

首先，我们建议关注一些成功任务采用测量方法。能够正确地完成一个任务对大多数产品而言是必不可少的要求。效率同样需要着重关注。效率包括任务完成的时间，页面浏览数量（就一些网站而言），或操作步骤的数目。通过对效率的查看，你会对该使用产品用户需要耗费多少努力有一个感性的认知。

一些自我报告的满意度度量为用户的整体体验提供了一个很好的总结。满意度测量最有意义的地方在于，它可以说明用户使用产品时在哪些地方会做出什么选择。最后，比较产品间可用性最好的方法就是进行整合和比较式的可用性度量。这让我们从可用性的角度对不同的产品有一个清晰全面的了解。

3.对同一产品的使用频率进行评估

许多产品是基于使用频率的多少来设计使用的。

例如微波炉，dvd播放器，Web应用程序等，它们都是作为工作的一部分来使用，甚至还有我们写这本书都要依靠的软件程序。这些产品需要易于使用并且具有高效性。刻录dvd或用微波炉蹦爆米花所需的工作量被保持在最小限度。我们大多数人都不想浪费时间在很难用的产品上，而且也没那个耐心。

我们建议的第一个可用性度量是任务持续时间。测量完成一系列的核心任务需要的时间将揭示任务所需要的工作量。对于大多数产品来说，完成任务所用时间越少越好。由于某些任务本质上就比其他的任务更复杂，因此比较参与者与专家用户的完成时间是很有用的。其他与效率相关的可用性度量，如操作步骤的数量或网页页面的数目（度量一些网站的情况）也是有用的。每一步的操作时间可能很短，但要完成一项任务需要作出的决策却会很多。

易学性度量评估的是达到最大效率需要的时间和工作量。易学性也可以采取以前使用过的随着时间推移的效率度量的形式。在某些情况下，可以考虑自我报告式的可用性度量，如意识程度和实用性。通过测定用户的意识程度和自我感知的有用性之间的区别，你就能确定，应该优化或突出产品的哪些方面的特质。

例如，用户可能对产品的某些部分意识不到，但一旦他们使用它，就会发现这些部分是非常有用的。

4.评估导航和/或者信息架构

很多可用性研究着眼于提高导航和/或者信息架构。这可能在网站、软件程序或电子消费品中比较常见。

研究可能包括确保用户可以快速和容易地找到他们想要的东西，很容易地在产品不同板块间切换，知道他们自己处于哪一信息层级，有哪些选项可供选择。通常情况下，这些研究涉及到线框的使用或部分功能的原型，因为导航和信息机制、信息架构的设计非常重要，几乎是进行任何其它设计的基础所在。

评价导航最好的可用性度量之一是任务成功率。通过给参与者设定任务，让其找到关键信息（像是在玩“寻宝游戏”），你就可以了解导航和信息架构是否在任务中起到作用。搜索任务应该触及产品的各个区域。用于评估导航和信息架构的一个效率度量就是迷失度，将参与者完成任务所需的步骤数（例如，Web页的访问步骤）与相对完成任务最低步骤数相比。

卡片分类是了解用户对信息组织方式的一个特别有用的方法。有一种卡片分类研究被称为封闭式分类，就是参与者将卡片归类到已经预定义好的类别之下。从封闭型卡片分类研究中衍生的一个有用的可用性度量是：放置到正确的类别项目下的卡片与卡片总数的百分比。这种可用性度量显示了信息架构的直观性所在。

5.提高认知

并不是每一个设计进行可用性评估的目的都是让产品使用起来更容易或更有效率。一些设计改良的目的是增加特定内容或功能的认知性。这种做法对在线广告来说是十分必要的，但这对于具有重要功能但没有得到充分利用的产品来说也是可用的。可能有很多原因导致一些功能不被注意或使用，这其中包括一些视觉、标签、或放置位置方面的设计。

首先，我们建议监控有问题元素的的交互次数。这也并非万无一失，因为参与者可能注意到了一些东西只是没有点击它或着只是在某种程度上进行了交互。相反，产生了交互，但是自己没有注意到这种相反的现象也不会发生。因此，数据可以帮助确认认知度，但不能表明缺乏认知度。有时自我报告式的度量中关于参与者是否注意到或意识到一个特定的设计元素的数据也是有用的。

测定显而易见性的方法是向参与者指出特定元素并询问他们在任务进行的过程中是否注意到了这些元素。认知度度测量包括询问参与者在研究开始前他们是否了解产品的某个功能。然而，目前还不清楚这些数据的可靠性如何。因为并不是每个人都有很好的记忆力，有些人试图挽回面子，说他们看见了，尽管事实并非如此。因此，我们不建议这是你唯一的评估方法，你应该搜集其他数据源来补充你的结果。

记忆是另一个有用的自我报告式的可用性度量。例如，你可以为参与者展示几个不同的元素，实际上里面只有一个元素是他们之前看到的，然后让他们选择哪一个是他们在任务中见过的。如果他们注意到了这个元素，他们的记住的可能性要大于猜测。但如果您有可用的技术，也许用来评估意识的最好的方式是测量行为和生理数据，如眼动跟踪数据。使用眼动跟踪技术，你可以测定花费在寻找一个特定的元素上的平均时间，有多少比例的参与人员在看它，甚至是第一次注意到是花费的平均时间。

在评估网站时候，另一个要考虑的度量数据是在线的网站数据变化。观察不同的设计中的流量模式变化，将帮助您确定其相对于认知之间的关系。在直播网站上替代设计的同步测试（A/B测试）是一个越来越普遍的方式，用来测量小的设计变更是如何影响用户行为的方法。

6.发现问题

发现问题的目的是确定主要的可用性问题。在某些情况下，您可能没有任何先入为主的想法，不知道产品上哪个可用性问题是最重要的，但是你想知道是哪里惹恼了用户。这种方法往往是针对现有的，但还不曾经过可用性测试的产品而言的。

发现问题式的研究也可以用于周期性检查用户是如何使用产品，他们之间是如何进行交互的。问题发现式研究与其他类型的可用性研究有所不同，因为它通常是开放性的。

问题发现式研究中的参与者可能会完成他们自己的任务，而不是你所指定的具体的任务。尽可能保持真实性对于研究也是很重要的。这经常涉及到用户正在使用的产品和用户通过自己的账户去完成一些只与他们自己相关的任务。它也可能包括对参与者使用产品时所处环境的评估，如在家中或工作场所。

因为他们可能正在完成不同的任务，使用情景可能不同，因此对各个参与者进行比较可能是一个挑战。基于问题的度量可能是最合适于问题的发现。假设你捕获了所有可用性问题，那就很容易将这些数据转换成频率和类型。例如，您可能发现40%的可用性问题涉及到高级别的导航，20%的问题与混淆的术语有关。

尽管每个参与者所遇到的具体问题可能是不同的，你仍然可以概括到一个更高层次的问题范畴中。检查频率和具体问题的严重程度将揭示有多少重复的问题正在被发现。这是一个一次性的事件还是属于反复出现的问题？通过编目所有问题及其严重程度，你能够得到一个快速优化设计的列表出来。

7.关键产品的可用性最大化

虽然有些产品是力求易用和高效，如手机、洗衣机等产品，而有些产品时必须易于使用，且具有高效性，如电击器，投票机，或者飞机上的紧急出口指示。关键产品与非关键产品的区别就在于，关键产品存在的全部理由就是为用户完成一个非常重要的任务。没有完成任务将会带来十分严重的负面后果。

对于任何关键的产品来说可用性测试是必不可少的。但只是在实验室中进行少量用户测试还是不够的。基于目标的用户使用性能测量是很重要的。任何不能满足其可用性目标的关键产品都需要进行重新设计。由于这些数据要有相当的可信度，所以你可能需要邀请大量的用户参与研究。一个很重要的可用性度量是用户错误。这可能包括在执行特定任务时的错误或误操作的次数。错误并不总是容易界定的，所以如何去定义错误需要特别关注的。最好是很明确的定义出什么是错误的，什么不是错误。

任务是否成功也是重要的评估依据。在这种情况下，我们建议使用一个二进制的方法来处理。例如，对一个便携式电击器的最真实的可用性度量的目标就是有人能够独自成功地操作使用。

在某些情况下，你可能希望任务成功是通过不止一个度量来评估，你可能希望任务在一个特定的时间内无差错地完成。其他与效率有关的可用性度量同样有用。还是以电击器为例，只是正确地使用它是一回事，能否在有限的时间内快速及时地完成又是另外一件事了。自我报告式的指标是相对于关键产品而言不那么重要。用户自己想如何使用他们手中的产品并不重要，重要的是他们实际上真的使用成功了。

8.创造具有整体性的积极的用户体验

对于一些想努力创造杰出用户体验的产品来说，只具备可用性是远远不够的。这些产品需要既能吸引用户，又能发人深省，而且具有娱乐性，甚至可以让用户稍微上点瘾。

iPod和TiVo就是我脑海里能想到的两种产品。这些产品，你和朋友即便是在一个聚会上谈论它也无伤大雅。这种产品的知名度通常以惊人的速度上升。尽管产品好的用户体验特征是非常主观的，但他们仍然是可测量的。

虽然某些性能度量可能是有用的，但是真正重要的是用户的想法，感觉以及如何来描述他或她的使用体验。在某些方面，这与测量一个关键产品的可用性方法相比恰好相反。如果起初用户使用地并不顺利，这可能还不是产品的末日。真正重要的是有多少用户在当天使用结束后的感觉是什么。当测量用户的整体使用体验的时候，自我报告式度量是必须考虑的。

满意度也许是最常见的自我报告式度量了，但它可能并不是最好的一个。只是“满意”通常是不够的。我们使用的最有价值的自我报告式度量之一是用户期望。最好的体验是那些超出用户期望的体验。当参与者说产品比他之前预想的更容易，更高效，更有趣时，你就知道你做到了。

另一种自我报告式度量涉及到将来的使用。例如，您可能会问这样一些问题：购买的偏好是什么，是否会推荐给朋友，或者以后还会不会用等问题。另一个有趣的可用性度量涉及到用户可能会有的潜意识反应。例如，如果你想确保你的产品是吸引人的，你可以观察一下用户的生理数据。瞳孔直径的变化可以用来测量唤醒水平，或者如果你想尽可能多的消除应力，你可以测量心率和皮肤电导率变化。

9.评估微小改动的影响

不是所有的设计改动都会对用户行为产生显著影响。

一些设计改动是非常小的，对用户行为影响也不是很明确。但是即使是微小的改动，只要具备足够多的用户量，同样可以产生巨大的用户群体影响。这种微小的改动可能是视觉设计的不同方面，如字体和尺寸的选择，元素位置变化，视觉对比度，颜色和图像选择等。非视觉元素，如内容或术语的细微的变化，也会对用户体验产生影响。

也许衡量微小的设计改动影响的最好方式是通过网站A/B测试的实时在线度量。A/B测试涉及到原设计与替代设计的比较。对于网站来说，这种方法通常是转移一部分网络流量给替代设计，然后对比度量数据结果，例如将网站流量或产品购买量与原设计对比。一个拥有较大用户量的在线可用性研究也可以是非常有用的。如果你不具备进行A/B测试或在线研究所需的技术条件，我们建议你使用电子邮件和网上调查的方式，从尽可能有代表性的参与者那里得到反馈信息。

10.替代设计比较

最常见的可用性研究类型之一，就是多个替代设计方案的比较。通常情况下，这些类型的研究都发生在设计过程的早期，在任何一个设计得到充分优化之前完成。

（我们通常称这些为“设计烘焙”）不同的设计团队一起完成多功能的原型的设计，我们依据预定义的可用性度量来评估每一个设计。进行这样的研究有一个小技巧。因为设计方案往往是相似的，因此从一个到另一个设计之间用户可能具有很高的学习效应。让同一参与者在不同的设计里执行同样的任务，通常不会产生有价值的信息，即使是特意对设计方案和设计任务的顺序进行了平衡也无法抵消。

对这个问题有两种解决方案。你可以设定研究是在纯粹的不同设计主体之间进行，即让每个参与者只使用一个设计。这能够获得一个免于干扰的数据集，但需要更多的参与者加入。或者就是，你可以要求参与者使用一个主要设计来完成任务（平衡设计方案），然后显示其他的设计方案，并询问他们的偏好。这样你可以得到从每个参与者关于所有设计的反馈。

当比较很多设计方案时，最合适的度量是基于问题导向的度量。比较高、中、低三种问题严重程度不同的设计方案将有助于揭示哪种或者哪些设计更有用。理想情况是，最终设计应该是整体问题较少，且严重程度较高的问题较少的设计。

任务成功率和任务完成时间的度量也是有用的，但由于样本量通常较小，这些数据往往价值有限。两种自我报告式的度量特别有用。一是要求每个参与者选择他们最愿意在将来使用的设计原型（作为一个被迫选择的比较）。同时，要求每个参与者依据不同评价维度，如易用性和视觉吸引力等来进行评估，也能够帮助发现问题。