如何开展一个启发式评估

来源:百度文库 编辑:神马文学网 时间:2024/04/28 18:56:18

如何开展一个启发式评估
作者:by Jakob Nielsen

启发式评估法(HeuristicEvaluation)是一种用来发现用户界面设计中的可用性问题从而使这些问题作为再设计过程中的一部分被重视的可用性工程法。启发式评估法包括让一小批评估人员评估界面以及判断这些界面是否符合已经确认的可用性规则(即Heuristics)。
一般而言,启发式评估法是很难让单个评估人员去做的,因为一个人永远不可能发现一个界面上所有的问题。幸运地是,许多不同的项目经验已经表明不同的人可以发现不同的可用性问题。因此,我们可以通过使用多个评估人员的方法来大大地提高启发式评估法的效率。图1中显示了一个关于启发式评估法的案例分析中的一个例子,在这个方案里,19个评估人员被用来发现一个让客户进入他们的银行账号的语音回复系统中的16个可用性问题(Nielsen1992)。图中每个黑色方块表示一个评估人员发现了其中的一个问题。图中清楚地显示,在一大块区域里不同的评估人员发现的可用性问题是不相重叠的。非常明确,一些问题是非常容易发现的以至几乎所有的评估人员都发现了,但是也有一些问题只有很少的几个评估人员发现。此外,我们不能只是鉴定谁是最好的评估人员然后完全依赖这个人的发现。首先,同一个人他/她并不每次都是最好的评估人员。第二,一些最难发现的可用性问题(图中最左边的部分)却被那些并没有发现很多问题的评估人员发现了。因此,在任何启发式评估中使用多个评估人员是非常必要的(关于最理想的评估人员的数量请参看翻译的另一篇文章)。我的建议是在一般情况使用3到5个评估人员,既然我们不会通过使用大批量的评估人员来获得额外的信息。


图1显示了在对一个银行系统的启发式评估中哪个评估人员发现了哪个可用性问题。每一行代表一个评估人员,每一列代表一个可用性问题。每一个方块表示是否那一行代表的评估人员发现了那一列代表的问题:黑色表示评估人员发现了这个问题,白色表示没有发现。所有行按最成功的评估人员在最下面最不成功的评估人员在最上面的规则排列。所有列按最容易发现的可用性问题在最右边最难发现的问题在最左边的规则排列。
启发式评估法通过每个评估人员单独检查界面来执行。只有当所有的评估都结束之后,评估人员才被允许交流并将他们的发现整合在一起。为了确保每个评估人员独立的无偏见地进行评估,这个过程是非常重要的。评估的结果可以通过两种方式记录:让每个评估人员做书面报告或者让所有评估人员边仔细查看界面边口述他们的意见给一个指定的评估观察员。书面报告体现了正式的评估记录,但需要评估人员付出额外的精力以及评估管理者去读记录并总结。增加一个观察者增加了每个评估环节的管理费用,但却减少了评估人员的工作量。另外,由于观察者只需理解并整理一组自己写的而不是别人写的记录,所以评估结果也就会在评估的最后一个环节之后相当短的时间内完成。此外,观察者可以在评估人员操作界面的同时遇到类似界面不稳定等问题的时候协助评估人员,也可以在评估人员只有有限的专业知识并需要人对界面上某些特定方面做出解释的时候提供帮助。
在一个用户测试情形中,观察者(通常叫实验者,Experimenter)有责任解释用户的行为动作从而推断这些行为动作在界面设计中如何跟可用性问题如何联系起来。这样,即使在用户对用户界面设计一无所知的情况下也可以进行用户测试。相反,分析用户界面的责任就放在了一个启发式评估环节中的评估人员,因此,一个观察者只需要记录评估人员对界面的评论意见,不必去解释评估人员的行为动作。
启发式评估和传统用户测试之间的另外两个区别就是观察者在评估过程中回答来自评估人员的问题的自动自发性和评估人员在使用用户界面的时候获得的提示和线索的程度。在传统用户测试中,人们一般想要发现用户在使用界面时所犯的错误;因此,实验人员(Experimenters)只愿意提供绝对必要的帮助。此外,用户需要通过使用系统来找到回答他们问题的答案,而不是让实验人员解答。在对一个特殊领域应用的启发式评估中,拒绝回答评估人员关于这一领域的问题是不合理的,尤其是在非此领域专家在充当评估人员的时候。相反,回答评估人员的问题可以使他们更好地评定用户界面在关于这一领域方面的可用性。同样地,当评估人员在使用界面时遇到问题的时候,他们可以获得提示如果去继续操作从而不致于浪费宝贵的评估时间。然而,有一点必须重点指出,只有在评估人员很明显地遇到麻烦并已经对可用性问题提出问题的时候才能被给予帮助。
一般地,单个评估人员进行的一个启发式评估过程需要1到2个小时。对于更大的或有大量对话的复杂界面可能需要会需要更长时间的评估过程,但是对于这类界面如果能把评估分成几个更小的过程,每个过程集中在界面的某一部分的话就更好了。
在评估过程中,评估人员多次查看界面,检测各类对话,并把他们与一系列已经认可的可用性原则(Heuristics)进行比较。这些Heuristics是用来描述易用界面通常具备的共同特点的通用原则。除了要将一系列通用Heuristics考虑到每个对话成分中去之外,评估人员也明显允许去将他们想到的任何与任一对话成分相关的可用性原则或结果考虑进去。此外,可以将应用到特殊类型产品中的特殊种类的Heuristics发展成为对通用Heuristics的补充。有一种建立一个特殊种类heuristics的补充列表的方法是对某一特类中已有的产品进行competitive的分析和用户测试,并尽量去概括出原则来解释发现的可用性问题。(Dykstra 1993)
原则上讲,评估人员自己决定如何去评估界面。然而,一般的建议是他们至少得把界面过两遍。第一次是用来感觉一下交互的流程以及系统的总体范围。第二次则允许评估人员在获知某些特别的界面元素如何适用在更大的整体里的前提下,集中精力在这些界面元素上。
由于评估人员并不是在使用系统做真正的任务(Real Task),所以对于那些存在与纸上还并未实现的用户界面进行启发式评估也是可以的(Nielsen 1990)。这一点使得启发式评估法适合运用在可用性工程开发周期的早期。
如果要评估的系统是大众化的或者评估人员本身就是该领域专家,那么评估人员在使用系统的时候不需要有更进一步的协助。如果系统是针对某一特殊领域的并且评估人员对这一领域相当无知的话,那么就非常有必要为评估人员提供协助以使他们能够正常使用这些界面。有一种已经被成功应用的方法是提供给评估人员一个典型的使用场景,列出用户为了进行一组现实的任务而需要做的各类步骤。为了尽可能地接近系统最终的被使用情况,这样一个场景必须建立在对真正用户和他们的作业的进行任务分析(Task Analysis)的基础上。
使用启发式评估法后输出的结果是一系列在评估人员眼里违背了可用性原则的用户界面上的可用性问题。评估人员不能简单地说他们不喜欢什么,他们必须解释依据Heuristics或其他可用性成果解释为什么他们不喜欢。评估人员应该尽可能地做到详细明确,并将每个可用性问题单独列出来。举个例子,如果某个对话元素(DialogueElement)有3个问题,每个问题必须跟可以解释为什么这个问题就是一个可用性问题的可用性原则列在一起。将每个问题分开注明主要有两个原因:首先,即使一个对话元素(DialogueElement)会完全被一个新的设计替代,跟这个对话元素相关的有问题的方面也有重复出现的危险,除非你知道这个对话元素的所有问题。第二,可能一个界面中的所有问题不能全部解决或者用一个新的设计替代这个界面,但是对于所有我们知道的问题中的一部分,始终是可以解决的。
启发式评估法无法提供一个系统的方法找到解决可用性问题的方法,也不能提供一个途径去检测任何再设计的大概的质量。但是,因为启发式评估法旨在利用已确立的可用性原则来解释每个发现的可用性问题,所以要根据由已经被违背的、好的交互系统需具备的原则所规定的设计准则来制定一个修正的设计方案是相当容易的。另外,很多可用性问题在刚被发现的时候就已经有很明显的解决方法了。
例如,如果问题是用户无法把一个窗口(Window)中的信息复制到另一个窗口,那么,很显然,解决方案就是增加这样一个复制的功能。同样的,如果问题是大小写格式和字体使用的不一致性,那么解决方案明显是在整个界面上使用同一种格式。然而,即使对于这些简单的例子,设计者也没有信息可以帮助自己对界面设计出明确的修改方案(比如,如何使用户能做复制操作,或应该用两种字体格式中哪种来统一)。
有一种从启发式评估方法中延伸出一些设计建议的方法就是在最后一个评估环节之后制定一个任务报告的过程。参加这个任务报告过程的人员应包括评估人员,每个在评估过程中使用到的观察者以及设计小组的代表们。这个任务报告的过程主要采用自由讨论的方式,并把精力集中在讨论那些可能的旨在解决主要的可用性问题和原设计中大致有问题的方面的再设计上。由于启发式评估并不注重发现设计中好的方面,因此,任务报告也为讨论设计中比较好的方面提供了一次非常好的机会。
启发式评估被明确地成作是一种“便宜的可用性工程”(Discount Usability Engineering)方法。研究(Jefrieset al.1991)已经明确证实,启发式评估是一种非常有效的可用性工程方法。在我其中一个案例分析中发现启发式评估法中的利益-开销的比例是48:1:使用这个方法的开销大概是10,500美圆,而预期的利益大概在500,000左右(Nielsen1994)。作为一个“便宜的可用性工程”方法,启发式评估不能确保提供完美的结果或者发现一个用户界面上的每一个可用性问题。
测定评估人员的数量
理论上讲,单个评估人员可以针对一个用户界面进行启发式评估,但是多个项目的经验表明当只有单个评估人员的时候,评估的结果非常地差。6个我做过的项目平均下来,发现单个评估人员只找到了界面上35%的可用性问题。然而,由于不同的评估人员可以发现不同的问题,所以通过将多个评估人员做的评估结果整合起来可以大大提高评估的成果。图2显示了随着越来越多的评估人员的加入发现的可用性问题所占的比例。图中清楚地显示了在使用多于一个评估人员的时候有一个非常好的盈利点(Payoff)。看起来,推荐使用大概5个左右的评估人员是很合理的,当然必须至少3个。使用的评估人员的明确数量要看开销-利益分析的结果。明显地,在那些可用性已经是很差的案例中或者当由于系统的大量的广泛的使用可以预见巨大的赢利的时候,更多的评估人员可以投入使用。


图2:曲线显示了不同数量的评估人员通过启发式评估法找到的一个界面上的可用性问题的比例。曲线代表了6个启发式评估中的平均结果。
Nielsen和Landauer(1993)在下面的关于可用测试中可能发现的可用性问题的数量的预测方程的基础上引进了这样一个模型:
ProblemsFound (i) = N (1 - (1-l) i)
ProblemsFound(i)代表通过合计i个独立的评估人员的评估报告后发现的不同可用性问题的数量。N表示界面上的可用性问题的总数,I表示单个评估人员发现的可用性问题在全部问题中所占的比例。在6个案例分析中(Nielsen和Landauer 1993),I的值的范围在19%和51%之间,平均值为34%。N的值的范围是在16和50之间,平均值为33。使用这个方程得到的曲线与图2中的非常相似,虽然曲线的确切形状随着变量N和I的改变而改变,其中N和I根据不同项目的特点而改变。
为了确定评估人员的最理想数量,我们需要一个启发式评估的开销-利益的模型。这个模型中的第一个要素是通过考虑固定的和不定的开销来计算使用这个评估方法的开销。固定开销是指那些不管有多少个评估人员都需要支付的开销,包括设计评估方案需要的时间,准备材料,以及写评估报告或者交流评估的结果。不定开销是指每次一个新的评估人员加入时需要的额外的费用,包括那个评估人员的工资,分析评估人员报告的费用,以及在评估过程中所用到的电脑等其他资源。根据多个项目的公布的数据,一个启发式评估的固定开销在3,700美元和4800美元之间;每个评估人员的不定开销在410美元和900美元之间。
实际的固定和不定开销在不同的项目中明显不同,并依赖每个公司的开销结构以及被评估的界面的复杂程度。举个例子,如果一个项目中启发式评估的固定开销时4000美元,每个评估人员的不定开销时600美元,那么,在这个项目中使用i个评估人员进行启发式评估的总费用就是(4000+600i)美元。
启发式评估法的益处主要是可用性问题的发现,虽然在某种程度上可以获得一些持续的教育的益处,比如,评估人员可以通过比较他们自己的报告和其他评估人员的报告来提高自己对可用性的理解。对于上面的范例项目中,通过使用Nielsen和Landauer(1993)在多个公布的研究中的得出的一个数据,设想发现一个可用性问题值15,000美元。在真正的项目中,我们明显需要在预期的用户数量的基础上估计发现可用性问题的价值。对于在内部使用的软件,这个价值可以在用户生产力预期的提高的基础上进行估计;对于那些在开放市场上出售的软件,这个价值可以在由于更高的用户满意率或更好的ReviewRatings而引起的销售的预期增长的前提下被评估。注意:真实的价值只来源于那些在软件出货之前真正解决的可用性问题。由于不可能解决所有的可用性问题,每个发现的问题的价值只是一个最后解决的问题的价值中一部分。


图3:曲线显示了在一个使用了上面讨论到的设想的范例项目中使用启发式评估所获得的利益是花费的多少部。这个例子中,评估人员的理想数量是4,并且获得的利益是花费的62倍。
图3显示了在这个范例项目中,不同数量的评估人员对应的利益和花费之间的不同比例。曲线表明当前项目中评估人员的最理想数量是4,这点证实了文章开头提到的启发式评估中最好使用3-5个评估人员的说法。在这个例子中,有4个评估人员的启发式评估花费6,400美元,并找到价值395,000美元的可用性问题。
参考书目
Dykstra, D. J. 1993. A Comparison of Heuristic Evaluation andUsability Testing: The Efficacy of a Domain-Specific HeuristicChecklist. Ph.D. diss., Department of Industrial Engineering, TexasA&M University, College Station, TX.
Jeffries, R., Miller, J. R., Wharton, C., and Uyeda, K. M. 1991. Userinterface evaluation in the real world: A comparison of fourtechniques. Proceedings ACM CHI‘91 Conference (New Orleans, LA, April28-May 2), 119-124.
Molich, R., and Nielsen, J. (1990). Improving a human-computer dialogue, Communications of the ACM 33, 3 (March), 338-348.
Nielsen, J. 1990. Paper versus computer implementations as mockupscenarios for heuristic evaluation. Proc. IFIP INTERACT90 Third Intl.Conf. Human-Computer Interaction (Cambridge, U.K., August 27-31),315-320.
Nielsen, J., and Landauer, T. K. 1993. A mathematical model of thefinding of usability problems. Proceedings ACM/IFIP INTERCHI‘93Conference (Amsterdam, The Netherlands, April 24-29), 206-213.
Nielsen, J., and Molich, R. (1990). Heuristic evaluation of userinterfaces, Proc. ACM CHI‘90 Conf. (Seattle, WA, 1-5 April), 249-256.
Nielsen, J. 1992. Finding usability problems through heuristicevaluation. Proceedings ACM CHI‘92 Conference (Monterey, CA, May 3-7),373-380.
Nielsen, J. (1994). Heuristic evaluation. In Nielsen, J., and Mack,R.L. (Eds.), Usability Inspection Methods. John Wiley & Sons, NewYork, NY.
10条可用性准则(Heuristics)
系统状态的可见度
系统应该始终在合理的时间以适当的反馈信息让用户知道系统正在做什么。
系统和现实世界之间的吻合
系统应该用用户熟悉的词,短语和概念来说用户的语言,而不是用面向系统的术语。遵循现实世界中的惯例,让信息以自然的合乎逻辑的次序展现在用户面前。
用户控制和自由
用户经常错误地选择系统功能,所以在不需要查看由于误操作而延伸出来地对话的情况下有一个明显地标志为“紧急退出”的操作来离开不想要的状态。另外,系统需要支持“撤销操作”和“重做”的功能。
一致性和标准
用户不必去担心是否不同的词,情形或动作意味着同一件事情。遵循平台惯例。
预防错误的发生
一个事先就能预防问题发生的细致的设计要比好的错误提示信息好的多。
识别而不是回忆
使每个对象,动作,和选项都是可见的。用户在从对话的一部分到另一部分的过程不必去记忆信息。系统使用说明在任何适当的时候都应该使可见的或者很容易被获取。
使用的舒适性和高效性
加速器-初级用户未见过的-可以经常加快专家用户的交互操作,如此系统就能同时迎合无经验和经验丰富的用户的需要。允许用户进行频繁的操作。
有审美感的和内容最少的设计
对话中不应该包含无关的或者很少需要的信息。任何一个对话中的额外信息会严重影响对话中相关的信息并降低这些相关信息的可见性。
帮助用户识别错误,诊断错误并从错误中恢复过来
错误提示信息应该用简单的语言而非代码来表达,正确恰当地指出问题所在,并建设性地提供一个解决办法。
最初在1990年我和Rolf Molich合作开发了启发式评估法的准则 (Molich and Nielsen 1990; Nielsenand Molich 1990)。随后,我在一个249个可用性问题的要素分析的基础上精简了这些准则并得到了一组最具解释力的准则,结果就是上面这一组修订过的准则 (Nielsen1994b)。
更新2004
我在2004年的关于以往可用性指导准则的可适用性方面的最新发现将在拉斯维加斯和阿姆斯特丹的2004年用户体验会议中被介绍到。