1、用户体验测试与评价产品的用户体验测试评价就是把构成产品的软、硬件系统按其性能、功能、界面形式、可用性等方面与某种预定的标准或者预想进行比较,对其做出评价。用户体验测试与评价是产品开发设计的一个重要步骤。产品的成功与否需要通过评价以及用户的实践,才能得到最终的判定。8.1 概述从体验的过程角度来讲,用户体验评价大致可分为两类:一类是在产品完成之后做出的最终评价,称为总结性评价(Summative Evaluation);另一类是在设计过程中的评价,称为阶段性评价(Formative Evaluation)。这两类评价在产品的开发过程中都起着重要的作用,是整个用户体验设计的有机组成部分。其中,阶段
2、性评价强调在评价中采用的是开放式手段,如访谈、问卷、态度调查以及量表技术;而总结性评价则大多采用较严格的定量评价,如反应时间和错误率等。从被试选择来看,用户体验也可以分为两类:一类是用户评价(User-Based Evaluation),有时也称用户测试;另一类是专家评价(Expert-Based Evaluation)。如图 8.1 所示。 图 8.1 用户体验测试与评价的分类 可用性评估可以分为三个类别:可用性测试(Usability Test)、可用性调查(Usability Inquiry)和可用性检验( Usability Inspection)(Karat,1997 ;Zhang
3、,2003)。可用性测试的方法比较多,如焦点小组、认知路径法(Cognitive Walkthrough)和启发式评价(Heuristic Evaluation)等(Nielsen and Mack,1994 )。Santon 和Young(1998 )在文献回顾的基础上分离出了 60 余种可用性测试方法。根据产品的具体开发阶段,可用性测试方法可分为四类:探索性测试(Exploratory Test)、评估性测试(Assessment Test)、验证性测试(Validation Test)和对比性测试(Comparison Test)(张光强等,2001)。 图 8.2 社区类网站可用性测试
4、场景示例针对测试方法,人们也在不断地探索和完善之中。周荣刚(2007)提出了一种用户体验质量综合评价的模型:首先建立了包括人机交互角度、用户角度和观察者角度的用户体验质量的 360 指标体系模型,然后针对可用性概念的模糊性及其综合评价中的问题,应用层次分析法确定了指标体系中相关因素的权重,并根据模糊隶属度函数对用户体验质量评价标准进行了模糊化处理,最后采用模糊评价方法对用户体验质量进行评价。8.2 用户体验测试与评价的意义 软件或系统正式交付前需进行严格测试,使用户进行评价。严格的测试方法和评价标准可以促进产品的设计。据统计,在开发新软件时,微软都要将其 Beta 版发往全世界上千个专业用户进
5、行试用,以提出进一步的修改意见,仅此每年可以为软件开发节省数 10 亿美元。对用户体验的测试和评价可以起到以下作用:(1)更加贴近市场,通过市场反馈,进一步了解市场和用户的需求,改进产品的设计;(2)降低产品或者系统技术支持的费用,缩短最终用户训练时间;(3)减少由于用户界面问题而引起的软件修改和改版问题;(4)使产品的可用性增强,用户易于使用;(5)更有效地利用计算机系统资源;(6)帮助系统设计者更深刻地领会以“用户为核心”的设计原则;(7)在界面测试与评价过程中形成的一些评价标准和设计原则对界面设计有直接的指导作用。8.3 用户体验测试与评价的准则 在设计早期,用户体验设计师组织一份设计准
6、则是有必要的。苹果公司的 Macintosh 机之所以获得成功,原因之一是它早期为应用开发人员建立了一组明确的准则,保证在整个产品开发周期中的协调。 设计准则应考虑以下几方面的问题: (1)产品运行前后的一致性; (2)产品的界面方式及可选项内容; (3)系统提示、反馈、出错信息的内容; (4)产品界面中各种术语、缩写、图符的内容、式样、对齐方式等的定义; (5)色彩、亮度、闪烁、图像等技术的使用; (6)各种输入输出设备的类型和使用; (7)产品操作响应时间和显示速率; (8)命令语言的语义、语法、序列; (9)系统控制的灵活性; (10)系统满足适当的功能; (11)可编程的功能键的使用;
7、 (12)产品出错显示和恢复; (13)联机帮助和指导; (14)培训和参考资料。 设计准则的建立主要目的是提出设计原理,为开发人员提供设计的功能需求。准则文件前后应一致并保持文件的完整。它提供了严格的标准,同时具有一定的灵活性,可以根据用户体验设计的发展以及用户需求的变更增加新的内容。这样,用户体验开发的执行过程就会很快,并减少设计的改变。8.4 评价指标和形式8.4.1 评价指标经过可用性工程界多年的不懈努力,对可用性衡量标准的看法逐渐趋于一致,那就是:可用性是特定产品在特定使用环境下为特定用户用于特定用途时所具有的有效性(Effectiveness)、效率(Efficiency)和用户主
8、观满意度(Satisfaction)(张丽萍等,2003)。对于用户体验的评价可以使用不同的四类评价指标,它们是:(1)设计功能的评价(2)信息架构的评价(3)设计效果的评价(4)设计问题的诊断8.4.2 评价形式(1)从设计评价的主体区分(2)从评价的性质区分(3)从评价的过程区分8.5 用户体验测试与评价方法一般来说,用户体验测试主要是借助定性和定量的方法,对用户的生理、心理和行为等相关指标进行研究。用户体验的测试与评价方法还可以参照第四章中的 4.2 用户研究方法,这些方法同时也可以被用来对产品的用户体验进行测试和评价。其他有关评价方法也可以参照人机界面设计(罗仕鉴等,2002)一书第十
9、二章。8.5.1 原型评价方法在产品研发过程中,对于界面设计以及程序的测试来获得用户的反馈是至关紧要的。以用户为中心和交互式设计的重要因素之一就是原型(Prototyping)方法,原型方法的目的是将界面设计与用户的需求进行匹配。8.5.2 简易测试评价方法在条件不允许的情况下,可以采取简易的方法来对用户体验进行评价。其实验构成如图8.3 所示。图 8.3 简易用户体验测试实验室 8.5.3 眼动追踪评价方法眼动在人的视觉信息加工过程中,起着重要的作用。它有三种主要形式:跳动(Saccade)、注视(Fixation)和平滑尾随跟踪(Smooth Pursuit)。眼动追踪可用于揭示用户在研究
10、对象上感兴趣或注意的空间位置及注意的转移过程,因此用眼动追踪技术可以进行界面分析、可用性测试以及人操作的内因分析等。眼动追踪主要跟踪眼睛的运动以及瞳孔的变化,已经有 60 多年的历史了,用于神经生理学和眼科学、知觉和认知、临床研究、人机互动、人机工程学、图形用户界面、网络、广告心理学、眼控人机界面、虚拟现实、生物医学工程、人工智能和机器人学、警觉、运动心理学、军事、航空和交通心理学、人事评鉴等。如 Thomsen 和 Fulton(2007)借助 ASL Eye-TRAC 6000 系统,以 63 名 1214 岁之间的青少年为被试,以 6 幅杂志广告为研究对象(如图 8.4 所示),研究了青
11、少年对于酒广告的注视度以及回忆性。结果发现,青少年对于文字信息的关注度比较少,只使用了平均 0.35 秒,7的关注时间,而对于酒瓶、商标和卡通等内容关注度较高;但是只有少部分人能够回忆起广告的内容。Ozcelik 等(2009)借助 Tobii 1750 EyeTracker 系统,以 52 名 1927 岁之间的研究生为被试,采用眼动跟踪方法研究了色彩编码对多媒体学习的影响,结果显示,色彩编码具有保持记忆和转化的功能,能够增强图形与文字之间的联系,同时有助于对显著信息的理解。 图 8.4 6 幅酒的印刷品广告 在工业设计、用户体验设计、人机交互设计领域,眼动追踪可以用来评价对产品(包括硬件产
12、品和软件产品)设计的感性意象,评测产品设计的特性。 图 8.5 The EyeLink II 头戴式眼动仪图 8.6 眼动仪在实验中的情景在眼动追踪中,眼动仪会记录下眼球注视的点并形成区域、注视顺序注视点的时间以及路径,如图 8.7 所示。 图 8.7 注视点、注视顺序以及注视点的时间 下图 8.8 为 Tobii Demo 中被试的眼动跟踪结果图(八比特熊咨询公司,8-bit Bear Consulting),红颜色表示关注时间最长,黄颜色其次,绿颜色最短。从图中可见,被试关注页面中心和右上角的图片的时间较长。图 8.8 Tobii Demo 中的眼动跟踪结果图图 8.9 眼动追踪对广告、网
13、页界面的评估图 8.10 眼动追踪对手机界面与汽车外形进行评估8.5.3 行为观察评价方法大多数可用性实验室都配备或开发了软件,以观察和登记用户的活动,并有自动的时间标志。在用户与界面进行交互时,界面系统自身能够对用户输入的某些数据进行自动记录,例如出现的错误、特殊命令的使用等,还可以通过计时器,对用户输入进行统计以得到各个事件的发生频率等。与其他观察方法相比,系统监控记录的数据比较精确。其次,在监控系统建立以后,收集数据和统计的过程非常自动化和可靠,而且获得的数据客观公正、具体明确,为进行系统性能的评价、对比提供了客观的基础,并且不存在对用户的任何干扰。其缺点是局限性较大,一般只能搜集到用户对系统的直接操作,不可能收集到有关用户主观性的活动(例如思考)之类的信息。因此,这种方法最好与其他方法一起共同使用。用录像机记录下用户与界面交互的整个过程,包括用户的操作、界面显示的内容,以及用户其他各种状态,如思考过程等。事后向设计者重放,显示用户遇到的问题。与直接观察法相比,它有提供大量丰富的数据信息等优点,并且能长期保持完整的人机交互的记录,提供反复观察和分析的可能。其缺点是录像记录一般都长达 23 小时,分析起来非常费事。因为用录像设备很费钱费时,录像带的重放检验也是一个很乏味的工作,所以只有在想要发现特别的偶然事件时才在关键阶段使用。图 8.11 为行为观察场景。