评估的基础知识
评估是设计过程的组成部分之一。一般来说,评估是系统化的数据搜集过程。用户在和界面草图、原型或实际开发的软件(可运行系统)进行交互的过程,开发者应当收集关于系统的可用性和用户体验方面的信息,从而改善其设计。
企业需要好的设计,同时也需要好的方法来评价和指导好的设计;用户也期望得到一个令人愉悦和感到参与感的系统。这就是评估的桥梁作用。例如,我们可以从用户是否能够找到相应的菜单项、图像是否起到了吸引用户的作用、产品是否引人入胜等等。
一个评估的例子
近日在华为体验时,我们就被邀请去对新一代 Harmony Next
的云服务进行了体验,并给出了相应的意见。这就是对实际开发的软件进行交互后所得出的用户反馈。华为的相关产品经理也听取了我们的意见,相当于收集了用户体验方面的信息。例如,如果我们希望对云服务进行评估,我们可以在以下方面进行:
- 人们是否可以轻易地找到云服务的入口,并对其进行配置?
- 人们是否可以区分本地文件的上传状态?
- 人们是否在大多数场景下都可以使用云服务?
- 当多台设备同时使用同一账户的云服务时,如何解决各个设备本地与云端文件的冲突问题?
需要注意的是,邀请用户进行评估的目的不是设法理解用户,而是评估特定用户在一个特定的环境背景下如何使用一个系统来执行一个特定的任务。也就是说,评估不是用户心理学,而是有成体系的目标和定量分析。
有些时候,评估的场地和时机是比较容易被忽略的点,但是当评估特定的对象时,它们的选择是重要的。例如场地方面,智能手机布局的评估应当在实验室或者会议室进行,因为这些场地可以提供必要条件系统地检查产品是否满足用户的需求;而对于小孩子的玩具评估,则应当采取实地的场景进行评估,这样会让涉众更加放松自然。至于时机方面,评估并非要等到交互设计完成之后再进行。如果研发新产品,那么就会投入大量的时间进行市场调研、需求设计、草图和故事图版的设计,然后通过评估对产品和需求的一致性进行检验,这就是形成性评估;而评估已完成产品成功与否则被称为总结性评估。形成性评估主要的目的是调整和完善设计,而总结性评估的主要目的是确定产品需要改进的方面。
评估原则
如果希望制定有效可行的评估,就应当遵循一些好的评估原则:
- 评估应当依赖产品的用户:与专业技术人员的水平和技术无关;
- 评估与设计应当结合进行:如果总是靠用户最后对产品的一两次评估,是不能完全反映出软件的可用性的,需要反复迭代。
- 评估应该在用户的实际工作任务和操作环境下进行:这样才能根据用户完成任务的结果进行客观的分析和评估。
- 评估要选择有广泛代表性的用户:参加测试的人必须有代表性,否则就是无用功。只有真正使用产品的用户才具有代表性。
评估范型
评估有一些可供参考的范型,包括快速评估、可用性测试、实地研究和预测性评估。
快速评估
设计人员非正式地、快速地向用户或顾问了解反馈信息,用来证实构思是否符合用户的需要。这一评估方式可以在任何阶段进行,并且强调快速了解,而不是仔细的记录和发现,因此,最终得到的数据经常是叙述性的而非形式化的。
这一方法广泛用于设计网站、简单的小程序等简易项目。往往,用户的需求不算庞大,开发的工作也不算繁杂。它的最大特点就是快速。
(关键评估技术因素:可以在周期中的任何位置 响应及时 所需资源少)
可用性测试
可用性测试用来评测典型用户执行典型任务时的情况。这一方法提供对用户执行情况的量化表示,例如,可以统计用户的出错次数、完成任务的时间等。这一过程是在评估人员的密切控制之下进行的。但是它也有某些缺点,如测试用户的数量往往过少,并且不适合进行细致的统计分析。
(关键评估技术因素:定量数据)
实地研究
在自然工作环境进行的评估方法,便于理解用户的实际工作情形以及技术对它们的影响。这一方法可以更贴近实际地去确定产品需求、评估现有技术的应用和促进新技术的引入。但是缺点也相对比较明显:用户的选择是自由的,很难预测即将发生和出现的情况,并且想要对受试者完全不影响是很难的。
(关键评估技术因素:工作环境 对用户的干扰小)
预测性评估
研究性人员通过想象或对界面的使用过程进行建模,而用户可以不在场。多用于比较相同应用不同界面的原型法,例如使用
(关键评估技术因素:主观 所需资源少)
人机交互的实证研究方法
实践是检验真理的唯一标准,在人机交互上也不例外。人机交互的实证研究方法归纳了大致的实验思路。人机交互的一次实验,通常从研究假设开始。
研究假设
研究假设是一种可以通过实证研究直接检验的精确问题陈述,它奠定了一个实验的基础。在人机交互中,研究假设一般分为两种,即零假设和备择假设。零假设的内容通常是在不同实验条件不会产生差异的;而备择假设往往是与零假设的一个相反的陈述。实验的目标通常是找到统计学证据来反驳或否定零假设,来支持备择假设。零假设和备择假设一般是成对出现的,但可以同时研究多对零假设和备择假设。
例如,某个网站的开发人员试图弄清楚某个组件应当使用下拉菜单还是弹出菜单。他可以设计零假设为“下拉菜单和弹出菜单在定位页面的时间开销上没有差异”,而备择假设就应当是“下拉菜单和弹出菜单在定位页面的时间开销上存在差异”。他还可以设计零假设“下拉菜单和弹出菜单在用户满意度评价上没有差异”,和备择假设“下拉菜单和弹出菜单在定位页面的时间开销上存在差异“。
好的假设对一次成功的实验起到了至关重要的作用。假设应当是清晰的,集中的(每次只关注一个小问题),并且应当明确说明实验的条件。
一个定义明确的假设会明确说明研究的因变量和自变量。因变量是研究者感兴趣的结果或效果,它通常依赖于受试者的行为以及自变量的变化。常见的因变量有任务完成时间、速度、准确性等。自变量是可能引发因变量变化且与受试者行为无关的部分。常见的自变量有年龄、性别、身高、输入设备、设计(如字体大小、背景色、菜单形态)等。研究者希望可复现地了解自变量的变化是否以及如何引起因变量的变化。
实验构成
- 实验条件:指我们需要比较的不同技术、设备和程序。是实验开展的基础设施。实验条件的设定和之前的研究假设相关,即变量的取值。
- 实验单位:指我们应用实验条件的对象。通常为具有特定特征的受试用户。
- 分配方式:指将试验单位分配到不同实验条件的方式。一般尽可能采取随机化的方式。
实验设计
真正的实验需要进行以下方面的设计:
- 以至少一个可检验的、定义明确的研究假设为基础,并尝试去验证它。
- 通常至少要有两组实验条件来形成对照,并用定量的分析来测量因变量的结果。
- 需要借助各种统计显著性检验来对结果进行分析,说明结果的价值。这一过程旨在消除偏差和偶然性。
- 实验在不同的时间、地点和参与者下是可以复现的。
在实验设计时,还需要设计实验的结构,常见的有以下的方面:
- 自变量数:实验中应当研究一个还是多个自变量。如果只研究一个自变量,可以采用基本设计的方式;而如果研究多个自变量,可以使用析因设计的方式。析因顾名思义即分析各个自变量之间的“因”,即联系。
- 自变量的取值:每个自变量的取值是如何的。可以据此分析应当使用组间设计、组内设计还是裂区设计。
组间设计、组内设计
- 组间设计:每个参与者只暴露在一种实验条件下,参与组的数量直接对应于实验条件的数量。它避免了学习效应和疲劳问题,但同时在参与者总数不变的前提下也减少了采样的数量。适合简单的任务、个体差异小的任务和受学习效果影响较大的任务。此外,某些实验必须采用组间设计,如实验条件为新手用户和老手用户的实验等。
- 组内设计:每个参与者暴露在所有实验条件下,只有一个参与组。它可以充分利用每个参与者来获取更多的信息,但是学习效应和疲劳问题是不可避免的。适合个体差异较大、学习效果不太容易受到影响的任务、或目标参与者群体很小的任务。
多个自变量的实验
当一个实验调查一个以上的自变量或因素时,广泛采用析因分析。析因分析可以在一个实验中研究两个或两个以上自变量之间的相互作用的影响,而相互作用可被描述为“一个自变量对因变量的不同影响,取决于另一个自变量的特定取值”。
假设每个变量的取值个数为
当析因研究中既有组间成分和组内成分(例如,一个自变量为组间,另一个为组内),称为裂区设计。
DECIDE 评估框架
DECIDE 评估框架是一个常用的评估框架,它把评估的过程分为以下六个阶段。
- Determine the goals of evaluation(确定评估目标)
- Explore the questions(发掘问题)
- Choose the evaluation paradigm and techniques(选择评估范型和技术)
- Identify practical issues(明确实际问题)
- Deal with ethical issues(处理道德问题)
- Evaluate, interpret and present the data(评估、解释和表示数据)
确定评估目标
在这一阶段,需要决定评估需要完成的总体目标。评估目标决定了评估过程,影响评估范型的选择。
为了确定评估目标,经常要追问:“为什么要评估?”这一问题。常见的评估目标包括:
- 验证产品设计是否理解用户需求
- 为概念设计选择最佳的隐喻(例如,图标的设计)
- 验证界面是否满足一致性需要
- 探讨新产品的改进方向(例如,要让产品更吸引小孩)
发掘问题
这一阶段,应当带着目标去发掘并逐层分解问题。在发掘问题时可以尽量站在用户的角度思考。
选择评估范型和技术
评估范型决定了技术类型。因此,应仔细选择适宜的评估范型。选择时,必须权衡实际问题和道德问题:
- 成本和时间的限制
- 相应的设备和技能的限制
- 合法合规,尊重用户隐私等
评估的技术类型包括:
明确实际问题
需要考虑的评估实际问题包括:
- 用户层面
- 应该选择恰当、有代表性的用户参与评估
- 评估的环境应该符合实际使用环境
- 评估时给予用户舒适的体验
- 评估前安排用户熟悉系统
- 设施、设备层面
- 记录设备的型号、配置、实际的摆放位置等
- 期限、预算层面
- 人员层面
- 是否有相关的可用性专家
处理道德问题
在评估过程中,需要注意保护个人隐私。主要的指导原则有:
- 说明研究的目的及要求参与者做的工作
- 说明保密事项,对用户&对项目
- 测试对象是软件,而非个人
评估、解释和表示数据
确定要搜集的数据、以及其分析和表示的方式。应当注意以下的问题:
- 可靠性:不同时间、不同地点的数据是否一致
- 有效性:能否真正得到自己想要的数据
- 偏见:评估人员是否只搜集自己想要的数据
- 范围:研究发现的作用范围是什么,是否具有普遍性
- 环境影响:霍桑效应
霍桑效应
霍桑效应指的是当被观察者知道自己被关注、被观察或者被注意到时,会改变自己的行为倾向,这种改变往往会导致工作效率或表现的提高。这种效应表明,人们由于感受到被关注和重视,会激发自身的价值感和责任感,从而改善他们的行为表现。
此外,还可以开展快速、成本低的小规模试验来对评估计划来进行小范围测试。小规模试验类似迭代设计,可以进行多次。有时,由于经费、时间等限制,小规模试验的开展是必须的。
最终,评估的结果总是一个可用性问题清单和相应的改进建议。对于这些改进建议,应当根据重要性和可行性进行排序和分级。