用户测试

用户测试主要是指在受控环境中测量典型用户执行典型任务的情况，目标是获取客观的性能数据来评价系统的可用性，适合对原型和现有系统进行评估。

用户测试整体以 DECIDE 框架为基础。

定义目标问题

与确定评估目标一样，用户测试也首先要明确目标问题。目标问题应该是具体的，例如“用户在第一次使用时，能否找到正确的菜单？”或“用户能否在 $2$ 分钟内完成注册流程？”。

选择参与者

参与者的选择对实验的成功至关重要，一般要遵循以下的原则：

选择具有代表性的典型用户；
通常需要根据实际情况平衡性别比例。
至少 $4 - 5$ 位， $5 - 12$ 位用户就足够了。

选择参与者后，还要考虑参与者的安排：

参与者不同（类似组间设计）：每个参与者只会执行某个实验情形。优点是不存在顺序效应，缺点是需要更多的参与者。
参与者相同（类似组内设计）：每个参与者会执行所有实验情形。优点是需要更少的参与者，获得的实验数据会更多，能够减小个别差异带来的影响，缺点是存在顺序效应。
参与者配对：按照用户特性将两位参与者分成一组，适用于参与者无法执行两个实验的情形。这一用户特性应当与评估的目标问题相关。

设计测试任务

测试任务的设计应当切题、具体、简短、全面，并且具有代表性。测试任务的设计应当遵循以下原则：

切题：测试任务应当与目标问题相关。
全面：测试任务应该使用户全面使用设计的各个区域。
具体：测试任务应该是具体明确而非模糊的。
简短：测试任务应该是简短的，不应该让用户感到疲劳。每项任务的时间应当介于 $5 - 20$ 分钟。

明确测试步骤

对应 DECIDE 框架中的“明确实际问题”，在用户测试中，需要明确测试的步骤，包括：

测试前：准备好测试环境、测试设备、测试材料等。适当进行小规模试验。
测试中：记录用户的行为、反馈等。开始时应当引导用户使用系统，在必要时评估人员应当询问用户遇到的问题。如果用户确实无法完成某些任务，应该让他们继续。测试的过程在 $1$ 小时之内。
测试后：分析所有搜集到的数据。另可使用户填写调查问卷。

数据搜集、分析与总结

灵活确定度量观测结果的方式和类型（如定性和定量）。常见的度量方式有：

完成任务的时间；
不使用产品（停止一段时间）后，完成任务的时间；
$[$ 执行每项任务的 $|$ 单位时间内 $]$ 错误次数和类型；
求助帮助或在线手册的次数；
成功完成任务的用户数；

最常见的定量数据统计方法是次数统计和平均数统计；而定性数据通常按照主题分类。此外，还应该做显著性检验。

最终，还要将测试的结果组织成文，以书面的形式反馈给产品的设计人员。

Statistical Significance, What and Why?

显著性（ $Statistical Significance$ ）检验是假设检验（ $Hypothesis Testing$ ）的一种，用于判断当把样本数据推广到整个群体的把握有多大，即样本数据是否具有统计学意义。显著意味着观察到的差异是由测试条件引起的，不显著则意味着观察到的差异很可能是出于偶然。通过显著性实验我们可以一定程度上证明实验的意义，并尽可能排除偶然因素。

一般来说实验研究是基于一个零假设（ $Null Hypothesis$ ）和一个备择假设（ $Alternative Hypothesis$ ）进行的。零假设一般是认为实验的条件对结果完全没有影响。显著性检验的目的是拒绝零假设，从而接受备择假设。关于实验假设在人机交互的实证研究方法中也有提及。

显著性检验会给出一个 $p$ 值，一般来说，当 $p$ 值小于 $0.05$ 时，我们可以拒绝零假设。 $p$ 值越小，我们拒绝零假设的把握越大。

显著性检验会产生两种误差：第一类误差（ $Type I Error$ ，用 $α$ 表示）和第二类误差（ $Type II Error$ ，用 $β$ 表示）。第一类错误是指当实际上零假设为真时，拒绝了零假设；第二类错误是指当实际上备择假设为真时，接受了零假设。实际研究中通常认为第一类误差比第二类误差更严重。

另可参考：Type I and II Errors 和 p-value。

需求分析

体系结构

详细设计

构造测试

交付演化

补充内容

交互设计的评估

基于总线的计算机系统

HarmonyOS 开发

并发

数理逻辑

用户测试

定义目标问题

选择参与者

设计测试任务

明确测试步骤

数据搜集、分析与总结

用户测试 ​

定义目标问题 ​

选择参与者 ​

设计测试任务 ​

明确测试步骤 ​

数据搜集、分析与总结 ​

用户测试

定义目标问题

选择参与者

设计测试任务

明确测试步骤

数据搜集、分析与总结