卡片分类法解析：究竟要测试多少用户？

时间: 2021-07-30 11:10:33 人气: 4 评论: 0

在卡**分类测试中，使用过多的测试用户**使回报率递减，但测试至少 15 个用户，效果将是传统可用性测试的 3 倍之多。

官网和内网设计（注1）中最大的挑战之一就是信息架构：在哪**发生什么？一个经典的错误类型就是根据如何查看内容来构建信息空间——这往往**导致公司各个部门或信息提供商拥有不同的子网站。

可以通过创建反映用户查看内容的信息架构的方式，来提高可用性测试，而不是简单地镜像组织结构。在每项企业内部网络调研中，我们发现，当企业重组内部网反映员工工作流程时，生产力**高效增长。而在电子商务中，当产品出现在用户期望找到的类别时，销售量**增加。

所有这一切都很棒，但如何找出用户对信息空间的看法，以及他们认为每个项目应该如何进行呢？为了研究这种心智模式，主要的方法是卡**分类法：

在索引卡上写下每个主要项目的名称（以及简短描述）。没错，就是那种旧式的纸卡**。（注意不要使用让用户产生偏向的术语。）
随意打乱卡**后交给用户。（招募测试者的标准，建议：他们必须是典型用户，等等）
要求用户将卡**分分类，将同一类的在一起。用户可以根据自己的喜好进行分类，包括类型的数量、类型的大小，等等。
可选的额外步骤包括：要求用户将已有的分类分成更大的组、给不同的组和类命名。之后可以针对用于导航标签、链接、标题和搜索引擎优化的单词和同义词，给出建议。

由于卡**分类不使用技术，这些 1995 年的组卡方式，在当今看来，也并未过时。

一、研究进展

富达投资集团拥有一支非常棒的可用性测试团队，由人机界面设计高级副总裁 Thomas S. Tullis 博士领导。Tullis 和合著者 Larry Wood 发布过一项研究结果，该研究测量了在卡**分类练习中测试各种用户数量的权衡曲线。

首先，他们测试了 168 位用户，有了非常可靠的结果。然后，他们通过分析总体样本的随机子集，使用较小用户群对卡**分类研究的结果进行模拟。例如，要模拟 20 个用户的测试结果，他们从 168 个用户中随机抽取了 20 个用户，并仅分析该小组的卡**分类数据。通过选择多个类似的样本，可以估计来自不同数量用户测试的平均结果。

卡**分类研究中主要的定量数据是一组相似度分数，用于度量用户对不同物品评分的相似度。如果所有用户将两张卡**分成同一组，那么由卡**代表的两个项目将具有 100% 的相似度。如果有一半的用户将两张卡放在一起，一半放在不同的组中，那么这两个项目的相似度为 50%。

我们可以通过研究的相似性得分与测试大量用户群所得分数的相关程度来评估较小的卡**分类研究的结果。（提醒：相关性从 -1 到 +1 ，相关性 1 表示完全一致；0 表示无关；-1 表示相互对立。）

二、需要多少用户？

对于大多数可用性研究来说，我建议测试 5 个用户，因为这就能够让你获得足够的数据了，在测试中你能够了解大部分可用性问题。但是，对于卡**分类，5 位用户的结果与最终结果之间只有 0.75 的相关性。这个结果还不够好。

测试 15 个用户才能达到 0.90 的相关性，这是一个更加合适的范围。在 15 个用户之后，不但收益**递减而相关性的增加也不明显：测试 30 人相关性达到 0.95 ——这当然更好，但通常不值双倍的钱。**过 30 名用户几乎没有任何改进：测试 60 人相关性达到 0.98，这么做无疑是一种浪费。

Tullis 和 Wood 建议使用 20-30 个用户进行卡**分类测试。根据他们的数据，我的建议是测试 15 个用户。

为什么我建议测试更少的用户？我认为，大多数情况下，0.90（15 个用户）或 0.93（20 个用户）的相关性已经足够好了。如果你有一个大型的、资金充足的项目（比如一个涉及 10 万名员工的内部网络，或者一个收入为 5 亿美刀的电子商务网站），我当然希望测试 30 人使相关性达到 0.95。但大多数用户研究资源非常有限，在 3 个不同的定性可用性测试中，每个测试 5 个用户——共 15 人进行的测试更为合适。

三、让用户尽情表达

我不建议纯粹基于以卡**排序的相似性组织的信息架构进行设计。在决定哪里有什么的具体细节时，应该尽可能多地运用在测试阶段获得的定性数据。卡**分类的大部分价值来自听取用户的评论，因为是他们对卡**进行分类：你要知道，了解为什么人们将某些卡**放在一起，能够更深入地了解他们的心理模型，而不是单纯地将卡**分类到同一组中。

四、为什么需要更多的用户进行卡**分类？

我们知道对于大多数可用性研究，5 个用户已经足够了，为什么卡**分类却需要 3 倍的参与者才能达到相同的水平？因为它们在两个关键点上有所不同：

用户测试是一种评估方法：我们已经有了一个设计，我们试图找出它是否与人性和用户需求相匹配。虽然人们在能力（领域知识，智能和计算机技能）方面存在很大差异，但如果某个设计因素产生问题，在测试一些用户之后，就**发现这些问题。低端用户可能**比高端用户遇到更严重的问题，但除非你正在进行测量研究（这需要更多用户），否则难度的大小并不是问题所在。你需要知道的是，设计元素如果不适用于人，就应该改变它。
卡**分类是一种生成方法：我们还没有设计，我们的目标是找出人们如何思考某些问题。不同人的心智模式和他们用来描述相同概念的词汇存在很大的差异。我们必须从一定数量的用户那里收集数据，才能获得稳定的用户偏好画像，并确定如何适应用户之间的差异。

如果你有一个现有的官网或内部网，测试一些用户**告诉你信息架构是否给人们带来了问题。所以要从头开始创建新的结构，必须抽取更多人进行测试。

幸运的是，你可以将这两种方法结合：首先，使用生成性研究为设计确定方向。其次，设计一份草稿，最好使用纸质原型，并进行评估研究以改进设计。因为可用性评估速度快而且便宜，所以你可以做多次；并且还为你最初的创造性发现提供了质量保证。这就是为什么你不应该浪费资源来压缩卡**分类那最后 0.02 相关性的原因。在随后的用户测试中，你**发现任何小的错误，这比卡**分类研究的规模增加一倍或三倍都要便宜得多。

五、研究的不足

富达研究有两个明显的不足：

这只是一项研究。有多家公司的数据**更好。
该分析纯粹是定量的，侧重于相似性的统计分析，忽略用户评论和其他定性数据。

不过，这两个不足却不足以致命。我认为这是一项开拓性的研究，对网络可用性知识做出了巨大贡献。但是，由于该研究存在缺点，如果用不同的信息空间复制它，并且同时分析定性数据与定量数据，将**非常有用。听起来像是一个很好的研究生论文的选题，这个选题研究的是与真实世界影响相关的事物。

尽管数据多**让人感到欣慰，但我对富达研究的结论充满信心，因为它们与我多年来从事卡**研究的观察结果相符。我一直说，有必要为卡**分类测试更多的用户，而不是传统的可用性研究。我通常**推荐大约 15 位用户进行测试，不过在预算紧张或用户特别难招募（只有 12 位用户）的时候，也有不错的结果。

有好多中方法，在定量研究过程中，**误导你。因此，如果你看到一个单独的定量研究与定性研究中已知的所有结论相矛盾，一个谨慎的做法是忽视新研究并假定它很可能是假。但是当一项定量研究证实了已知的信息时，它很可能是对的，并且可以使用新的数据作为合理的预测值，即便这基于你现有的可怜的数据。

因此，当前的建议是在大部分卡**分类中测试 15 位用户，在有资金支持的大型项目中测试 30 位用户。

参考：

Tullis, Tom, and Wood, Larry. (2004) How Many Users Are Enough for a Card-Sorting Study?, Usability
Professionals Association (UPA) 2004 Conference, Minneapolis, MN, June 7–11, 2004.

注释：我希望扩大网站的思考范围到产品和服务层面