时间: 2021-07-30 09:30:32 人气: 6 评论: 0
在卡**分类测试中,使用过多的测试用户**使回报率递减,但测试至少 15 个用户,效果将是传统可用性测试的 3 倍之多。
官网和内网设计(注1)中最大的挑战之一就是信息架构:在哪**发生什么?一个经典的错误类型就是根据如何查看内容来构建信息空间——这往往**导致公司各个部门或信息提供商拥有不同的子网站。
可以通过创建反映用户查看内容的信息架构的方式,来提高可用性测试,而不是简单地镜像组织结构。在每项企业内部网络调研中,我们发现,当企业重组内部网反映员工工作流程时,生产力**高效增长。而在电子商务中,当产品出现在用户期望找到的类别时,销售量**增加。
所有这一切都很棒,但如何找出用户对信息空间的看法,以及他们认为每个项目应该如何进行呢?为了研究这种心智模式,主要的方法是卡**分类法:
由于卡**分类不使用技术,这些 1995 年的组卡方式,在当今看来,也并未过时。
富达投资集团拥有一支非常棒的可用性测试团队,由人机界面设计高级副总裁 Thomas S. Tullis 博士领导。Tullis 和合著者 Larry Wood 发布过一项研究结果,该研究测量了在卡**分类练习中测试各种用户数量的权衡曲线。
首先,他们测试了 168 位用户,有了非常可靠的结果。然后,他们通过分析总体样本的随机子集,使用较小用户群对卡**分类研究的结果进行模拟。例如,要模拟 20 个用户的测试结果,他们从 168 个用户中随机抽取了 20 个用户,并仅分析该小组的卡**分类数据。通过选择多个类似的样本,可以估计来自不同数量用户测试的平均结果。
卡**分类研究中主要的定量数据是一组相似度分数,用于度量用户对不同物品评分的相似度。如果所有用户将两张卡**分成同一组,那么由卡**代表的两个项目将具有 100% 的相似度。如果有一半的用户将两张卡放在一起,一半放在不同的组中,那么这两个项目的相似度为 50%。
我们可以通过研究的相似性得分与测试大量用户群所得分数的相关程度来评估较小的卡**分类研究的结果。(提醒:相关性从 -1 到 +1 ,相关性 1 表示完全一致;0 表示无关;-1 表示相互对立。)
对于大多数可用性研究来说,我建议测试 5 个用户,因为这就能够让你获得足够的数据了,在测试中你能够了解大部分可用性问题。但是,对于卡**分类,5 位用户的结果与最终结果之间只有 0.75 的相关性。这个结果还不够好。
测试 15 个用户才能达到 0.90 的相关性,这是一个更加合适的范围。在 15 个用户之后,不但收益**递减而相关性的增加也不明显:测试 30 人相关性达到 0.95 ——这当然更好,但通常不值双倍的钱。**过 30 名用户几乎没有任何改进:测试 60 人相关性达到 0.98,这么做无疑是一种浪费。
Tullis 和 Wood 建议使用 20-30 个用户进行卡**分类测试。根据他们的数据,我的建议是测试 15 个用户。
为什么我建议测试更少的用户?我认为,大多数情况下,0.90(15 个用户)或 0.93(20 个用户)的相关性已经足够好了。如果你有一个大型的、资金充足的项目(比如一个涉及 10 万名员工的内部网络,或者一个收入为 5 亿美刀的电子商务网站),我当然希望测试 30 人使相关性达到 0.95。但大多数用户研究资源非常有限,在 3 个不同的定性可用性测试中,每个测试 5 个用户——共 15 人进行的测试更为合适。
我不建议纯粹基于以卡**排序的相似性组织的信息架构进行设计。在决定哪里有什么的具体细节时,应该尽可能多地运用在测试阶段获得的定性数据。卡**分类的大部分价值来自听取用户的评论,因为是他们对卡**进行分类:你要知道,了解为什么人们将某些卡**放在一起,能够更深入地了解他们的心理模型,而不是单纯地将卡**分类到同一组中。
我们知道对于大多数可用性研究,5 个用户已经足够了,为什么卡**分类却需要 3 倍的参与者才能达到相同的水平?因为它们在两个关键点上有所不同:
如果你有一个现有的官网或内部网,测试一些用户**告诉你信息架构是否给人们带来了问题。所以要从头开始创建新的结构,必须抽取更多人进行测试。
幸运的是,你可以将这两种方法结合:首先,使用生成性研究为设计确定方向。其次,设计一份草稿,最好使用纸质原型,并进行评估研究以改进设计。因为可用性评估速度快而且便宜,所以你可以做多次;并且还为你最初的创造性发现提供了质量保证。这就是为什么你不应该浪费资源来压缩卡**分类那最后 0.02 相关性的原因。在随后的用户测试中,你**发现任何小的错误,这比卡**分类研究的规模增加一倍或三倍都要便宜得多。
富达研究有两个明显的不足:
不过,这两个不足却不足以致命。我认为这是一项开拓性的研究,对网络可用性知识做出了巨大贡献。但是,由于该研究存在缺点,如果用不同的信息空间复制它,并且同时分析定性数据与定量数据,将**非常有用。听起来像是一个很好的研究生论文的选题,这个选题研究的是与真实世界影响相关的事物。
尽管数据多**让人感到欣慰,但我对富达研究的结论充满信心,因为它们与我多年来从事卡**研究的观察结果相符。我一直说,有必要为卡**分类测试更多的用户,而不是传统的可用性研究。我通常**推荐大约 15 位用户进行测试,不过在预算紧张或用户特别难招募(只有 12 位用户)的时候,也有不错的结果。
有好多中方法,在定量研究过程中,**误导你。因此,如果你看到一个单独的定量研究与定性研究中已知的所有结论相矛盾,一个谨慎的做法是忽视新研究并假定它很可能是假。但是当一项定量研究证实了已知的信息时,它很可能是对的,并且可以使用新的数据作为合理的预测值,即便这基于你现有的可怜的数据。
因此,当前的建议是在大部分卡**分类中测试 15 位用户,在有资金支持的大型项目中测试 30 位用户。
参考:
注释:我希望扩大网站的思考范围到产品和服务层面
Guerrilla 可用性测试:7 步 DIY 属于你的可用性测试方法
有了这 10 个技巧,做好 Guerrilla 可用性测试不用愁
原文地址:https://www.nngroup.com/articles/card-sorting-how-many-users-to-test/
郑几块,人人都是产品经理专栏作家,前新浪微博产品经理。
本文系作者@郑几块 独家翻译授权,未经本站许可,不得转载
题图来自 Pixabay,基于 CC0 协议