时间: 2021-07-30 09:20:52 人气: 12 评论: 0
什么比没数据可用更糟糕?虚假数据。
没有什么能像A/B测试一样给你信心并让你阔步向前;同样地,没什么能比虚假数据更快终结你的大步向前。为了进行正确的测试,你需要了解A/B测试的统计学;否则,你**花费很多时间试图获得答案而不是得到答案。最终,你**混淆你以为你有的答案,实际上你却什么都没有。A/A测试,将确保你得到的数据能用来自信地作出决定。
我们**给你介绍一种测试,如果成功它不**教你关于访客的情况,相反,它带来的要比原始数据更有价值,它**给你信心。
在你对标题、副标题、配色、 CTA 、视频脚本、设计等进行测试之前,先测试软件本身。这很简单,通过测试网页自身就能实现。有人**认为这是毫无意义的,因为一个页面的相同页面将**有同样的结果,对吗?
并非如此。
测试3天后,A/A测试表明,同样的变化校验版本与原始版本相比,少了35.7%的收入,这**是对增长的绞杀。
这个运行了3天的A/A测试没能带来任何信心的增长。
造成这一结果的原因可能有:
对这个问题的第一个线索是样本规模较小,虽然每个页面有**过345的访问量,但只有22/34笔交易。对一个大的因素来说,这个交易量太小。在A/B测试统计中,交易量比流量在建立统计信心上显得更重要。少于200笔的交易量通常带来无意义的结果。
显然,这种测试需要运行更长的时间。
你的第一直觉可能是通过快速A/A测试,这样你就能开展真正有趣的事情-A/B测试。但这是错的,上面告诉了你为什么。
随着时间的推移,两个相同页面之间的差异若一直存在,我们**取消A/B测试计划直到我们找出这种差异的源头,到底是A/B测试工具还是网站本身的问题。我们也应重新测试来预先发现A/A测试存在的异常。
在这种情况下,较长时间的A/A测试能弥补样本数量的不足。在一次A/A试验中,3.5%的误差是可接受的,并且最小样本量需要保证有接近200的交易量,才可以开始评估结果。
这是统计显著和样本大小建立或摧毁信心的一个很好的教训。
A/A测试最终有效取决于足够的试验时间,合适的流量。不只是大量的流量,还需要合适的样本大小。
如果你深入挖掘你的数据结果诸如设备类型和浏览器版本,你**发现惊人的不同。当然,小样本下的结果是不可信的。这是因为小样本从总体上意味着可能存在分配不均的数据段。
下面是来自同一个A/A测试的数据样本。在这点上,对每个变量少于300次的**话进行了测试,你可以看到, 使用 Safari 浏览器的 Mac 访客存在分配不均,校验版本发生85次访问,控制版本发生了65次。记住,这两个版本是一样的,此外,在 IE 浏览器上甚至存在更大的差异,分别是27和16。
这种不均衡是平均的规律,考虑这种不均不是没有道理的,但是,我们期望能有更大的样本量。
据统计,一个分配不均**导致不同的结果,即使所有的变化都是平等的。如果访问分配不均,那么那些准备转换的访客客也**分配不均,这将导致转化率的不同。
在上面的图中,我们看到。对于 Internet Explorer 浏览器的访客,全部的16个访客是没有转换的,然而校验组的访客却有7.41%的转化率。
在 Safari 下,相同数量的访客被分配到控制组和变量校验组,但到达控制组的只有65名访客,到达校验组的有85名访客,看起来控制组有更高的转化率。
但原因肯定不是因为有两个相同的页面。
随着时间的推移,我们预计大多数不一致**被拉平。那时,这些叠加起来就造成参差不齐的结果。
当你在A/B测试中测试不同的页面时,这些外力因素将**产生影响。如果样本量太小,你知道为什么你的A/B测试工具建议你继续错误的版本吗?
在从不同的细分受众中收到足够大的样本量来确定你的那个版本的网页在受众面前表现更好前,你必须进行测试。A/A测试能证明其达到统计显著的时间。
A/B测试持续时间是两个因素的函数:
如果一个变量引起了50%的变化,测试就不必运行很长时间。大比分胜利,也被成为“战胜的机**”或“信心”,即使是在小样本下,也能战胜误差。
因此,一个A/A测试表现的最坏场景,其中变量几乎没办法战胜控制组,因为它是相同的,事实上,A/A测试可能永远达不到统计显著。
在上面的例子中,测试还没有达到统计显著,而且不可能达到。然而,我们看到了校准变量版本和控制版本在15天后转化率曲线重合。
在这个A/A测试中,相同的页面花了15天转化率逐步接近。
这告诉我们,测试至少要运行15天,以确保我们有一个很好的样本集。不论如何,测试不应该运行少于一个星期,两个星期是可取的。
A/A测试好在不必做任何创造性的或研发上的工作。当设置A/B测试时,你需要在A/B测试软件上编程来改变、隐藏或删除页面的某些部分;但根据定义,对A/A测试来说这些都是不需要的。
对A/A测试来说,面临的挑战是正确的选择运行测试的页面,你的A/A测试页面都应该有两个特点:
出于这些原因,通常我们在网站主页上运行A/A测试。
你也想给你的A/B测试工具集成数据分析工具,你的A/B测试工具可能被设置错误,导致两个变量变现类似。通过数据分析工具对A/A测试数据的**取和分析,可以与A/B测试工具数据报告的转化和收入做比较,它们具有关联性。
统计意义上,你可以在运行A/B测试的网站上运行A/A测试。如果工具运行良好,A/A测试不**对访客造成明显影响。但这**为A/B测试引入更多的错误,只有通过更长的测试时间来达到统计显著。
而如果A/A测试一段时间没有被“拉平”,你必须抛弃你的A/B测试结果。
在等待A/A测试自生自灭的时间里你也可以运行A/B测试来达到统计学意义。你不想在A/A测试期间做任何改变。
运行A/A测试的成本:机**成本。A/A测试上投入的时间和流量用来进行A/B测试,你能学到关于访客的有价值的信息。
应该考虑运行A/A测试的唯一种情况:
运行A/A测试不是一种非常常见的情况。
有两种类型的A/A测试:
通过这种方法,你选择了一个高流量页面并用A/B测试工具建立了测试,这时候就**有控制变量和没有改变的第二个变量。
这种方法包括增加“校验变量”到A/B测试的设计中,之后将**有控制变量,一个或多个“B”变量用于测试,其他变量与控制组无差异。当测试完成后,你**从“B”变量中得到一些结果,也能够通过A/A测试校验A/B测试工具。
在A/B测试中进行A/A测试校验。
不幸的是,在上面的测试”中,A/B测试变量“Under ‘Package’ CTAs” 没有很明显的跑赢A/A测试的校验变量。
A/B测试工具更强大的一项功能是跨网站跟踪访客行为的能力,常见的A/B测试工具能跟踪一系列用户行为来告诉你一些访客行为。
通过定义这些访客规则,能在运行A/B测试期间更好的理解访客行为。
翻译:由吆喝科技(微信:appadhoc)编译自:How an A/A Test Gives You Confidence
本文由 @吆喝科技 原创发布于人人都是产品经理。未经许可,禁止转载。