以付费阅读为例,如何通过样本量来提升测试效率


时间: 2021-07-30 10:48:48 人气: 21 评论: 0

编辑导语:AB测试若运用得当,则可以对产品优化、企业决策等多个情景有所帮助。本篇文章里,作者就以费阅读为研究对象,具体探讨如何提高测试效率的问题。感兴趣的话就一起来看一下吧。

前半章是案例,想看干货的可直接转到后半章。

如今ABtest已被广泛应用,是否经常遇到测试成本高、观察周期长、结果不清晰的问题?

本文将通过探究测试需要的样本量来达到提升测试效率的目的。

一、思路

1)定性分析:确定样本量和变量的关系。

2)定量分析:已知总体比例,计算抽样样本容量。

二、背景

以付费阅读行业测试书籍为例,计算已知总体比例的抽样样本容量。

三、案例

1. 数据获得

付费阅读行业经常**根据书籍推广测试的后续回收增幅来对书籍质量进行评估,以确定书籍是否有推广价值。现需要对某测试书籍后续回收做有效判断,观察周期为5天。

现已有书籍平均回收经验:

  • 累计1天ROI=20%时,对应累计5天ROI=40%
  • 累计1天ROI=22%时,对应累计5天ROI=42%
  • 累计1天ROI=24%时,对应累计5天ROI=44%

2. 数据分析

1)问题

对于以上表格中的数据如何评价?

在探索出样本量的规律之前,我是这么做的:

初步结论:4/1、4/3、4/5后续达标;4/2、4/4后续不达标。

这就很难仅通过5天数据对这本书进行评价了。

这时我们注意到4/1、4/2的新增uv非常少,而涨幅的偏差却很大,那么是否因为样本量的原因干扰了我们的判断呢?

答案是:是的,样本量**影响后续回收涨幅。

如果样本量影响对书籍质量的评估,那么究竟需要多少样本量才能达到理想的反馈结果呢?

2)结果

本案例中,应排除4/1、4/2、4/4三天再做评价。

4/3、4/5的测试结果为正向,因此认为这本书可以用于推广。

根据4/3、4/5的第5天增长情况对4/6进行预估,4/6预计累计5天ROI=39%,结果仍为正向。

3)分析过程(正文+干货)

定性分析:分解指标,找出变量中受样本量影响的因素,以及该因素与变量的关系。

本案例中:

  • 累计ROI=累计充值金额/新增当日消耗;
  • 累计充值金额=∑第i天充值金额=∑第i天充值uv*第i天充值ARPPU;*ARPPU是对消费能力的反应,本案例中直接与用户阅读速度成正比,近似恒定;
  • 第i天充值uv=新增uv*第i天留存比例;*对于付费小说,免费用户在付费章节几乎全部流失,因此近似认为5天后留存下来的用户都是付费用户。

得到:累计充值金额=新增uv*∑第i天留存比例*第i天充值ARPPU。

问题简化为:为保证新增用户5天后有效留存,需要多少新增uv(又回到了熟悉的留存问题上了)。

现已知第5天平均留存比例为8%。

定量分析:大样本条件下,已知总体比例π,求置信度(1-α)下的样本容量n】

计算公式

本案例中:

  • 给定95%的置信度下z=1.96
  • π=8%(在总体比例未知的条件下可取π=0.5)
  • E取0.2π=1.6%(E为给定的置信水平下使用者可以接受的允许误差,由实际业务成本和接受程度决定)
  • n=1.96*1.96*8%*92%÷1.6%÷1.6%≈1100

计算置信区间:

计算公式

在本案例中,1.96*sqr(8%*92%÷1100)≈1.6%,置信区间为 (6.4%,9.6%)。

四、结论

众所周知,样本量越大、测试周期越长,成本就**越高。如何降低成本是数据分析师应做的,也是文章里想要表达的。

在本案例中,至少需要新增uv=1100。

因此认为4/1、4/2、4/4为无效测试,再结合实际业务对4/5进行取舍,本案例中认为4/5是有效测试。

最后很重要!

互联网很容易获取到大样本,但样本里掺杂的因素很多,在做测试和计算样本量的时候,一定需要先做定性分析!

 

本文由@树无

2年

评论