我做AB测试遇到的坑-虎嗅网

本文来自微信公众号：夏唬人（ID：pm_xiahuren），作者：夏唬人，题图来自：unsplash

AB测试，是产品经理经常用于对新老方案上线后的效果进行对比的方法，核心目的在于通过AB测试增加需求上线后给平台带来正向收益的确定性。

页面功能的改动，需要进行AB测试，来观测用户对新老功能的使用情况；

策略逻辑的改动，需要进行AB测试，来观测流量在不同逻辑下的转化和收益。

总之，AB测试目前已经成为一种大家公认的通过数据对比来决策新方案是否上线的一个标准。

但是，我看到一种现象是，大多数产品经理都是为了做AB ，而做AB。其中涉及到几个非常重要的环节，稍有不慎就会入坑。

一、随意进行流量设置

AB实验流量的控制是很多产品经理会忽视的一个环节。先看一个我经历过的案例。

我记得刚去搜索团队的时候，有个产品经理在线上跑了一个搜索策略优化的AB实验，按照预期，新策略肯定要比老策略好。

但是她面临的问题是，一个AB实验做了半年了，因为AB结果数据经常波动，导致实验结果很难敲定下来。

也就是有的时候是实验组比对照组好，有的时候是实验组比对照组差，很难体现出趋势性。

后来，我看了看他们做的AB方案，发现了问题所在。

他们给这个AB Test分了两个组，实验组和对照组。因为担心新策略的影响面太大，因此给新策略，也就是实验组分了10%的流量，然后直接用这10%的流量，与剩下90%的流量来进行AB实验。

此时，问题在哪，我估计大家也看出来了。

AB Test，为了尽量保证结果的可信，最基本的给到每个BUCKET（桶，组的概念）的流量是一样大小的。

就拿这个实验来说，考虑降低新策略的影响范围没错，但是拿一个10%流量的实验数据和一个90%流量的实验数据进行对比，很明显难以得出可信的结论。

所以我后来把AB Test的方案进行了调整，整个AB Test分了三个组：实验、对照和空白。其中实验和对照分别设置了20%的流量，用于进行实验数据对比，空白组60%的流量。

最终收集了4周的数据之后，成功把新策略全量上线。

这就是AB Test中大家首先要避免的一个坑，就是要保证外界变量的一致性，最基础的就是实验组和对照组流量是对等的，然后才有可能得到可信的结论。

二、持续时间越长越好

AB测试的时间越长越好么？

理论上来说确实是这样。

但是大家需要考虑一个情况是，对于AB实验来说，每增加一个实验组实际相当于线上新开发一套方案，所以持续时间比较长的AB实验会给开发、测试、运维等相关方带来不少的资源消耗。

所以AB实验并不是持续时间越长越好，实际操作过程中还是要结合我们的需求类型和影响范围来决定。

按照目前我们实施的方式：

对于策略逻辑类的改动，通常AB Test的持续时间在两周左右，即可进行决策。

但是，对于涉及到用户交互习惯改动的需求，AB Test的时间会拉长，比如持续1~2个月。

以上大家可以参考。

三、所有需求都做AB测试

常说，酒虽好，可不要贪杯。

AB Test一个道理。

虽说AB Test是一种科学的检验不同方案效果的手段，但是，大家不要忘了大前提，也就是当你对当前需求收益不确定，所以才需要做AB Test。

如果一个需求从收益的角度来说是十分确定的，那么很明显此时是无需进行AB Test的。我们上面已经聊过了AB Test的成本投入还是很大的。

通常对于如下几类需求是不需要进行AB Test的。比如：

1. 业务基础能力搭建需求。也就是你当前做的事情是业务基础能力范畴，用户没有这个能力就无法完成一个完整的业务流程。

比如在电商中的黄金流程：首页—列表—商品详情页—购物车—提交订单—支付完成，在你刚开始搭这些流程功能的时候，是完全无需进行AB Test的。

2. 业务战略类需求。这类需求通常都是公司从长期战略方向需要支持的产品迭代，因此无论它是否能够给当前业务带来收益，都需要进行支持和上线。

所以，并不是所有需求都需要进行AB Test，更不要以为只有做AB Test的需求才是科学的。

总之一句话，不要为了做AB，而做AB。

四、有数据即做决策

当你拿到AB数据的时候，是不是就觉得万事大吉了呢？

很多产品经理在拿到AB Test数据之后，接下来就是对比实验组和对照组的相关指标数据。如果实验组在核心指标上优于对照组，那么就认为可以全量实验组，否则，就不可全量。

但是这种做法实际上是忽视了AB Test背后的实际含义。

AB Test的本质上是一个标准的独立双样本检验（具体概念百度一下），最终基于大量用户的行为数据上的统计指标，得出对原假设的判断。

因此，AB测试实际上是对一个假设进行检验的过程。具体大家可以网上搜寻一下AB测试与数理统计的一些介绍文章。

所以，当我们拿到AB Test的数据时，首先应该做的事情就是看一下这些数据是否能够支持我们得出可信的结论。

这里给大家一个常用的方法：P值。

具体概念我也不解释了，总之P值是检验不同结果之间是否具有显著性差异的一个统计学指标。因此我们可以用它来检测实验组和对照组之间的指标差异是否具有显著性。

常用的判断标准：

1. P<0.01，极具显著性差异；

2. 0.01<P<0.05，有显著性差异；

3. P>0.05，无显著性差异。

前两种表明当前ABTest实验组和对照组的之间的差异是显著的，也就是我们可以用当前实验结果来进行决策；否则就需要重新进行AB Test。

以上几个就是我做AB测试遇到的坑，希望能帮到你。

本文来自微信公众号：夏唬人（ID：pm_xiahuren），作者：夏唬人

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

我做AB测试遇到的坑

大 家 都 在 搜

大家都在搜