AB测试特色图像882px * 568px

什么是AB测试,它是如何工作的?

在facebook上分享
在twitter上分享
分享在linkedin
在whatsapp分享

AB测试是一种数据驱动的方法,使用统计技术比较网页的两个不同版本。自从互联网接入变得更容易以来,搜索引擎行业吸引了更多的用户,为满足消费者不断变化的需求而提供搜索引擎的公司之间的竞争加剧了。

提供搜索引擎的公司需要数据驱动的方法来增强产品,以保持在趋势的顶端和竞争。AB测试的强大之处在于,它能够在将更改投入生产之前读取用户对该功能的感受。通过实施控制实验,我们从数据中获得强有力的证据,以做出商业决策,这可以对投资回报产生巨大的影响。此外,我们可以通过将页面的多个版本与当前页面进行比较来节省时间和精力。

本博客将考虑搜索引擎AB测试作为演示目的,并讨论特性开发和实验生命周期。

使用搜索引擎的AB实验工作流示例

特性分析在开发过程中的重要性

在AB测试中,开发一个特性是最重要的步骤。如果我们在实验前不做特性分析,我们可能会失去那些对改变不满意的用户。一个例子是用几个新元素重载页面。这可能会增加页面加载时间,我们可能会失去因为等待时间增加而感到沮丧的用户。所以,开发中的每个功能都需要有清晰的设计文档和预期的影响。在搜索引擎中,测试可以应用于前端(例如:改变页面元素,如文本大小,颜色,图标)和后端(例如:改变页面排名算法)的变化。让我们用一个用例来更好地理解这一点。可盈利的搜索会带来更多收入。通常情况下,赞助广告会最先出现在搜索结果中。我们大多数人倾向于向下滚动,因为我们只对有机结果感兴趣。 Below is an example where the ‘Ad’ indicator is moved to the description section making it hard to recognize and thereby increasing the click-through rate for ads. Results of this experiment are given in表1在下一节中。

广告实验1

实验周期

几乎所有部署到生产中的功能都需要通过AB实验检查。因此,使用AB实验来测试特征性能,并根据实验结果观察到的效果对业务假设进行交叉检验,总是一个更安全的做法。

  1. Pre-Experiment清单
控制(C) 页面的生产版本
治疗(T) 新版本的页面具有已开发的功能
样本大小 总用户分成T或C(随机分成以克服选择偏差)
持续时间 实验持续时间(通常为1/2周,以捕捉每周的季节性)。
统计检验 比较T和C组之间的度量平均值以标记显著运动的测试。参数检验:学生t检验/韦尔奇t检验
置信水平(CL) 观测结果的最小概率是由于变化而发生的。它被用来标记运动是否具有统计学意义。通常设置为95%。
最小可探测效果 该特性的预期影响。例子:在上述“广告”指标实验中,我们可以预期用户点击量至少增加3%,然后观察实际效果,看看该功能是弱是强。
  1. 运行测试并计算度量平均值和p值。

以下是基于“Ad”指示剂放置的实验结果。

表1 - 1
  1. 将结果与业务假设关联起来并使用p值(1 -置信水平)推断出显著的移动。P-Value是观察结果偶然发生的概率。

例如,从表1,我们看到每用户的广告点击量增加了43.10%,p值为0.001。这意味着,观察到的广告点击增加(43.10%)有0.1%的可能性是由于随机机会。相反,我们有99.9%的信心这是由于我们的功能。在表1中,通过考虑95%置信水平或p值0.05,突出显示的正和负度量移动发生。

  1. 动力分析:顾名思义,这种分析帮助我们确定统计检验在将一个真实的指标变化标记为统计显著性(真实阳性率)方面有多强大。

最小可检测效应(MDE)是测试所能检测到的最小可能影响。在实践中,一些度量可能是动力不足的,这意味着测试不能将度量移动标记为统计上显著的,因为观察到的效果小于MDE。在这种情况下,我们需要进行功率分析,改变功率和样本大小,使观测到的效果大于或等于MDE。(默认功率为80%)

我们将考虑每用户的有机点击指标表1并执行功率分析,以计算在不同样本大小和功率下的控制值(18.23)的MDE。

表2

我们可以看到,该指标的功率不足,观察到|- 0.99%|小于1.35%(使用80%功率和样本量时的MDE)。从表格中的数字可以看出,我们需要增加样本量,以确保指标不会过于强大。

  1. 对度量移动进行深入挖掘:从多个维度对结果进行切片,以确定度量移动的根本原因。例如,某些指标可能在特定地区/国家、浏览器类型等方面表现不佳。这将帮助我们找到任何消极移动的原因,并帮助我们在特性的下一次迭代中解决它们。

这是关于AB测试的两部分系列的第一个博客,点击这里阅读关于AB测试有效性检查和最佳实践的第二篇博客。