AB试验

AB测试:有效性检查和最佳实践

在脸书上分享
分享到Twitter
在linkedin上分享
分享在whatsapp上

上一篇关于AB测试工作流程的博客,我们深入研究了实验和统计测试的基础知识。在本博客中,让我们探讨:

  • 外力(新奇效应和仪器效应)对AB测试/实验结果的不适治影响以及如何验证这些效果的结果,以检查推理是否持有
  • 实验最佳实践。

什么是新奇效果?

AB实验的结果可能是由于特征或特征的新颖性而产生的实际效果。新奇性描述了人们对新变化的渴望,这种渴望会随着时间的推移而减弱。

考虑下面的图像滑块(处理)替换下拉轮播(控制)的示例。此功能会增加用户努力,因为他们需要单击滑块按钮以了解所有建议。虽然在控制中,下拉旋转木马显示了多种建议。

netflix实验

最初,用户可能已经检查了图像滑块功能,因为它激发了他们的好奇心,因为它是新的和不同的东西。因此,由于多次单击,这可能会显示出较高的用户参与度。但在最初几天之后,用户往往不会与此功能进行交互,因为它会耗费大量精力,而会查看web结果页。

新奇检测技术:运行测试/实验,持续更长的持续时间,并根据自定义日期段切片数据。在分段中的不同队列之间进行比较以推断效果。其中一些自定义段是:

  • 实验日期:通常,在前几天中的公制价值峰值稍后跌落。因此,我们可以比较不同日期的度量运动来检查新颖性模式。
  • First Vs.下半场曝光:对于每个用户,将他们在实验中的时间分成两半。检查下半年与上半年相比,公制移动是否减少。
  • 第一次就诊后的天/周:在实验中的每个用户的第一天后,将其剩余的日子划分为“n”等桶。比较每个桶之间的度量运动,看看是否对末端的影响逐渐减少。
新奇检测段
图1:新奇检测段

什么是仪表效果?

由于测试工具和代码实现,出现了一些错误。当使用的刀具故障或部署的度量计算错误时,会发生仪器化效果。不正确的部署可能导致对结果的错误解释。除了这些,需要定期更新度量定义和计算。随着技术的发展,在修改指标时有多种因素被考虑。由于仪器是AB实验的基础,需要更敏锐地向仪器效果进行更敏感的注意力。

AA测试结果可以帮助我们识别这种效果。如果AA结果存在差异,则一个原因可能是仪器效果。之后,为了验证AA推断,我们需要了解度量计算和数据处理步骤。有关AA测试设置的详细信息将在下一节中讨论。

运行AB实验的最佳实践

  • 计算采样率不匹配(SRM):在理想世界中,很难在控制和治疗之间获得平等的分配。SRM定义为预期样本比率和观察样本比率之间的不匹配。按照50/50的比例,我们预计对照组和治疗样本组之间的比例为1:1。但实际上,我们倾向于观察49.85/50.15的分裂。在这种情况下,我们需要确保我们离1:1的预期比率不远。我们需要进行卡方拟合优度测试,以查看观察到的比率不匹配是否与预期比率不同。如果存在SRM,则推理将不成立。
  • 使用紧急关闭规则停止实验关于关键指标防止用户因功能造成的不良体验而流失。例如,如果与对照组相比,治疗组的平均页面加载时间大于5秒,则提前停止实验。设置一个单独的机制,在关键指标出现重大负面变化时,根据第一天的数据停止实验。
  • 收集AA实验结果:对于分配在AB测试中的用户,在实验开始前1周收集其数据。由于在此时间范围内未启动实验,因此处理版本与控制版本相同。因此,在AA测试中,我们将与控制控制进行比较。因此,我们预计没有差异。AA结果可以帮助我们检查 -
  1. 仪表效果:如果部署中没有错误,则AA结果应显示没有差异。
  2. 选择偏差:如果没有用户选择偏差,则AA结果应显示没有差异。

结论

AB实验是电子商务和搜索引擎行业中广泛应用的技术,以确定产品的最佳性能。然而,AB实验验证通常被忽视,这可能导致在某些情况下导致损失导致的外部效果,如新颖性和仪器。此外,执行特征分析对于预期影响和预防潜在的用户流失是不佳的特征来关心。因此,要实施端到端AB实验过程,请遵循最佳实践,在实验前进行特征分析,并进行有效性检查,以确保推断持有实验后的职位。