博客

匹配配对分析

在facebook上分享
在twitter上分享
分享在linkedin
在whatsapp分享

数据分析师经常想知道两组数据之间是否存在显著差异,通常是在竞选前和竞选后,以及这种差异是否可能是由于随机波动或者不同寻常地决定了差异的存在。

什么是配对分析?

MPA涉及两类:一个研究小组和一个比较小组,由研究对象与对照组对象单独配对得出。

在分析相关数据时,通常有两种情况:

  1. 当我们对同一组参与者进行重复测量时
  2. 当我们根据某些特征匹配项目或参与者时

在这两种情况下,分析的是两个相关价值观之间的差异,而不是个体本身。因为,两组是可比较的——差异决定了统计学上的显著差异。

为什么匹配配对分析?

匹配样品的目的是通过控制所有其他特征的影响,在确定显著差异时获得更好和准确的输出。由于每一个观察结果都是成对的,除了正在分析的一个特征外,所有其他特征对两种情况来说都是相同的。例如,如果我们分析一家美容行业公司发起的活动的影响,你可以通过匹配相应的参与者来控制与年龄相关的购物行为。成对可以是同一个人,同一件事或同一组观察结果

配对分析的类型:

例子:

让我们考虑一个电子商务零售商,他想确定美元价值折扣对美国所有州的转化率活动的影响。

需要注意的是,根据经验,所有参数测试都要求样本量>=30。随着样本量的增加,统计能力也会增加。

H0D= 0 (campaign实施前后的平均转化率没有差异)

H一个D> 0 (campaign实施前后的平均转化率有差异)

因为,目的是确定活动的结果是否有显著的更好的转化率-另一种假设是证明差异大于0。

之前 区别
麻萨诸塞州 1.86% 2.01% 0.15%
科罗拉多州 1.83% 2.01% 0.17%
马里兰 1.79% 1.91% 0.11%
加州 1.77% 1.88% 0.11%
华盛顿 1.71% 1.77% 0.06%
康涅狄格 1.70% 1.74% 0.04%
明尼苏达州 1.70% 1.74% 0.04%
犹他州 1.66% 1.74% 0.08%
维吉尼亚州 1.66% 1.73% 0.07%
特拉华州 1.62% 1.70% 0.08%

空假设和备选假设的表示:

  • H0D= 0
  • HA1D≠0(双尾)
  • HA2D> 0 (upper-tailed)
  • HA3D< 0 (lower-tailed)

在进行测试时,有以下4个重要的假设:

  1. 因变量必须是连续的
  2. 观察是独立的
  3. 因变量必须是正态分布的
  4. 因变量不能有离群值

我们拒绝原假设,并声明在活动实施后转化率明显更好,具有95%的置信度(α=0.05),这意味着结果的统计学显著差异不是偶然的。