因果推理101:理解为什么背后的原因

因果推理:探索为什么背后的原因

在facebook上分享
在twitter上分享
分享在linkedin
在whatsapp分享

最明显的结果是数字革命就是收集和分析的数据量。然而,跟上当今数据创建的指数速度并非易事,这就是为什么我们专注于开发智能机器和模型来为我们做大量的工作。

这些机器学习模型可以很好地概括未来的数据,但它需要做出假设,并需要对手头的数据进行深思熟虑的考虑。数据科学家通过将计算机科学、建模、统计、分析和数学技能与良好的商业意识相结合,帮助组织识别模式并对可能发生的事情进行预测。

然而,企业也经常使用经典的机器学习工具来解决决策问题,比如定价或营销活动的目标客户。在做出预测和做出决定之间存在着很大的差距,所以我们怎样才能更进一步呢?

苹果、橘子和虚假相关性

机器学习模型是好是坏取决于它提供的数据。这就是为什么数据科学家花费数小时对数据进行预处理,仔细选择对结果模型质量贡献最大的特征。

相关性是实现这一目标的必要工具。它是一种统计度量,用来表示两个变量之间的线性关系的程度,也就是说,它们是否以恒定的速率一起变化。

然而,相关性并不意味着因果关系,人们不能仅仅根据观察到的两个变量之间的关联来合理地推断出它们之间的因果关系。但是,当观察结果显示图表的线条是一起倾斜的或一起上升的条形图时,人类自然倾向于给出一个理由,创造一个叙述,并得出一个因果结论。

从统计学上讲,我们无法实现这一飞跃。然而,正如哈佛大学法学院(Harvard Law School)的学生泰勒·维根(Tyler Vigen)在他的网站上所证明的那样,变量往往是相关的,但不是因果关系,原因要么是巧合,要么是某个特定的第三个看不见的因素的存在。这些被称为虚假相关性。

他网站上的图表描绘了一些滑稽的关联——例如,苹果iPhone的销量和摔下楼梯死亡的人之间的关联。虽然很容易发现并解释这些荒谬的例子,但当人们遇到被操纵但貌似合理的图表时,就很难确定真相了。如果没有随机实验和因果推理,基于相关性的方法会让我们误入歧途。

为什么要纠结因果关系呢?

朱迪亚·珀尔在他的《为什么?》”perfectly explains the need for causality –

我们知道橙子能预防坏血病,难道有这种无可辩驳的相关性还不够吗?但是如果你没有橘子了呢?在不知道维生素C的真正因果关系的情况下,你可以尝试香蕉。

对企业来说,这可能意味着横财或彻底垮台的区别。考虑以下场景,它们呈现出因果关系的错觉-

场景1

XYZ公司开发了一款新的购物应用程序。尽管该应用程序拥有方便的用户界面,而且不太笨重,但它的卸载率非常高。对数据进行更深入的研究表明,弃车和卸载之间存在相关性。

解决这种情况的最佳方法是针对弃车者进行重新营销或为客人提供结账选择。但如果弃车不是卸载的原因呢?

因果推理101:理解为什么背后的原因

如果导致弃车和卸载的真正问题是太多的购买步骤阻碍了客户实际结账,那么以上建议的所有操作都将被证明是没有帮助的。

场景2

一家美容和个人护理公司想让客户购买他们的订阅计划。在运行了一个市场组合模型后,观察结果显示,几乎每个点击他们“高级美容技巧”页面的人都是订阅者。因此,他们把这个页面放在了网站上更突出的位置,并发起了一个电子邮件活动,通知非用户这个页面的存在。令他们惊讶的是,这项活动导致订阅量减少。

为什么会发生这种情况?
虽然在浏览高级美容技巧页面和现有订阅者之间存在相关性,但这并不是因果关系,因此不会让用户更有可能订阅。在这种情况下,最有可能的是,浏览“高级美容技巧”页面的人是经验丰富的美容师。通过鼓励尚未订阅的用户浏览“高级美容技巧”页面,该公司恐吓了新手美容师,并劝阻他们不要订阅。

因果推理101理解如何背后的原因3

该做还是不该做:什么时候我们应该根据相关性采取行动?

这个问题的答案取决于两个隐含的问题——

  1. 这种相关性在未来会可靠地发生吗?
  2. 行动的风险和回报之间的权衡是什么?

早在2014年,BCG就开发出了一个棱镜,通过它可以评估任何潜在的行动,如下图所示

因果推理101理解如何背后的原因2

图表表明了我们都凭直觉知道的一点——当收益远远大于风险时,采取行动是有意义的,即使相关性很弱。这类似于在过马路前看两边,因为看的成本很低,不看的潜在损失很高。或者,如果风险太高,而我们又不清楚为什么这两个事件是相互关联的,那么就需要重新考虑行动。

区分因果关系是很重要的超越预测和预测,了解变量如何相互影响,以及我们如何利用干预来改变一个系统。

有时候,在处理大数据时,相关性就足够了。但在其他时候,了解原因是至关重要的。关键是要知道相关性什么时候足够,不足够的时候该怎么做。

救援的因果推理
因果推理是一种用来确定变量X的变化是否原因另一个变量Y的变化。

确定因果关系的金标准是随机对照试验或A/B试验。然而,我们不能总是进行这样的实验,因为它们昂贵、耗时,有时还不道德。相反,我们依靠观察数据和统计数据来得到答案。

深入探究:因果推理的基础

因果推理有两种被广泛接受的框架:

朱迪亚·珀尔的结构因果模型
朱迪亚·珀尔(Judea Pearl)提出了一个因果元模型,其中包括一个三级抽象概念,他称之为“因果阶梯”。自下而上,这些是:

  1. 协会-观察/观察-“哦,销售和价格似乎是相关的。”这种说法是纯粹的统计或观察——就像在输入数据中寻找模式,通常表示为相关性。
  2. 干预“如果我们把价格翻倍会怎么样?”这个问题涉及对深思熟虑的结果进行推理或预测。
  3. 反设事实-想象-“如果我们没有这么做,会发生什么?”这个问题需要构建一个理论来解释为什么特定的行为会产生特定的效果,以及在没有这些行为的情况下会发生什么。

结构性因果模型是表示种群中因果关系的数学模型。通常,因果模型的结构以有向无环图(DAG)的形式表示,如下图所示:

因果推理101理解如何背后的原因4

箭头表示因果关系,即从a到B的箭头表示a导致B。在这里,我们将销售设置为目标变量,引导焦点回答“是什么原因导致销售?”

另一个与这个领域高度相关的术语是混杂因素-这些变量同时影响因变量和自变量。在我们前面的例子中,购买过程中有太多的步骤会造成混淆。通常情况下,未被观察到的混杂变量会导致在两个看似不相关的变量中出现虚假的相关性。

为了从观测数据中了解DAG,已经开发了许多复杂的工具。然而,这些仍然处于初级阶段,我们必须将领域知识整合到这些图中,使它们更加相关。

Donald Rubin的潜在结果模型

如果我们对治疗变量中有意改变的结果感兴趣,那么在每个可能的治疗选项下都会考虑“潜在结果”。

我们不能同时观察一个人的两种潜在结果。这种困境被称为“因果推理的基本问题”。例如,如果一个人吃药,我们永远不会知道如果她不吃药会发生什么。也就是说,我们不能估计单位水平的因果效应。然而,在一定的假设下,我们可以估计总体水平的平均因果效应。

(绝望)如如果我没有吃药的话,会发生什么事呢

(可能)如果每个人都服药和没人服药,缓解率会是多少?

为此,我们将感兴趣的人群分为治疗组和对照组。其平均值之差即为平均因果效应。

在一些情况下,由于伦理或实际考虑,这样的随机实验是不可能的。在这些情况下,因果推理通过使用倾向评分匹配和治疗加权的逆概率等统计方法,从观察数据中模拟随机试验,从而节省了时间。

结论

因果关系主要是关于干预——关于做。标准统计都是关于相关性的,往往会导致错误的假设,并在不经意间做出错误的决定。

理解某事发生的“原因”可以帮助我们根据产出调整方法和目标,而不是循环使用方法和策略,希望其中一个会奏效。

信任你的决策模型需要它们具有因果关系。实现真正显著的性能提升通常依赖于理解和解决情况的潜在原因。我们的专家188bet金宝搏彩票可以帮助您发现原因,并做出可持续增长导向的业务决策。

你有兴趣了解更多吗?请与我们联系或发邮件给我们marketing@latentview.com