作者:Tony Yiu
编译:ronghuaiyang
使用一个简单的例子来解释A/B测试的复杂细节(也就是假设检验)。
自从我开始写博客,我发现写一个概念,并试图把它教给读者会迫使我更深入地去学习这个概念。
因此,在接下来的几周,我将逐一介绍每个数据科学家应该具备的核心能力,以便我们都能在面试中取得好成绩(祝好运)!现在进入今天的话题!
伪装的假设检验
如果你有统计学背景,在某个时候你可能会想,“A/B测试和假设检验是一回事吗?”没错,就是一回事!因此,让我们通过一个简单的例子来探究假设检验是如何工作的,从而得出A/B测试。
假设我们的客户,装了一个非常成功的个人理财应用程序,带着以下问题来找我们:
“Tony,我们重新设计的应用程序目的在帮助人们存下更多省下来的钱。但它真的有用吗?请帮助我们解决这个问题,这样我们才能决定是否部署它。”
所以我们的工作是弄清楚人们是否会因为新的应用程序而存更多的钱。首先,我们需要弄清楚我们是否拥有所需的数据。我们问,“您收集了哪些可能有用的数据?”
原来我们的客户已经做了一个实验,收集了一些数据:
6个月后,我们的客户记录了实验中所有1000名用户的储蓄率。储蓄率是指每个用户每月储蓄的工资的百分比。她发现了以下内容:
对照组的平均储蓄率由0%提高到12%,标准差为5%。
实验组的平均储蓄率由0%提高到13%,标准差为5%。
我们的实验结果在直方图上看起来是这样的:
对照组和实验组的储蓄率直方图
与对照组相比,实验组的成员在六个月后的储蓄率确实有所提高。那么,仅仅绘制这个柱状图,把它展示给我们的客户,然后结束就足够了吗?
不,因为我们仍然不能确定我们所观察到的储蓄增长是真实的。幸运的是,我们本可以用这样一种方式为我们的实验抽样用户,即那些希望节省更多钱的人最终都进入了实验组。为此,我们需要提出以下问题:
我们从随机事件中观察到的结果得到的可能性有多大
回答这个问题是假设检验(以及A/B检验)的关键。
零假设
想象一下,在现实中,新的应用程序设计并没有帮助用户节省更多。然而,即使新设计是一个无用的,仍然有可能在我们进行实验时观察到储蓄率的增加。
怎么会这样呢?这是因为我们在抽样。例如,如果我从成千上万的人群中随机选出100个人,计算他们的平均身高,我可能得到5英尺8英寸。如果我再做几次,下次可能得到5英尺10英寸,之后可能得到5英尺7英寸。
因为我们是用样本而不是整体来计算统计量的,所以我们计算的每个样本均值都是不同的。
知道抽样会导致变化,我们可以把上面的问题重新组织成:
如果新的应用程序设计真的对人们的储蓄没有影响,那么观察到储蓄像随机增加一样大的概率是多少
正式地说,我们的零假设是:对照组储蓄率的增加等于实验组储蓄率的增加
我们现在的工作是检验零假设。我们可以用概率思维实验来做。
一次又一次的进行模拟实验
想象一下,我们可以轻松地、即时地一次又一次地进行我们的实验。此外,我们仍然处于一个并行的世界,在那里,新的应用程序设计是一个无用的,对用户的省钱没有任何影响。我们会观察到什么?
对于好奇的人来说,我们是这样模拟的:
当我们这样做时,我们得到下面的直方图。柱状图显示了由于随机性(由抽样驱动),组间的平均储蓄率差异有多大。
红色的竖线显示了我们在客户进行实验时实际观察到的平均储蓄率差异(1%)。直方图红线右边的百分比是我们想要的——随机抽取时省下来的钱增加1%的概率(我们这里做了一个单次实验,因为它是更容易理解和想象)。
显示10,000次模拟中组间平均值差异的直方图(假设新设计对储蓄率没有影响)
在这种情况下,这个值非常低——在我们运行的10,000个实验中只有9个(假设新设计对节省没有影响)。
这意味着由于随机性,观测到的值和我们所观测到的值一样高,只有0.09%的变化。
0.09%的机会就是p值。
我们的目标,一如既往,是建立一个直观的理解。这些工具如何工作,为什么工作。因此,一般来说,我们将避免术语,而喜欢简单的解释。然而,p值是一个关键的概念,你会在数据科学世界中遇到很多,所以我们必须面对它。p值(我们在上面的模拟中计算的0.09%的值)表示:
如果零假设成立,我们观察到的概率。
因此,p值是我们用来检验零假设是否成立的数字。根据它的定义,看起来我们想要一个尽可能低的p值。p值越低,我们在实验中幸运的可能性就越小。在实践中,我们将设置一个p值截止值(称为alpha),低于这个值,我们将拒绝原假设,并得出观察到的效果/影响最有可能是真实的(统计上显著的)。
现在我们来研究一个统计特性,它可以让我们快速计算p值。
中心极限定理
现在我们来谈谈统计的基础概念之一:中心极限定理。该定理指出,如果你把独立的随机变量加起来,其和的归一化趋于正态分布。即使随机变量本身不是正态分布,中心极限定理也成立。
翻译一下:如果我们计算一系列的样本均值(假设我们的观测值是相互独立的,就像抛硬币是相互独立的一样),所有这些样本均值的分布就是正态分布
看一下我们之前计算的平均值差异的直方图。看起来像正态分布,对吧?我们可以使用Q-Q plot来做可视化,如果我们的分布是正态的,它会紧紧地粘在红色的45度线上。确实如此,酷毙了!
所以当我们一遍又一遍地做储蓄实验时,这就是中心极限定理的一个例子!
那么为什么这很重要呢?
还记得我们之前是如何通过10000次实验来检验零假设的吗。听起来是不是很累?实际上,重复进行实验既累人又昂贵。但由于中心极限定理,我们不需要这么做!
我们知道重复实验的分布是什么样子的—正态分布,我们可以用这个知识来统计推断10000个实验的分布,而不需要实际去做这么多实验!
我们复习一下我们目前所知道的:
完成工作
好了!现在我们有了运行假设检验所需的一切。所以让我们继续完成我们从客户那里收到的工作:
和上面一样的直方图(再贴一次):
最后,请注意,我们分析计算的0.0016的p值与我们之前模拟的0.0009不同。这是因为我们运行的模拟是单侧的(单侧测试更容易理解和可视化)。我们可以通过将模拟的p值乘以2(为了解释第二个尾部)来调和这些值,得到0.0018—非常接近0.0016。
结论
在现实世界中,A/B测试不会像我们虚构的例子那样一目了然。很可能我们的客户(或老板)没有现成的数据供我们使用,我们必须自己收集和清理数据。以下是一些准备A/B考试时需要注意的额外实用问题:
英文原文:https://towardsdatascience.com/data-science-fundamentals-a-b-testing-cb371ceecc27
请长按或扫描二维码关注本公众号