bts防弹少年团演唱会

bts防弹少年团演唱会

拉回P值的帷幕(或我如何学会喜欢小数据)

《拉回P值的帷幕(或我如何学会喜欢小数据)》

对于所有谈论有多棒(大而且不要忘记大)的大数据来说,转换优化工具包A” b>最喜欢的工具之一就是小数据。

优化,赢家和输家,在一天结束时,或者另一件事,A / B测试实际上只是一个抽样应用。

您可以选择几种替代选项(例如,’50%off’v’买一送一’)并与部分用户一起试用。 你看每个人做得多好,然后决定你认为哪一个会给你最大的回报。

听起来简单,但在某种程度上,似乎有很多关于重要性测试的问题,特别是p值是多少,以及如何解释它以帮助最好地做出合理的商业决策。

这些实际上是深层次的问题,为了开始处理它们,您需要对采样有基本的把握。

嘿,切豆腐!

我在大学里有一位数学教授,当课堂上的任何人犯了一个基本的概念错误时,他会绝对是弹道导弹。 他一定是在一个农场长大的,因为他的股票短语对他们来说具有农耕气息。

他最喜欢的是“如果你不知道牛奶来自哪里,你怎么能制作奶酪?!”

据他所知,除非理解了概念基础,否则人们无法有效地将想法付诸实践。 A / B测试是奶酪,采样是牛奶去找我们得到牛奶的地方。

几个预赛

在我们开始之前,我们应该快速浏览A / B测试的基本构建块。 我相信你已经知道这些东西了,但是确保每个人都在同一页面上并不会受到伤害

平均值 – 平均值。 我不需要说更多,除了可能提醒你,对于转换率,它只是事件的数量乘以成功的概率(n * p)。

方差 – 这可以被认为是我们数据的平均可变性。 主要的一点是,可变性越高,平均值作为任何单个数据点的预测器的精确度就越低。

概率分布 – 这是一个函数(如果你不喜欢’函数’,只需将其视为一个规则),它为结果或结果赋予概率。 例如,单个模具的滚动遵循均匀分布,因为每个结果被赋予相同的发生概率(所有数字都有1/6的可能性出现)。

在我们对采样的讨论中,我们将大量使用具有熟悉钟形的正态分布。 请记住,整个分布的概率总和为1(或100%)。

测试统计或另一个KPI

测试统计量是我们在统计测试中用来比较两个(或更多)选项 – 我们的’A’和’B’的结果的值。

将测试统计视为另一个KPI可能更容易。 如果我们的测试KPI接近于零,那么我们没有太多证据表明这两个选项确实存在差异。

然而,我们的关键绩效指标越零,我们就越有证据表明这两个选项的表现并不相同。

我们的新KPI结合了我们测试选项平均值的不同,并结合了我们测试结果的可变性。 测试统计信息如下所示:

《拉回P值的帷幕(或我如何学会喜欢小数据)》

“B”的’A’方差’B’均值的均值’A’* 1 / n的方差

所以,例如,假设我有两杯%E5%92%96%E5%95%A1“>

现在,让我们说你想问,“我镇上哪个地方有更热的咖啡,麦当劳或星巴克?”嗯,每个地方都有很多咖啡,所以我要比较一杯咖啡。 任何时候我们必须测量和比较事物的集合,我们需要使用我们的测试统计数据。

每个餐厅的咖啡温度变化越大,我们就越多地权衡观察到的差异,以解释我们的不确定性。

因此,即使我们在顶部有相当大的差异,如果底部有很多变化,我们的测试统计数据仍将接近于零。 因此,我们的数据变化越大,观察到的差异就越大,我们需要在测试KPI上获得高分。

请记住,高测试KPI =更多证据表明任何差异不仅仅是偶然的。

购买之前始终采样

好了,现在我们已经完成了这项工作,我们可以花一点时间进行采样,这样我们就可以了解神秘的P值。

为了便于说明,假设我们正在尝试推广专门从事Web分析和转换优化的会议。 由于我们的会议只有在至少有一定数量的与会者时才会取得成功,我们希望提醒用户尽早购买门票。 在过去,我们使用“Analytics200”作为我们的早鸟促销折扣代码,将会议价格降低200美元。 然而,鉴于A / B测试现在是一个热门话题,也许如果我们使用’A / BTesting200’作为我们的促销代码,我们可能会让更多的人提前注册。 因此,我们计划在我们的控件’Analytics200’和我们的替代’A / BTesting200’之间运行A / B测试。

我们经常将A / B测试视为一项活动或任务。 但是,实际的测试机制实际上有两个主要部分。

  1. 数据收集 – 这是我们将用户暴露给“Analytics200”或“A / BTesting200”的部分。 正如我们将要看到的,在更多信息(更少的可变性)和成本之间会有一个权衡。 费用为何? 因为我们正在投入时间,并提出可能更好的选择,希望我们能找到比我们目前正在做的更好的东西。 我们现在花费资源来改进我们对未来可能采取的行动的估计。 A / B测试本身并不是优化。 这是对信息的投资。
  2. 数据分析 – 我们在这里选择一种方法或框架,用于从我们收集的数据中得出结论。 对于大多数在线运行A / B测试的人来说,它将是经典的无效测试方法。 这是我们选择统计显着性,计算p值并得出结论的部分。

它们之间的细微差别依赖于概率和统计的不同基本假设。 简而言之,Fisher认为p值是衡量零假设的证据(A / B测试用语中的控制)。 Pearson&Neyman介绍了Type 1和Type 2错误的想法。

Jeffreys测试计算的尝试是基于对概率的贝叶斯解释,可以非常宽松地将其视为对确定性或信念的度量。 这与Frequentist概率概念完全不同,概率又被宽松地定义为某个过程的长期频率。 因此,名称Frequentists。 (。我们主要关注Fisher,因为p值是Fisher测试方法的基础

意义检验的间接逻辑

莎莉和鲍勃正在等待吉姆在下班后的一个晚上接他们。 虽然鲍勃几乎每晚都和吉姆搭车,但这是萨莉的第一次。 鲍勃告诉莎莉他平均要等5分钟给吉姆。 经过大约15分钟的等待,莎莉开始认为也许吉姆不会来接他们。 所以她问鲍勃,“嘿,你说吉姆平均在5分钟到这里,等待15分钟正常吗?” 鲍勃回答说,“别担心,随着流量的增加,等待这么久甚至更长时间并不罕见。 我会说根据经验,这样的等待,或者更糟糕的是,可能会在15%的时间内发生。 莎莉放松了一下,他们在等待吉姆的那一天聊天。

请注意,Sally只询问了漫长等待时间的频率。 一旦她听说她观察到的等待时间并不太常见,她就会觉得Jim会更加舒服。 有趣的是,她真正想知道的是吉姆要站起来的可能性。 但这不是她学到的东西。 相反,她只知道,鉴于吉姆一直捡起鲍勃,他的概率是15分钟或更长时间。 这种间接逻辑是经典统计检验的本质。

回到我们的会议

为了论证,我们假设“Analytics200”促销的真实转化率为0.1或10%。 在现实世界中,这个真实的速度对我们来说是隐藏的 – 这就是我们首先收集样本的原因 – 但在我们的模拟中我们知道它是0.1。 因此,每次我们发送“Analytics200”时,大约有10%的人注册。

如果我们出去为50个潜在客户提供我们的“Analytics200”促销活动,我们平均会期望有5次会议注册。 但是,如果我们看到更少或更少的几个,我们就不会感到惊讶。 但是有几个呢? 如果我们看到4,我们会感到惊讶吗? 那么10,或25,还是零呢? 事实证明,P值回答了这个问题, 这个结果有多令人惊讶?

扩展这个想法,而不是只抽取50个会议前景的一个样本,我们采取了50个潜在客户的100个单独样本(所以总共5,000个潜在客户,但是在每个50个潜在客户的100个桶中选择)。 运行此模拟后,我绘制了100个样本的结果(此图称为直方图),如下所示:

《拉回P值的帷幕(或我如何学会喜欢小数据)》

我们的模拟结果范围为2%至20%,我们的100个样品的平均转化率为10.1% – 这非常接近10%的真实转化率。

惊人的采样事实数字1

重复样本的平均值(平均值)将等于我们从中抽样的人口的平均值。

惊人的采样事实2

我们的样本转换率将根据正态分布大致分布 – 这意味着大多数样本将聚集在平均值附近,远离我们的平均值的样本很少发生 。 事实上,因为我们知道我们的样本大致正常分布,我们可以使用普通(或student-t)分布的属性来告诉我们给定结果的惊人程度。

这很重要,因为虽然我们的样本转换率可能不是真正的转换率,但它更可能更接近真实率。 在我们的模拟结果中,53%的样本在7%到13%之间。 我们的样本结果中的这种差异称为抽样误差。

啊,现在我们正在做饭,但你可能要问的样本量怎么样? 我们已经拥有了所有这些抽样的优点,我们甚至都没有谈到每个样本的大小。 让我们来谈谈:

有两个组件可以确定我们将要有多少抽样误差:

  1. 我们人口中已经存在自然变异。
  2. 我们的样本大小

我们无法控制人口的变异性,它就是这样。

但是,我们可以控制样本量。 通过增加样本量,我们可以减少误差,从而可以更加确信我们的样本结果将接近真实均值。

抽样事实3

随着我们增加每个样本的’N’,我们样本的扩散减少了。 样本量越大,我们的样本就越接近真实均值。

例如,如果我们收集另一组模拟样本,但这次将样本量从50增加到200,结果现在分散得更少 – 范围为5%到16.5%,而不是2%到20% 。 此外,请注意,当我们的样本仅包含50个潜在客户时,84%的样本在7%到13%之间,而仅为53%。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

我们可以将样本大小视为一种控制旋钮,我们可以转而增加或减少估算的精度。 如果我们采用无限数量的样本,我们将获得下面的平滑法线曲线。 每个都以真实均值为中心,但宽度(方差)由每个样本的大小决定。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

左边的图表更可能远离真正的平均值,而右边的图表更不可能远离真实均值

为什么数据并不总是需要大

经济学往往因为不是真正的科学而受到打击,也许事实并非如此。 但是,它确实至少对世界做了一些有用的陈述。 其中之一是我们应该期望,在其他条件相同的情况下,每个连续输入的值都比前一个少。 这种收益递减原则在我们的A / B测试中发挥作用。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

从右到左阅读,随着我们增加样本的大小,我们的抽样误差会下降。 然而,它下降的速度 – 这意味着我们从样本的每次添加中获得的信息越来越少。

因此,在这种特殊情况下,移动到50的样本大小会大大减少我们的不确定性,但是从150减少到200,会使我们的不确定性降低很多。 换句话说,我们面临着增加成本的任何额外精度的成本。 在考虑测试时,这个数据边际值的概念是一个重要的记忆。 这就是为什么在具有非常相似的转换率的测试选项之间建立差异会更加昂贵和耗时。 做出最艰难的决定通常是那些做出最小差异的决定。

如前所述,我们的测试统计数据说明了我们在结果之间看到的差异以及我们在数据中有多大的变化(不确定性)。 随着观察到的差异上升,我们的测试统计数据上升。 但是,随着总方差的增加,我们的测试统计数据会下降。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

现在,在没有了解更多细节的情况下,我们可以将我们的测试统计数据与我们为手段绘制样本时的方式基本相同。 因此,在此之前,我们只关注一个均值,现在我们正在研究两种方法B和A的差异。事实证明,我们的三个惊人的抽样事实也适用于均值的差异。

好吧,我知道这可能看起来像TMI,但既然我们已经涵盖了基础知识,我们最终可以解决p值。

不仅仅是控制而是一个自恋者

下面是它的工作原理。 我们收集了A / BTesting200和Analytics200促销活动的数据。 但后来我们假装我们真的进行了A / A测试,而不是A / B测试。 所以我们看一下结果,好像我们只是向每个人展示了Analytics200促销。

因为我们正在抽样,我们知道两个群体应该以相同的均值为中心,并且具有相同的方差 – 记住我们假装两个样本都来自同一群体(Analytics200群体)。 由于我们对差异感兴趣,因此我们预计Analytics200-Analytics200的平均值将为“0”,因为平均而言,它们应具有相同的均值。

因此,使用我们的三个抽样事实,我们可以构建如何分配想象的A / A测试,并且我们希望我们的A / A’测试平均来说,每个样本之间没有差异。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

但是,由于采样误差,当我们看到接近于零但不完全为零的值时,我们并不感到惊讶。 同样,我们对结果的惊讶程度取决于我们的结果离零的距离。 我们将使用这样的事实:我们的数据是正态分布的,以告诉我们确切地看到结果远离零的可能性。 零点右侧的某种方式,如在3点或更高点,将发生的概率很低。

P值,最后!

最后一步是查看我们的测试统计数据在此分布上的位置。 如果介于-2和2之间,那么看我们是否正在进行A / A测试就不会太令人惊讶。 但是,如果我们在-2或2的任何一侧看到某些东西,那么我们就会开始进入相当罕见的结果。

现在我们将测试统计(t-score或z-score等)放在A / A测试分布上。 然后我们可以看到距离零有多远,并将其与我们进行A / A测试时看到该结果的概率进行比较。

《拉回P值的帷幕(或我如何学会喜欢小数据)》

在这里,我们的测试统计数据处于令人惊讶的区域。 惊讶区域的概率是P值。 形式上,p值是从零开始看特定结果(或更大)的概率,假设零假设为真。 如果’零假设是真的’是欺骗你,那就改为思考,假设我们真的进行了A / A’测试。

如果我们的测试统计数据处于惊喜区域,我们拒绝Null(拒绝它实际上是A / A测试)。 如果结果在Not Surprising区域内,那么我们将无法拒绝null。 而已。

结论:7走了

以下是关于p值的一些重要观点,您应该记住:

1.什么是’令人惊讶’取决于运行测试的人。

因此,从实际意义上讲,测试的结论将取决于谁在进行测试。 您经常感到惊讶的是,当您感到“惊讶”时,您需要看到的p值有多高(或相关地,Pearson-Neyman方法中的置信水平,例如95%)。

2.使用P值背后的逻辑有点卷曲。

我们需要假设null为真,以便评估可能暗示我们应该拒绝null的证据。 这有点奇怪,也是常青的混乱之源。

3. P值并不能告诉我们B比A好的概率。

它也没有告诉我们在选择B而不是A时我们会犯错误的可能性。这些都是非常普遍的误解,但它们都是错误的。

这是一个甚至“专家”经常犯的错误,所以现在你可以帮助它向他们解释;-)。 请记住,只要零假设为真,p值就是看到结果或更极端的概率。

科学界有关于P值的绘图测试结论的争论。

虽然业内许多人都会将经典重要性测试作为黄金标准,但这是数据科学家们之间的热门争论。

除了前面提到的Bergers的论文之外,还要查看Andrew” gelman>以便就该主题进行频繁的讨论。

5.你总能获得更高(显着)的P值。

请记住,标准误差是实际人口中的一部分变化和一部分样本量。 人口变化是固定的,但是如果我们愿意“支付”它,继续收集越来越多的数据,没有什么能阻止我们。

真正的问题是,这个结果是否有用。 仅仅因为结果具有高p值(或者在Pearson-Neyman方法中具有统计显着性)并不意味着它具有任何实际价值。

6.除非你需要,否则不要出汗。

看,主要的是首先对样本进行抽样,以了解它是否可行。 通常,人们做出的最艰难的决定是那些产生最小差异的决策。 这是因为当选项导致类似的结果时很难选择“赢家”,但由于它们非常相似,这可能意味着只选择一个上升或下降很少。 不要担心是对还是错。 将您的测试计划更像是投资组合投资策略。 您正在尝试运行测试包,其预期的附加信息将为您提供最高的回报。

7. P值不是停止规则。

这是另一个常见的错误。 为了获得我们从采样中获得的所有优点,我们可以解释我们的p值,首先选择样本大小。

然后你运行测试。 这可能是另外一整个或两个,这是一个很好的跳跃点,用于研究多臂武器的强盗问题 Google%E5%92%8C

也许下一次。

*最后一点说明:

使所有这一切更加混乱的原因是,不仅有一种商定的测试方法。 有关更多方法的比较,请参阅Berger的论文http://www.stat.duke.edu/~berger/papers/02-01.pdf%E5%92%8CBaiu” et .al target=”_blank” nih.gov>

%E7%89%B9%E8%89%B2%E5%9B%BE%E7%89%87%E6%9D%A5%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注