bts防弹少年团演唱会

bts防弹少年团演唱会

没有什么神奇的约95%的统计意义

《没有什么神奇的约95%的统计意义》

您可能要么太早或太晚结束您的A / B测试。

转换优化行业的标准最佳实践是在结束A / B测试之前等待两个条件。 首先,获得代表性样品。 其次,测试的获胜者可以95%或更高确定性地宣布。 你可以在%E8%BF%99%E9%87%8C“>

那么为什么Jeff Bezos在给股东的%E5%B9%B4%E5%BA%A6%E4%BF%A1%E5%87%BD%E4%B8%AD%E5%86%99%E9%81%93%E5%91%A2%EF%BC%9F”>

“大多数决定应该在你希望拥有的信息的70%左右。 如果你等待90%,在大多数情况下,你可能会变慢。“

请注意,他没有制定不变的法律; 他说“最”。 不过,他描述的动态是什么?

这是机会成本。 不对您所拥有的信息采取行动需要花费成本,而是选择等待更大的确定性,但我们很少做出有力的努力来计算机会成本并将其与持续测试的潜在收益进行比较。

一个假设的

我们来看一个假设的例子。 这些是高价值产品(也许是SaaS公司)的潜在客户生成页面的A / B测试结果。 测试已经运行了两个月。

一个
游客 1000 1000
转换 100 120

现在,如果B低于或等于A,我们将有8%的概率看到这些或更极端的结果有利于B.让我们看看在这种情况下概率曲线的近似值。

《没有什么神奇的约95%的统计意义》
图1

如果我们继续测试,并且如果我们假设数据保持相同的比例,则需要大约三周才能达到统计显着性。 (当然,如果B的优势增加或缩小,显着的时间可能会缩短或延长。)

那段时间我们失去了什么?

如果我们今天停止测试然后尽可能地猜测,我们将获得一个平均提高2%转换率的电梯 – 除了一半的访客已经看到选项B,所以它可能更接近到1%。 尽管如此,从绝对数字来看,我们平均会比平时增加7或8个以上的潜在客户 – 这对于销售团队而言可能是重要的。

当然,A实际上也是8%的可能性是最佳选择。 但是,不仅8%代表大约只有十分之一的机会,请查看上图中粉红色区域的下降位置。 8%的时间潜在损失的规模 – 领先的A和尾随的B之间最大的可能差距 – 约为2%,而潜在的增长规模为92%的时间 – 领先者之间最大的可能差距B和尾随A – 约为6%。 当您考虑这些结果的影响时,选择B的概率值会增加。

这可能是显而易见的,但仍然值得注意的是,等待重要性与等待确定性不同。 三个星期后,我们仍然有5%的机会做出错误的选择 – 仍然会有一个粉红色的重叠区域。

95%只是一个惯例

那么为什么95%成为统计意义的标准呢? 在正常数据分布中,95%是与平均值的两个标准偏差(偏差是分散的度量)。除此之外,没有什么特别的约95%; 这只是一个惯例。

当然,公约是必要的。 上图中的概率曲线从未实际触及轴,而是朝向它倾斜,直到它们在一端接触到零而在另一端接触最大值。 95%惯例允许我们做的是快速定义曲线的分散程度。 我们可以说,“95%的时间,我们的样本结果将落在总人口中实际结果的x%。”这实际上是将钟形曲线切割到它们的向外斜坡上,因此它们的宽度可以用标准化方式。

该公约还为学者报告其结果提供了一个标准:他们可以说,“这些结果很重要”或“这些结果并不重要。”这使报告更容易理解和总结。

但除了这些交际优势之外,95%的人都没有什么神奇之处。

何时结束A / B测试

首先,我们不要忘记代表性样本的必要性。 最好只在您开始测试的一周中检查您的测试,以便每次监测都包含完整的每周周期。

但是,我们可以自信地做出这两个陈述:

  • 在任何已经运行了一段合理时间的A / B测试中,目前没有完成测试并选择数据告诉您的优秀版本的成本:这是机会成本。
  • 结束测试并且可能做出错误的选择也需要花费成本:这是错误成本(当然,即使有95%的重要性,它也存在。)

结束A / B测试的更好的指导方针是,当机会成本开始变得大于错误成本时,而不是使用有些任意的95%标准。

我与Wesley Engers的 Santa Clara数据科学家合作 ,创建了一个Excel文档,告诉您何时越过这个拐点。 你可以%E5%9C%A8%E8%BF%99%E9%87%8C%E5%85%8D%E8%B4%B9%E4%B8%8B%E8%BD%BD%E3%80%82″>

如何使用计算器

以下是您输入计算器的内容,以下是最重要的输出:

输入 输出
  • 版本A中的访问者
  • 版本A中的转换
  • B版访问者
  • 版本B中的转换
  • 天测试已经进行
  • 摊销期(即您计算退货的时间段。)
  • 估计升级版的升级版
  • P值(置信度百分比等于1 – P值)
  • 预期机会成本是否大于准确性的预期收益? (是的,停止测试/否,继续测试)

输入列中的前五项是相当不言自明的,但第六项可能需要一些细化。

为了计算错误成本是什么,我们需要在测试开始的一段时间内对它们进行投影; 我们称之为摊还期。 这是测试结果可能对您有用的时间。

鉴于您正在测试的页面和您的业务情况可能会发生变化的元素数量 – 产品线更新,客户偏好,与其他页面元素的交互等 – 我们建议将摊销期限设置为534天(即到18个月。)但是,如果您预计在几个月内完成一个完整的站点重新设计,那么无论如何都要在这个领域使用更少的天数。 同样,如果您预见到您的情况相当稳定,那么您可能希望切换到更长的摊销期。

产出包括目前优秀版本的估计升力,到目前为止的P值(可轻松转换为置信度百分比),以及模型对问题的结论:预期机会成本是否大于准确性的预期收益?

这个问题的答案并不是一个决策机器,取代任意的95%标准。 是的,您应该根据投资回报率而不是任意规则做出决定,但是还有其他一些因素会影响您的投资和回报,您需要考虑这些因素。 这里只是其中几个:

  • 此计算器仅考虑此实验的回报。 如果您计划进行其他可能带来成果的实验,继续您当前的实验也会延迟其回报。 这有利于更快地得出实验结论。
  • 另一方面,我们通常不计算准备新A / B的成本。 如果这个模型推动您更快地迭代,请记住您的时间也是一个成本。 这有利于较慢的实验节奏。 (您可以%E5%9C%A8%E6%AD%A4%E5%A4%84%E9%98%85%E8%AF%BB%E5%85%B6%E4%BB%96%E4%B8%80%E4%BA%9BROI%E6%B3%A8%E6%84%8F%E4%BA%8B%E9%A1%B9%E3%80%82%EF%BC%89″>

有了这个或任何其他决策方法,通常最艰难的电话是测试没有给你一个明确的答案。 如果你收集了一个相当大的样本并且结果仍然太接近了 – 无论是在p值还是机会/错误成本方面 – 通常最好的做法是在模型宣布之前选择一个胜利者并且看起来为另一个可能为您提供更高回报的测试机会。

如何进行计算

如果你想知道计算器的内幕,下面是一个解释。

《没有什么神奇的约95%的统计意义》
图2

我们计算的第一件事是从未结束实验的每日失去转换的平均数量(每日机会成本)与做出错误选择的每日失去转换的平均数量(每日错误成本)。在现实生活中,这些线路会上升并且响应于数据的随机波动而下降,但是如果我们假设它以相同的比例一致地到达,则线条看起来像这样。

每日误差成本线向下倾斜,因为在收集数据时,会获得统计置信度,并且误差的可能性会降低。 每日机会成本线是持平的,因为如上所述,我们假设结果没有波动:如果每个版本的结果不变,那么不选择获胜者的平均每日成本也不会。

我们如何计算这些数字? 每日机会成本只是效果较好的版本与效果较差版本的转换次数之间的差异除以测试运行的天数然后再除以2,即一半参观者已经看到了优秀的版本。

每日错误成本是一个更复杂的统计计算,您可以在Excel工作表中查看,但这里是Wesley的总结。 (不要气馁……在此之后它变得容易多了。)

每日错误成本是通过确定在错误选择版本时将丢失多少转换来计算的。 例如,如果当前更高的转换是版本A,但事实上版本B实际上具有更好的转换率,那么使用版本A而不是正确的版本B计算估计的丢失转换数。数学上,这是通过以下方式完成的:假设版本B实际上更好,计算估计差异是转换率。 这是基于版本A和版本B的转换率之间的差异的正态分布。数学上,首先让我们假设PA> PB然后这是PA-PB的预期值,假设PA-PB

现在让我们假设我们处于测试生命中的某个阶段,我们正考虑在今天或明天结束测试。 在图3中,我们看到了今天我们停止测试的情况。 我们接受剩余的摊销期限的每日错误成本。 在图4中,我们看到我们继续测试直到明天的情况,接受该期间的机会成本,然后切换到较低的错误成本。

《没有什么神奇的约95%的统计意义》
图3
《没有什么神奇的约95%的统计意义》
图4

请注意,我们正在添加一个区域并丢失图4中的区域。图5使这更清楚。

《没有什么神奇的约95%的统计意义》
图5

当我们选择继续测试时,我们正在添加区域a但丢失区域b。

如果我们带走的不仅仅是我们正在增加 – 也就是说,如果区域b大于区域a,那么我们失去的错误成本将大于我们获得的机会成本。 继续实验是有意义的。

但是,如果我们添加的数量超过了我们的数量,那么如果区域a大于区域b,那么我们为继续实验而支付的机会成本将大于我们因更准确的数据样本而失去的误差成本。 我们应该停止实验。

很明显,停止实验的最佳时间将是区域a开始变得大于或等于区域b,因为这将导致成本增加。

为明天计算这些区域相当容易。 区域a是按长度计算的宽度:

(每日机会成本 – 每日错误成本)x明天以来的1天

区域b是通过将数据预测到未来一天来计算的,以便估算错误成本中的每日减少量,然后将其乘以摊还期限中的剩余天数:

错误成本x减少(摊销期限 – 已进行天数测试 – 明天为1)

当区域a大于或等于区域b时,机会成本开始比错误成本更快。 这是你应该考虑停止测试的时候。 在我们开始撰写本文的SaaS公司的假设案例中,模型建议完成测试,即使我们的置信度低于95%。

结论

正如我们已经提到的,本文并不打算用另一个规则取代一条严格的规则(当你有95%的重要性时,结束你的A / B测试!)。 这是要点:

  • 我们需要考虑目前尚未结束A / B测试的机会成本
  • 我们应该使用工具来计算这些机会成本并将其与错误成本进行比较
  • 营销人员无法像学术界那样思考,寻找真理(使用资本T)。我们的工作是提供最佳的投资回报率,这可能意味着运营的确定性低于我们的预期。

这种模式可能会使收到大量数据的人超过95%的信心。 但是,我认为对于数据缓慢的营销人员来说,这将是最有用的。 该模型将使他们在达到统计显着性之前终止实验。 通常情况下,由于95%的数据量而不鼓励A / B测试的数据很少的营销人员,而是敦促他们遵循“最佳实践”。

这是一种伤害。 在现实世界中,如果事物的真实性比不是5倍或10倍,那么这是显着的; 19x(95%转化为)不是一个神秘的门槛。

特别感谢Analytics Toolkit中的 Georgi Georgiev在本文中对评论和审查统计方法进行评论。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注