bts防弹少年团演唱会

bts防弹少年团演唱会

利用您可信赖的测试结果的统计功效

《利用您可信赖的测试结果的统计功效》

多年前,当我第一次开始%E6%8B%86%E5%88%86%E6%B5%8B%E8%AF%95%E6%97%B6“>

我的热情但误导的信念是我只需要找到要优化的方面,设置工具并开始测试。 在那之后,我想,这只是等待臭名昭着的95%EF%BC%85%E7%BB%9F%E8%AE%A1%E6%84%8F%E4%B9%89%E7%9A%84%E9%97%AE%E9%A2%98“>

我错了。

在实施“具有统计显着性”的变化后,我没有经历过销售增长,因为没有真正的提升 – “ %E8%BF%99%E6%98%AF%E8%99%9A%E6%9E%84%E7%9A%84%E3%80%82“>

我也没有考虑另一种可能性:“动力不足”的测试可能会让我错过能够产生“真正提升”的变化。

了解统计功能或%E6%B5%8B%E8%AF%95%E7%9A%84%E2%80%9C%E6%95%8F%E6%84%9F%E5%BA%A6%E2%80%9D%E6%98%AF%E6%B5%8B%E8%AF%95%E5%89%8D%E8%AE%A1%E5%88%92%E7%9A%84%E9%87%8D%E8%A6%81%E7%BB%84%E6%88%90%E9%83%A8%E5%88%86%EF%BC%8C%E5%8F%AF%E5%B8%AE%E5%8A%A9%E6%82%A8%E4%B8%BA%E7%BD%91%E7%AB%99%E5%AE%9E%E6%96%BD%E6%9B%B4%E5%A4%9A%E5%88%9B%E6%94%B6%E3%80%82″>

什么是统计力量?

%E7%BB%9F%E8%AE%A1%E5%8A%9F%E7%8E%87“>处于电平α(α)如果某一幅度的真实效果是本观察统计学显著结果的概率。 当实际存在差异时,您可以检测测试变体之间的差异

统计能力是您在%E8%BD%AC%E6%8D%A2%E7%A0%94%E7%A9%B6%E5%92%8C%E9%92%88%E5%AF%B9%E6%8E%A7%E5%88%B6%E7%9A%84%E9%80%82%E5%BD%93%E4%BC%98%E5%85%88%E5%A4%84%E7%90%86

统计功效(1-β)与II型误差(β)成反比关系。 它也是如何控制假阴性的可能性。 我们希望将I型错误的风险降低到可接受的水平,同时保留足够的功率来检测改进,如果测试治疗实际上更好。

如后所述,寻找合适的平衡既是艺术又是科学。 如果您的某个变体更好,则正确供电的测试可能会检测到改进。 如果您的测试功能不足,那么您将无法接受拒绝虚假空的高风险。

在我们进入统计权力的组成部分之前,让我们回顾一下我们试图解释的错误。

类型I和类型II错误

输入I错误

类型I错误或假阳性拒绝实际为真的零假设。 您的测试测量的是实际上不存在的变化之间的差异。 观察到的差异 – 测试治疗优于对照 – 是虚幻的,并且由于机会或错误。

由希腊字母(α)表示的I型错误的概率是%E6%82%A8%E7%9A%84A” b>的重要性级别。 如果您使用95%置信水平进行测试,则表示您有I类错误的概率为5%(1.0 – 0.95 = 0.05)。

如果5%过高,您可以通过将置信水平从95%提高到99%甚至更高来降低误报概率。 反过来,这会将你的alpha从5%降低到1%。 但是,假阳性概率的降低需要付出代价。

通过提高您的置信度,假阴性(II型错误)的风险会增加。 这是由于α和β降低之间的反比关系增加了另一个。

降低alpha值(例如从5%降低到1%)会降低测试的统计功效。 当你降低alpha值时,临界区域会变小,而较小的临界区域则意味着拒绝归零的概率较低,因此功率水平较低。 相反, 如果您需要更多功率,一个选项是增加您的alpha值 (例如从5%增加到10%)。

《利用您可信赖的测试结果的统计功效》

II型错误

类型II错误或 %E5%81%87%E9%98%B4%E6%80%A7“>是未能拒绝实际上为假的零假设。 当您的测试未发现实际存在的变异显着改善时,会发生类型II错误。

β(β)是产生II型误差的概率,与统计功率(1-β)成反比关系。 如果20%是承担II型错误(β)的风险,那么您的功率水平为80%(1.0 – 0.2 = 0.8)。 您可以将假阴性的风险降低到10%或5% – 分别为90%或95%的功率水平。

II型错误由您选择的功率级别控​​制:功率级别越高,II型错误的概率越低。 因为alpha和beta具有反比关系,所以如果其他条件相同,则运行极低的alphas(例如0.001%)会大大增加II类错误的风险。

统计能力是一种平衡行为,每次测试都需要权衡。 正如Paul D. Ellis %E6%89%80%E8%AF%B4“>

在统计权力方面,哪些变量会影响这种平衡? 让我们来看看。

影响统计能力的变量

在考虑影响统计功效的每个变量时,请记住:主要目标是控制错误率。 你可以拉四个杠杆:

  1. 样本量
  2. 最低利息影响(MEI或最小可检测效应)
  3. 显着性水平(α)
  4. 期望的功率水平(隐含的II型错误率)

1.样本量

具有统计功效的800磅重的大猩猩是样本大小。 通过拥有足够大的样本量,您可以获得许多正确的东西。 诀窍在于计算可以充分为测试提供动力的样本量,但不能大到使测试运行时间超过必要的时间。 (更长的测试成本更高,并且降低了测试速度。)

您需要为每个变体以及%E8%A6%81%E5%88%86%E6%9E%90%E7%9A%84%E6%AF%8F%E4%B8%AA%E7%BB%86%E5%88%86%E5%8F%97%E4%BC%97%E7%BE%A4%E6%8F%90%E4%BE%9B%E8%B6%B3%E5%A4%9F%E7%9A%84%E8%AE%BF%E9%97%AE%E8%80%85%E3%80%82″>  样本量的预测试计划有助于避免功能不足的测试; 否则,你可能没有意识到你运行了太多的变种或细分,直到为时已晚,让你留下访问者数量较少的测试后组。

在合理的时间内(通常至少一整周或商业周期)预期会产生统计上显着的结果。 一般准则是进行至少两周但不超过四次的测试,以避免因%E6%A0%B7%E5%93%81%E6%B1%A1%E6%9F%93%E5%92%8C%E9%A5%BC%E5%B9%B2%E5%88%A0%E9%99%A4%E8%80%8C%E5%AF%BC%E8%87%B4%E7%9A%84%E9%97%AE%E9%A2%98%E3%80%82″>

建立最小样本量和预先设定的时间范围%E9%81%BF%E5%85%8D%E4%BA%86%E7%AE%80%E5%8D%95%E5%9C%B0%E8%BF%90%E8%A1%8C%E6%B5%8B%E8%AF%95

2.最低利息影响(MEI)

%E6%9C%80%E5%B0%8F%E5%85%B4%E8%B6%A3%E6%95%88%E5%BA%94“>

较小的差异更难以检测,需要更大的样本量来保持相同的功率; 使用较小的样本量可以可靠地检测到更大幅度的影响。 尽管如此,正如Georgi Georgiev指出的那样,小样本量的那些重大“改进”可能并不可靠:

问题在于,通常没有适当的停止规则或固定的样本量,因此报告的名义p值和置信区间(CI)是没有意义的。 可以说结果在某种意义上是“挑选出来的”。

如果有一个适当的停止规则或固定的样本量,那么从非常小的样本量观察到的500%的改善可能会带来95%CI,即+ 5%到+ 995%:没有太大的信息量。

想象力量和效果大小之间关系的一个很好的方法就是格奥尔基耶夫的%E8%BF%99%E4%B8%AA%E4%BE%8B%E5%AD%90“>

《利用您可信赖的测试结果的统计功效》

3.统计意义

正如Georgiev所说:

如果假设零假设为真,我们不太可能观察到这样的结果,那么观察到的测试结果被认为具有统计学意义。

然后,这允许我们以另一种方式进行推理,并且说我们有证据反对零假设,即无法观察到这样的极端结果或更极端的结果,是零真值(p值)。

这个定义通常简化为更简单的解释:如果您对两个着陆页的拆分测试对变异有95%的置信度,那么观察到的改进只有5%的可能性 – 或者95%的可能性差异不是由于随机的机会。

格鲁吉耶夫认为,“很多人都认为’观察到的改善是由随机机会造成的’,”会蔑视这种说法。 “我们需要记住,允许我们估计这些概率的是假设零是真的。”

百分之五是在线测试中常见的重要起始水平,如前所述,是产生I类错误的概率。 使用5%alpha进行测试意味着您愿意接受错误拒绝原假设的5%概率。

如果将alpha从5%降低到1%,则假设其他条件相同,则同时增加发生Type II错误的概率。 增加II型错误的可能性会降低测试的功效。

4.期望的功率水平

凭借80%的功率,您有20%的概率无法检测到给定兴趣量的实际差异。 如果20%风险太大,您可以将此概率降低到10%,5%甚至1%,这会将统计功效分别提高到90%,95%或99%。

在考虑通过以95%或99%功率运行测试来解决所有问题之前,要了解每次增加功率需要相应增加样本大小和测试运行所需的时间 (可能的时间)废物运行失败的测试 – 并且失去销售 – 仅仅是一个或两个统计概率的额外百分点。

那么你真正需要多少力量? 转换优化中可接受的漏报风险的共同起点是20%,其返回80%的功率水平。

关于80%的功率水平没有任何确定性,但统计学家Jacob” cohen>认为80%表示α和β风险之间的合理平衡。 换句话说, %E6%A0%B9%E6%8D%AE%E5%9F%83%E5%88%A9%E6%96%AF%E7%9A%84%E8%AF%B4%E6%B3%95“>

最终,这是一个问题:

  • 错过真正的改进时,你愿意承担多少风险;
  • 每种变化所需的最小样本量,以实现所需的功率。

如何计算测试的统计功效

使用%E6%A0%B7%E6%9C%AC%E9%87%8F%E8%AE%A1%E7%AE%97%E5%99%A8%E6%88%96 ,您可以插入您的值以找出运行充分供电的测试所需的内容。 如果您知道其中三个输入,则可以计算第四个输入。

在这种情况下,使用G * Power,我们得出结论,我们需要每个变体的样本大小为681个访问者。 这是使用我们80%功率和5%alpha(95%显着性)的输入计算的。 我们知道我们的控制具有14%的转换率,并且预计我们的变体的执行率为19%:

《利用您可信赖的测试结果的统计功效》

以同样的方式,如果我们知道每个变体的样本大小,alpha和所需的功率水平(比如说80%),我们就可以找到实现该功率所需的MEI – 在这种情况下,19%:

《利用您可信赖的测试结果的统计功效》

如果你不能增加样本量怎么办?

有一天你需要更多的电力,但不能增加样本量。 这可能是由于您当前正在运行的测试中的一小段或网页流量较低。

假设您将参数插入A” b> ,并且它需要超过8,000的样本大小:

《利用您可信赖的测试结果的统计功效》

如果你无法达到最低限度 – 或者需要数月才能达到这一目标 – 一种选择是增加MEI。 在此示例中,将MEI从10%增加到25%可将样本量减少到每个变体1,356个:

《利用您可信赖的测试结果的统计功效》

但是你多久能够达到25%的MEI? 你会错过多少价值才能看到巨大的影响? 更好的选择通常是将置信度降低到90% – 只要你对10%的I类错误几率感到满意:

《利用您可信赖的测试结果的统计功效》

那你会从哪里开始? Georgiev承认,CRO分析师经常“从样本量开始(测试需要通过 几周),然后随机推动杠杆,直到输出适合。“

取得适当的平衡:

结论

统计功效可帮助您控制错误,使您对测试结果更有信心,并极大地提高您检测实际显着效果的机会。

遵循这些建议,充分利用统计力量:

  1. 运行测试%E4%B8%A4%E5%88%B0%E5%9B%9B%E5%91%A8“>
  2. 使用%E6%B5%8B%E8%AF%95%E8%AE%A1%E7%AE%97%E5%99%A8” power> )确保正确供电测试。
  3. 满足最小样本量要求。
  4. 如有必要,测试更大的效果变化。
  5. 仅在满足最小样本量要求后才使用统计显着性。
  6. 为所有变化和%E6%B5%8B%E8%AF%95%E5%90%8E%E7%9A%84%E7%BB%86%E5%88%86%E5%B8%82%E5%9C%BA%E8%A7%84%E5%88%92%E8%B6%B3%E5%A4%9F%E7%9A%84%E7%94%B5%E5%8A%9B%E3%80%82″>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注