bts防弹少年团演唱会

bts防弹少年团演唱会

单尾与双尾测试(重要吗?)

《单尾与双尾测试(重要吗?)》

关于单尾测试和双尾测试存在很多争议。

%E8%BF%99%E6%A0%B7%E7%9A%84%E6%96%87%E7%AB%A0%E6%8A%A8%E5%87%BB%E5%8D%95%E5%B0%BE%E6%B5%8B%E8%AF%95%E7%9A%84%E7%BC%BA%E7%82%B9%EF%BC%8C%E8%AF%B4%E2%80%9C%E4%B8%8D%E7%86%9F%E7%BB%83%E7%9A%84%E7%94%A8%E6%88%B7%E5%96%9C%E6%AC%A2%E4%BB%96%E4%BB%AC%E3%80%82%E2%80%9D%E5%8F%A6%E4%B8%80%E6%96%B9%E9%9D%A2%EF%BC%8C%E4%B8%80%E4%BA%9B

事实上,很多人都没有意识到有两种方法可以确定实验的结果是否具有统计学意义。 关于单尾和双尾测试仍然存在很多混淆和误解。

骚动来自一种合理的担忧: %E6%88%91%E7%9A%84%E7%94%B5%E6%A2%AF%E6%98%AF%E6%83%B3%E8%B1%A1%E4%B8%AD%E7%9A%84%E5%90%97%EF%BC%9F” a>会产生一些奇怪的结果,从而使您质疑工具和A / B测试计划的功效。

  • 《单尾与双尾测试(重要吗?)》
  • A / B测试掌握

    通过CXL

    下载此资源并从A / B测试初学者转到电子书中的专业版。

  • 此字段用于验证目的,应保持不变。

因此,当我们谈论单尾测试和双尾测试时,我们真的在谈论我们是否可以信任我们的a” b>并根据它们采取行动。

那有什么区别? 有关系吗? 什么时候应该使用单尾测试? 双尾测试?

单尾与双尾:有什么区别?

如果你刚刚学习测试,可汗学院提供了一个清晰的例子,说明了单尾和双尾测试之间的区别:

[…]“/>

本质上,单尾测试允许在一个方向上产生影响的可能性,在双尾测试的情况下,您正在测试在两个方向上产生影响的可能性 – 正面和负面。

《单尾与双尾测试(重要吗?)》

%E5%8F%8C%E5%B0%BE%E6%B5%8B%E8%AF%95%EF%BC%88%E5%9B%BE%E5%83%8F%E6%BA%90%EF%BC%89“>

《单尾与双尾测试(重要吗?)》

%E5%8D%95%E5%B0%BE%E6%B5%8B%E8%AF%95%EF%BC%88%E5%9B%BE%E5%83%8F%E6%BA%90%EF%BC%89“>

Chris” stucchio>在上下文中解释了两个测试之间的区别做得很好:

“在频率测试中,你有一个零假设。 零假设是你认为没有相反证据的真实假设。 现在假设您已经运行测试并获得了p%E5%80%BC” p b>

单尾测试将零假设认为变异并不比对照更好,但可能更糟。“( %E5%BC%95%E7%94%A8%E6%9D%A5%E6%BA%90“>

简而言之,双尾检验可以证明控制和变异是不同的 ,但单尾检验用于证明变异是否优于对照。

你使用哪种方法有关系吗?

好的,现在我们已经了解了实际测试的内容,我们可以问一个重要的问题:你使用的是什么? 事实证明,这是一个复杂的问题。 这是很多嘲笑的地方。

根据Hillary” for america>的前端工程和优化总监Kyle” rush>说法,它确实:

《单尾与双尾测试(重要吗?)》

凯尔拉什:

“使用单尾测试的好处是它需要更少的主题才能达到显着性。 双尾测试将你的显着性水平分开,并将其应用于两个方向,因此每个方向只有单尾测试的一半(将所有重要性放在一个方向上),因此需要更多的主体达到显着性。

虽然有人会说这不是一个问题,因此得到了解决。 来自Conductrics%E7%9A%84” gershoff> :

《单尾与双尾测试(重要吗?)》

Matt Gershoff:

“出于某种原因,有些人在单尾和两尾测试方面做了大量工作。 在开始测试时所面临的所有问题中,这并不是您应该担心的问题。

如果您的测试软件只有一种类型或另一种,请不要冒汗。 将一种类型转换为另一种类型非常简单(但是在运行测试之前需要这样做),因为在两个测试中所有数学都是完全相同的。 所有不同的是显着性阈值水平。 如果您的软件使用单尾测试,只需将与您希望运行测试的置信度相关联的p值除以“2”。 因此,如果你希望你的两个尾部测试达到95%的置信水平,那么你实际上会输入97.5%的置信水平,或者如果是99%,那么你需要输入99.5%。 然后你就可以把它看成是双尾的。“

各种方法的优缺点

Maxymiser列出了%E4%BD%BF%E7%94%A8%E4%BB%BB%E4%B8%80%E6%B5%8B%E8%AF%95%E7%9A%84%E4%B8%80%E4%BA%9B

优点 缺点
单尾测试
  • 仅考虑一种情况
  • 可能导致不准确和有偏见的结果
双尾测试
  • 所有三种方案的帐户
  • 导致准确可靠的结果
  • 需要更多流量
  • 需要更长时间才能获得重要性

其他有效因素

根据Malwarebytes%E7%9A%84” anderson>说法,测试时还有许多其他因素在起作用:

《单尾与双尾测试(重要吗?)》

安德鲁安德森:

“你也有T-Test与Z-Test或其他高斯频率论方法相比贝叶斯方法的问题。 它实际上不像单尾与双尾一样简单。 所有这些也假设您在一个信任甚至有点有用并且验证模型背后的基本假设的环境中进行测试。 例如,在我的最后两个职位中,方差已经很高,我甚至没有看到信心,因为它决不会反映现实世界的情况。“

因此,在测试统计有效性时还有其他因素。 不过,关于单尾测试和双尾测试仍有强烈的意见。

双尾测试的情况

双尾测试可缓解I%E5%9E%8B%E9%94%99%E8%AF%AF” rush>

以下是安德鲁·安德森所说的话:

《单尾与双尾测试(重要吗?)》

安德鲁安德森:
“如果给出选项,你最好使用双尾与单尾,因为从根本上单尾测试可以实现更多的I类错误和认知偏差错误。 单尾是诱人的,因为它会导致更快的“结论”,但这只会放大使用信心的所有问题,并没有为您的组织增加价值。 两者都基于相似的模型假设,例如无方差(仅人口错误率),无偏差抽样和高斯分布,因此它们很少反映现实世界的情况,但是达到“重要性”的难度更高。双尾测试,以及两个方向的测量更好地反映了现实世界的结果,因为大多数时候我们认为是积极的是实际上是负面的(见10%的行业平均成功率),以及缓解(几乎没有)表现得太快的风险。“

一家领先的在线游戏公司的转换专家Neal” cole>对此表示赞同:

《单尾与双尾测试(重要吗?)》

尼尔科尔:

“就我个人而言,我认为一次尾部测试不适合大多数A / B测试,并增加误报的风险。 当我们进行A / B测试时,我们无法确定关键指标的差异方向。 大约50%的测试没有提供转换的提升,因此如果我们使用单尾测试作为我们的默认方法,我们就是在开玩笑。“

我什么时候可以使用单尾测试?

根据一些人的说法,有一个时间和地点进行a / b测试。 它通常是上下文的,取决于您打算如何处理数据。 正如Luke” stokebrand> ,“单尾测试并不总是坏事,理解他们的缺点是非常重要的。 实际上,有很多时候使用单尾测试验证数据是有意义的。“

%E6%9D%A5%E8%87%AAUpliftROI%E7%9A%84Andy” hunt>虽然承认单尾测试的缺点,却采取了一种现实的方法:

《单尾与双尾测试(重要吗?)》

安迪亨特:

“对于大多数营销人员或VWO / Optimizely来说,双面测试更好但不是常态。

而不是专注于是否使用两面或一面测试,你最好只是让测试运行更长的时间,以确保结果是有效的并运行“A / A”测试,你确保控制和变化表现完全一样。“

同样, %E6%9D%A5%E8%87%AAMeasuringU%E7%9A%84Jeff” sauro> ,虽然你通常应该使用双面p值,“当你有充分的理由怀疑一个版本确实优于一个版本时,你应该只使用单侧p值。其他。”

Kyle Rush回应了这个:

《单尾与双尾测试(重要吗?)》

凯尔拉什:

“如果您正在测试网站上的新版本,并且只想知道版本是否更好,那么您将在该方向上使用单尾测试。 如果您没有计划部署变体,如果它没有获胜,那么这是一个非常好的方法。 然而,如果您在变异不是统计学上显着的胜利者时部署变量,这会变成一种糟糕的方法,因为单向测试没有在另一个方向上测量假设,因此您不知道变化是否更糟。 双尾检验在两个方向都应用了假设检验,因此可以减轻这个问题。“

哪种工具使用哪种方法?

当您询问哪个a / b测试软件使用哪种方法的问题时,您会进入一个阴暗的答案和含糊不清的世界。 也就是说,没有多少人专门列出它。 所以这是我从研究和询问测试专家那里得到的(如果我错了或需要添加一些东西,请纠正我):

使用单尾测试的工具

使用双尾测试的工具:

当然,某些工具也有自定义框架(如谷歌的多臂强盗)。 Kyle Rush解释了Optimizely%E7%9A%84%E7%BB%9F%E8%AE%A1%E5%BC%95%E6%93%8E“>

《单尾与双尾测试(重要吗?)》

凯尔拉什:

“就市场上的工具而言,Optimizely的统计引擎使得这样的统计数据和问题对您来说非常容易,远远超过其他任何平台。 统计引擎的一个巨大好处是,使用传统的单尾t检验,您必须根据称为最小可检测效应(MDE)的任意变量计算样本大小。 使用Stats Engine,您无需计算样本大小,即选择任意MDE。 这会产生巨大的影响,因为在计算样本量时你经常会低估你的MDE(因为你只是凭空挑选数字),这样做的效果是要求样本量可能比实际需要的量大得多。达到意义。

我坚信使用Optimizely的统计引擎来担心这样的问题已成为过去。“

结论

使用单尾和双尾测试的问题很重要,尽管不能单独使用统计数据来做出决定。 正如Chris” stucchio> ,“它需要在决策程序的背景下做出决定。”

他继续说,“当进行A / B测试时,目标几乎总是增加转换而不是简单地回答空闲的好奇心。 要确定一个尾部或两个尾部是否适合您,您需要了解整个决策程序而不仅仅是统计数据。“

因此,如果您想了解有关单尾和双尾测试的更多信息,可以使用许多资源。 以下是一些易于理解的内容:

否则,我将会%E7%9C%8B%E5%88%B0Peep%E6%89%80%E8%AF%B4%E7%9A%84%E5%85%B3%E4%BA%8E%E8%BF%99%E4%B8%AA%E4%B8%BB%E9%A2%98%E7%9A%84%E5%86%85%E5%AE%B9“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注