bts防弹少年团演唱会

bts防弹少年团演唱会

A / B测试中的10个统计陷阱:优化器的终极指南

《A / B测试中的10个统计陷阱:优化器的终极指南》

即使是经过精心设计的测试概念的A” b>也可能导致不显着的结果和错误的解释。 如果使用不正确的统计方法,这可能发生在测试的每个阶段。

这篇文章将说明要了解的10个最重要的统计陷阱。 当然,我们还会提供有关如何避免这些陷阱的实用技巧,以及如何确保结果有效。


《A / B测试中的10个统计陷阱:优化器的终极指南》
统计绊脚石潜伏在测试的每个阶段。

这里是我们将在帖子中介绍的内容的快速导航。 随时随地阅读整个内容或回来并刷新特定的陷阱:

I.测试前的统计陷阱

统计陷阱#1:变种太多

“让我们测试尽可能多的变体; 其中一人肯定会工作。“

测试太多变体并不是一个特别好的主意。

通常,优化过程应始终是假设驱动的。 在测试中随机充电是没用的。 但是还存在另一个问题: 有效性 – 你运行的测试变量越多,将其中一个声明为胜利者的概率就越高。

也许您已经听说过“累积alpha错误”概念。

每次测试都伴随着测试结果中一定的错误概率。 由于A / B测试仅考虑整个客户群(您的样本)的一部分,因此实际效果始终存在不确定性。 然而,测试的目标是将测试所测量的效果传递给整个客户群。 信心在这样做中起着重要作用。

《A / B测试中的10个统计陷阱:优化器的终极指南》
测试结果应该转移给所有客户,以便能够做出一般有效的陈述。

通常,我们倾向于接受95%的置信水平。 这意味着您接受%E7%B1%BB%E5%9E%8B1%E9%94%99%E8%AF%AF%E7%9A%845%EF%BC%85%E6%A6%82%E7%8E%87%EF%BC%88%E2%80%9Calpha%E9%94%99%E8%AF%AF%E2%80%9D%E6%88%96%E8%AF%AF%E6%8A%A5%EF%BC%89%E3%80%82″>

因此,如果您有一个变量,则错误概率为5%,但是当将多个组与另一个组进行比较时,累积的alpha错误会增加。

在这种情况下,每个单独的组比较都有一个简单的alpha误差,因此这应该在所有组中被累积考虑(这是从%E6%A6%82%E7%8E%87%E8%AE%BA%E7%9A%84%E5%85%AC%E7%90%86%E5%BE%97%E5%87%BA

《A / B测试中的10个统计陷阱:优化器的终极指南》
测试的变体越多,错误决策的风险就越高。

以下是如何计算测试的累积alpha错误:

累积α= 1-(1-α)^ n

Alpha =选定的显着性水平,通常为0.05

n =测试中的测试变体数量(没有控制)

好消息是:如果您%E9%80%9A%E8%BF%87VWO%E6%88%96则会自动应用纠正多个测试变量的错误概率增加的过程。

如果您的测试工具不使用校正程序,则有两种可能:

1.自己纠正alpha错误

在统计方差分析( ANOVA“>

2.限制测试变体的数量

如果这太复杂,可以从一开始就限制测试变体的数量。 根据经验,在一次测试中应运行不超过三种变体和控制。 在这样做时,变体应始终是精心构思和假设驱动的。

顺便说一下:多变量测试(MVT)也会出现错误概率增加的问题! 成功MVT的实用技巧可在“统计陷阱#4”中找到

统计陷阱#2:估计相互依赖性

“不,我们不能同时进行两项测试。 结果会相互影响而且会扭曲。“

关于是否应允许一个用户同时进行%E5%A4%9A%E9%A1%B9%E6%B5%8B%E8%AF%95%EF%BC%8C%E5%AD%98%E5%9C%A8%E4%B8%8D%E5%90%8C%E7%9A%84%E6%84%8F%E8%A7%81%E3%80%82″>

虽然有些人认为这不是一个问题,因为效果平衡,其他人会看到并行测试导致的污染影响:测试和变体之间的相互作用可能导致非线性效应,更大的差异和下沉有效性。

所以,实际上,您需要根据上下文做出决定。 有时会产生高水平的互动效果,有时却没有。 以下是一些不同的场景和操作:

1.相互依赖的风险低

如果风险较低且测试之间的流量重叠是可管理的,则绝对允许两个测试并行运行,以便同一个用户可以进行多次测试。

例如,在主页上测试UVP的概念可以与在产品页面上显示客户意见的测试并行运行。 两种测试都可以在100%流量下纯粹从方法和技术上运行; 也就是说,一个用户可以在两个测试中。 测试在这里相互竞争的可能性往往很低。

为什么这样做? 没有深入研究A / B测试的数学,该问题涉及精彩的%E9%9A%8F%E6%9C%BA%E5%8C%96%E5%8E%9F%E7%90%86” b>

用户被偶然分配给测试或控制变体。 对于所有测试都是如此,包括并行运行的测试,同时将用户分配到多个测试。 由于这种随机原理,结合%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B%EF%BC%8C%E7%A1%AE%E5%AE%9A%E5%8F%82%E4%B8%8E%E5%85%B6%E4%BB%96%E6%B5%8B%E8%AF%95%E7%9A%84%E7%94%A8%E6%88%B7%E7%9A%84%E4%BB%BD%E9%A2%9D%E5%9C%A8%E6%B5%8B%E8%AF%95%E5%92%8C%E6%8E%A7%E5%88%B6%E5%8F%98%E9%87%8F%E4%B8%AD%E6%98%AF%E6%88%90%E6%AF%94%E4%BE%8B%E7%9A%84%E3%80%82″>

《A / B测试中的10个统计陷阱:优化器的终极指南》
如果纯随机原则适用,则两次测试中的用户比例相等(来源: Optimizely“>

2.相互依赖的高风险

当然,还有一些测试你不应该同时运行。 在这些情况下,您通常无法在同一页面上获取有效数据,尤其是在页面的相同元素上。

(极端)示例:在测试1中,您希望在产品页面上测试产品推荐的位置。 在测试2中,您更改了推荐引擎算法,以便您主要在此处显示销售文章。 如果用户在两个测试中都处于测试变体中,则与仅看到其中一个更改的用户相比,更改的组合可能导致完全不同的效果。

对于强烈交互的测试,有两种解决方案:

解决方案A:安全地玩; 彼此分开运行测试

一方面,所有常见的测试工具都允许将流量分成多个测试。 例如,可以在50%流量下测试推荐的位置,而另外50%用于推荐中的销售文章。 此过程可确保用户只能看到其中一个正在运行的测试概念。 在这种情况下,您应该确保为每个测试适当地扩展测试运行时。

如果无法进行50/50分割,则可以始终按顺序运行测试。 在这种情况下,您应始终%E7%A1%AE%E5%AE%9A%E6%B5%8B%E8%AF%95%E7%9A%84

解决方案B:多变量测试

另一种可能性是将测试概念与一个%E5%A4%9A%E5%8F%98%E9%87%8F%E6%B5%8B%E8%AF%95%E7%9B%B8%E7%BB%93%E5%90%88%E3%80%82″>

统计陷阱#3:点击费率和转换率

“如果点击率增加,那么我们也会注意到转化率的上升。”

……如果只是如此简单!

仅仅因为您增加了对产品页面的访问,或者因为访问者更频繁地将商品放入购物车中,并不意味着您已经增加了宏观目标。 这并不意味着会有更多人购买。

《A / B测试中的10个统计陷阱:优化器的终极指南》
通过经典的转换漏斗,提升可以消失。

因此, %E6%B5%8B%E9%87%8F%E6%AF%8F%E6%AC%A1%E6%B5%8B%E8%AF%95%E4%B8%AD%E7%9A%84%E5%AE%8F%E8%BD%AC%E6%8D%A2“>

选择主要KPI并确定其优先级

当然,您的宏观转换取决于业务,目标,广告特定的测试假设。 以下是一些需要考虑的事项:

兑换率

这是电子商务商店最常见的KPI。 如果测试主要涉及将用户转换为买方,则转化率具有最高优先级。

购物车价值/每位访客的收入

每位访客的收入是另一种常见的eCommere KPI,对于某些假设尤为重要。

例如,优化产品页面上的产品推荐(设计,放置,算法)并不一定会导致人们购买任何东西。 但是,据推测,当他们最终购买时,人们会购买更多。 例如,对互补产品的建议( %E4%BA%A4%E5%8F%89%E9%94%80%E5%94%AE“>

返回

例如,如果您想测试产品页面上有关尺寸的信息(“趋向于更小”)是否有助于客户找到合适的尺寸,那么您应该更进一步。

最终,说服顾客购买即将退回的东西是近视和净负面的。 在这种情况下,衡量退货后的收入或退货率。 可以通过连接测试工具和数据仓库(DWH)来分析相应的数据(请参阅统计数据陷阱#8 )。

《A / B测试中的10个统计陷阱:优化器的终极指南》
宏转换比微转换具有更高的优先级

微转换仅仅是诊断工具

当然,这并不意味着软点击率(如点击率或综合浏览量)无关紧要。 但是,它们不应用于评估概念的最终成功, %E8%80%8C%E5%BA%94%E7%94%A8%E4%BD%9C%E8%AF%8A%E6%96%AD%E5%B7%A5%E5%85%B7“>

假设您测试了元导航的优化变体,并希望了解客户是否购买更多。 令人惊讶的是,结果显示转化率或收入没有变化。 客户使用的新导航是否与旧导航完全相同? 或者他们是否使用其他入口点,如侧面导航,搜索或预告片类别?

在这种情况下,查看导航元素的点击率或在变体中使用内部搜索可能会有所帮助。 您将更接近“为什么”的答案,并了解客户的行为。

将测试大小调整为KPI

在运行测试时,您经常会看到,在相对较短的时间内,微转换已经有了显着的提升,例如添加到购物篮或点击。 但转换率中没有出现这种情况。

实际上,KPI类型与所需的测试大小之间存在联系。 这是由于波动和不确定性因KPI而异:这些不确定性越高,测试必须运行的时间越长,以验证显着的影响。

《A / B测试中的10个统计陷阱:优化器的终极指南》
KPI波动越多,测试必须运行的时间越长。

点击率或综合浏览量是所谓的计数数据,具有相对较小的波动范围:点击或无点击。

然而, 转换率是完全不同的。 实际上是否有人购买会受到导致此KPI不确定性增加的其他因素的影响。

为了验证收入KPI (例如篮子大小)的影响,您需要比转换率更大的样本量。 关于这些所谓的度量KPI,购买水平存在很大的不确定性 – 如果用户购买任何东西。

如果您希望优化收益后收益 ,则应进一步增加测试规模。 对于此KPI,最难以做出可靠的陈述。 如果有人在购买,那么他们购买了多少,如果他们退货,他们又回来了多少? 测试更不确定,这需要更长的测试运行时间。

为了确保您实际获得可靠的结果,您应该首先考虑测试的主要KPI,然后适当地调整测试大小。

不要衡量太多指标

您衡量的KPI越多,最终决策就越困难。

但是,这可以通过合理的优先级来简化,但您应该考虑在开始测试之前您真正需要哪些宏转换和微转换。 如果工具中可用的每个度量标准都是随机测量的,那么您最终会忽略测试的目标。 屈服于%E5%BE%B7%E5%85%8B%E8%90%A8%E6%96%AF%E7%A5%9E%E6%9E%AA%E6%89%8B%E6%95%88%E5%BA%94%E7%AD%89%E8%AE%A4%E7%9F%A5%E5%81%8F%E8%A7%81%E6%9B%B4%E5%AE%B9%E6%98%93%E8%AE%A9%E5%86%B3%E7%AD%96%E5%8F%98%E5%BE%97%E6%9B%B4%E9%9A%BE%E3%80%82″>

此外,非常多的度量导致在纯粹偶然出现的度量中发现效果的概率增加。

统计陷阱#4:对多变量测试的恐惧

“我们不应该将其作为多变量测试来运行。 费用太高,无论如何,结果无效。“

《A / B测试中的10个统计陷阱:优化器的终极指南》

多变量测试(MVT)的成功取决于您是如何做到的。 正确设置,多变量测试是测试不同因素和组合的一个很好的工具。 使用一个MVT同时测试页面上的许多因素听起来很复杂。 但它不一定是。 你应该记住只有几条规则……

不要测试太多的变种

如果将测试设置为具有多个变体的MVT,也会出现累积alpha错误的问题。 为了防止将变体声明为胜利者,即使它不是,您应该尽可能多地限制组合的数量。

基于良好的假设形成,应仔细选择因子及其组合。 此外,您可以使用更高的置信度(例如99.5%)来确保结果有效。

《A / B测试中的10个统计陷阱:优化器的终极指南》
盲目地不应该信任MVT的结果。

根据MVT的结果,您自然会首先检查哪个变体达到了最高(和显着)的提升。 但是,您只能获得有关哪些因素组合实现此提升的信息。 分析个别因素对转化率的影响也很重要。 这可以借助于%E6%89%80%E8%B0%93%E7%9A%84%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90%E6%9D%A5%E5%AE%8C%E6%88%90“>

在后续测试中验证结果

为了增加对MVT结果的信心,您还可以通过运行后续A / B测试来验证测试获胜者。 您只需针对相关控件运行获胜组合。

《A / B测试中的10个统计陷阱:优化器的终极指南》
个别因素的影响可以单独计算(例如颜色和布局,借助方差分析)。

II。 测试期间的统计陷阱

统计陷阱#5:停止太早

“测试已经运行了三天,变体表现不佳。 我们应该停止测试。“

当然,可能有充分的理由提前停止测试。 例如,如果相关的业务目标受到性能显着不佳的测试变体的威胁

但是,要确定概念的成功或失败,需要进行三天以上的测试。 每个测试都需要%E6%9C%80%E5%B0%8F%E7%9A%84%E6%B5%8B%E8%AF%95%E5%B0%BA%E5%AF%B8“>

在测试的前几天,您经常会注意到结果的剧烈波动。 由于数字很小,这很可能是机会的结果。 也许,纯粹是偶然的,控制中的顾客购买了太多,以至于控制人为地向上抬头,而测试则暂时降低(参见统计陷阱#8 )。

《A / B测试中的10个统计陷阱:优化器的终极指南》
测试开始时测试结果波动很大。 你不应该相信这些数字。

我经常经历过,开始时的负面影响会随着时间而逆转,并且测试变体在三周后显示出显着的积极效果。 在测试之前,您应该使用%E5%B7%A5%E5%85%B7%E6%9D%A5%E8%AE%A1%E7%AE%97%E6%B5%8B%E8%AF%95%E5%BF%85%E9%A1%BB%E8%BF%90%E8%A1%8C%E5%A4%9A%E9%95%BF%E6%97%B6%E9%97%B4

如果一开始测试显示没有明显的下降,这只是意味着:现在保持冷静并继续测试。

《A / B测试中的10个统计陷阱:优化器的终极指南》
在每次测试之前,您应该进行%E6%A0%B7%E6%9C%AC%E9%87%8F%E4%BC%B0%E8%AE%A1“>

统计陷阱#6:关闭变量

“没问题。 如果一个变体不起作用,我们只需更改它或关闭它。“

如果您的某个变体表现如此糟糕以至于业务目标受到威胁,那么您当然希望关闭此变体。 类似地,人们通常会启动具有低流量分配的变体,然后随着时间的推移而增加(增加)。 最后,有时人们会在测试中途改变。

上述所有三个都可能扭曲结果:对于A / B测试,测试结果代表整个测试时间,即相同的部分。 如果您更改流量,则会导致某些时间段过高或过低。

在测试过程中关闭变体具有相同的效果。 如果变体的内容发生变化,那么测试结果将是不同假设和概念的奇怪混合,最终不再提供任何见解。

在这里,我们需要找到科学严谨性和有效性以及实际业务问题的健康平衡。

以下是实现这种平衡的一些技巧:

  • 如果变量在测试开始后的前几天就关闭了,建议再次开始测试,但不要使用变体。 在这种情况下,时间损失不是太高。
  • 在测试期间更改变体之前,最好开始新测试并针对控件测试适应的变体。
  • 如果您每天将流量更改为更高级别,请确保使用最大所需流量覆盖足够的时间,从而使流量在整个时间内保持稳定。

统计陷阱#7:贝叶斯测试程序

“新的贝叶斯测试程序让我们的结果更快。”

已经由VWO和Optimizely应用的%E6%96%B0%E7%BB%9F%E8%AE%A1%E7%A8%8B%E5%BA%8F%E6%8F%90%E4%BE%9B%E4%BA%86%E4%BB%A5%E4%B8%8B%E4%BC%98%E5%8A%BF%EF%BC%9A%E6%82%A8%E5%8F%AF%E4%BB%A5%E9%9A%8F%E6%97%B6%E8%A7%A3%E9%87%8A%E6%B5%8B%E8%AF%95%E7%BB%93%E6%9E%9C%EF%BC%8C%E5%8D%B3%E4%BD%BF%E5%B0%9A%E6%9C%AA%E8%BE%BE%E5%88%B0%E6%89%80%E9%9C%80%E7%9A%84%E6%B5%8B%E8%AF%95%E5%A4%A7%E5%B0%8F%EF%BC%8C%E7%BB%93%E6%9E%9C%E4%B9%9F%E6%98%AF%E6%9C%89%E6%95%88%E7%9A%84%E3%80%82″>

但是, %E8%B4%9D%E5%8F%B6%E6%96%AF%E7%A8%8B%E5%BA%8F%E6%97%A0%E6%B3%95%E9%98%B2%E6%AD%A2%E9%94%99%E8%AF%AF%E7%9A%84%E6%96%B9%E6%B3%95%E3%80%82″>

期望问题

贝叶斯过程的先决条件是,在测试开始之前,必须对测试概念成功的概率做出所谓%E7%9A%84%E5%85%88%E9%AA%8C%E5%81%87%E8%AE%BE“>

《A / B测试中的10个统计陷阱:优化器的终极指南》
VWO报告界面。

小测试尺寸的问题

结果在测试期间的任何时候都可以解释,但在开始时,当波动非常高时,你应该小心。 测试中的访客数量仍然很小,并且受到不寻常观察(例如非常高的订单价值)的强烈影响。

尽管贝叶斯方法具有优点,但是当数据集稀疏时,该方法不能提供足够的有效性。 较新的程序不能防止不正确的A / B测试方法(顺便说一下,传统的常用程序也是如此!)。 没有任何方法可以帮助您避免不良方法。

III。 评估期间的统计陷阱

统计陷阱#8:只信任一个数据源

“测试工具的结果完全足以做出决定。”

当然。 测试工具可让我们确定经过测试的概念是否会带来更高的转换率。 但是,通常需要详细了解数据以获得更多见解并验证结果。 测试工具的结果不应存储在数据仓库中,而应与其他数据库(如Web%E5%88%86%E6%9E%90%E7%B3%BB%E7%BB%9F%E6%88%96

因此,可以回答一系列重要问题:

为什么?

当测试结果不符合预期时,总会出现“为什么”这个问题。 如上面关于元导航的示例(请参阅统计陷阱#3 ),查看微转换以便更好地理解测试结果会很有用。

如果您未能在测试之前设置导航元素的点击或使用内部搜索作为目标,则以后使用测试工具无法解答此类问题。 相反,如果您的测试工具已连接到网络分析工具,则可以评估这些指标。

《A / B测试中的10个统计陷阱:优化器的终极指南》
数据源之间的良好连接有助于全面了解客户。

转换率提升是否也会带来更多利润?

如果客户因优化概念而下了更多订单,那就太好了! 但是,如果它们返回相同数量或更多,这最终可能意味着经济损失。 连接测试工具和DWH后,您可以在返回后分析结果。 此处,变体ID将传输到后端,您可以在测试和控制变体中查看返回率或返回后的收入作为其他KPI。

考虑批量订货

几乎每个在线商店都有它们,并且通常它们会对测试的有效评估造成问题:批量订购者。 这可能包括呼叫中心客户,B2B客户或过度在线购物者。 这些所谓的%E5%BC%82%E5%B8%B8%E5%80%BC%E5%8F%AF%E8%83%BD%E4%BC%9A%E6%89%AD%E6%9B%B2%E7%BB%93%E6%9E%9C%E3%80%82″>

  • 转化率只不过是某组访问者的平均转化率。
  • 每位访问者的收入是每位访问者的平均收入

订单数量或购物车价值的异常高值会推动此平均值上升。 如果控制器的特点是纯粹偶然的客户具有极高的价值,那么在相对较小的测试尺寸下,这已经导致结果不再是正面的,而是变得非常负面。

《A / B测试中的10个统计陷阱:优化器的终极指南》
通过调整异常值可以改变测试结果。

你能做些什么关于异常值? 所有流行的测试工具都允许使用原始数据获取文件 此处列出了变体中的所有客户订单。 另一种可能性是设置相应的报告您选择的连接网络分析工具,并通过适当的过滤器设置%E6%8E%92%E9%99%A4%E5%BC%82%E5%B8%B8%E9%AB%98%E7%9A%84%E8%AE%A2%E5%8D%95“>

《A / B测试中的10个统计陷阱:优化器的终极指南》
在分析工具中为批量订购者设置过滤器。

虽然这有一点成本,但过滤掉异常值是值得的,因为你经常可以发现被异常值“隐藏”的重要影响。

对于数据怪胎:置信区间的有效计算

计算置信区间的传统方法包括一个问题:它们假设基本数据遵循某种分布,即%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83“>

《A / B测试中的10个统计陷阱:优化器的终极指南》
理论与实践。

假设平均转换率为5%,则95%的客户不购买。 大多数买家可能已经下了一两个订单,并且有少数客户订购了极端数量的订单。

这种分布被称为“ %E5%8F%B3%E5%80%BE%E6%96%9C“>

对于%E4%B8%80%E8%88%AC%E7%9A%84%E5%9C%A8%E7%BA%BF%E5%95%86%E5%BA%97“>

因此,除了使用经典的t检验之外,查看数据是值得的。 还有其他方法可以为非正态分布的基础数据提供可靠的结果。

1. U-Test

当数据偏离正态分布时, Mann-Whitney” u-test> (Wilcoxon秩和检验)是t检验的替代方法。

2.稳健的统计数据

当数据不是由异常值正态分布或失真时,使用来自%E9%B2%81%E6%A3%92%E7%BB%9F%E8%AE%A1%E7%9A%84%E6%96%B9%E6%B3%95%E3%80%82″>

3.引导

这种%E6%89%80%E8%B0%93%E7%9A%84%E9%9D%9E%E5%8F%82%E6%95%B0%E8%BF%87%E7%A8%8B%E7%8B%AC%E7%AB%8B%E4%BA%8E%E4%BB%BB%E4%BD%95%E5%88%86%E5%B8%83%E5%81%87%E8%AE%BE%E8%80%8C%E5%B7%A5%E4%BD%9C%EF%BC%8C%E5%B9%B6%E6%8F%90%E4%BE%9B%E7%BD%AE%E4%BF%A1%E6%B0%B4%E5%B9%B3%E5%92%8C%E9%97%B4%E9%9A%94%E7%9A%84%E5%8F%AF%E9%9D%A0%E4%BC%B0%E8%AE%A1%E3%80%82″>

统计陷阱#9:细分评估

“我将查看细分中的结果。 我肯定会在某个地方找到一个隆起。“

一般来说,挖掘细分是一个好主意。 默认情况下,所有访问者都会报告A / B测试结果。 – 但是某些组可能会有不同的反应,而这在汇总数据中是不可见的。

《A / B测试中的10个统计陷阱:优化器的终极指南》
细分为有利可图且无利可图的客户群。

最受欢迎的例子是%E7%8B%AC%E7%89%B9%E7%9A%84%E4%BB%B7%E5%80%BC%E4%B8%BB%E5%BC%A0“>

对新老客户产生不同影响是很常见的。 虽然现有客户已经了解购买的优势,但UVP有助于说服新客户购买和建立信任。 在汇总报告中未检测到这些不同的反应,您可能会感到失望,因为无法对整体进行重大提升。

通过将测试工具连接到其他数据源(Web分析,DWH),您可以分析测试工具中未提供的一系列客户特征的测试结果,例如:

  • 性别
  • 年龄
  • 某人进行购买的类别
  • 访问的页面
  • 点击行为数据
  • 退货率
  • 地理位置

但是,建议谨慎使用。 误差概率指数增加,您比较的段越多。 因此,您应该避免随机浏览您能想到的所有细分。 它们应始终保持可解释性,可利用性,与您的测试概念相关。

此外,您应该注意细分足够大。

例如,如果仅包含那些使用平板电脑访问类别页面的访问者,访问产品页面,是女性并且在周末购买,这将导致只看到一小部分访问者。 因此,请始终注意测试尺寸在段中也是足够的。 如果您在测试之前已经知道您将对结果进行细分,则建议测试持续时间至少应加倍。 您可以使用konversionsKRAFT%E6%98%BE%E7%9D%80%E6%80%A7%E8%AE%A1%E7%AE%97%E5%99%A8%EF%BC%88%E5%BE%B7%E8%AF%AD%EF%BC%89%E6%88%96CXL”>

统计陷阱#10:从测试结果推断

“毕竟考试可能不那么成功; 我们推出了这个概念,但转换率没有上升。“

在成功测试之后,通常会根据测试结果对将来产生的额外收入进行预测。 因此,您会看到整洁的管理演示文稿,其中包含特定测试概念在未来两年内将产生40%收益的建议。 听起来很棒,但这是真的吗?

对不起严厉的话,但是,请不要这样做! 这种推断的结果与今天说三个月内会下雨一样可靠。 你不会相信,不是吗? 简单地预测线性测试结果将不起作用,原因如下:

原因1:短期与长期影响

通常,A / B测试会衡量这一概念是否会导致客户行为的短期变化。 测试运行三周,您会发现转换率增加了x%。 到现在为止还挺好。 但是,这一变化并未说明对长期客户行为和客户满意度和%E5%AE%A2%E6%88%B7%E5%BF%A0%E8%AF%9A%E5%BA%A6%E7%AD%89KPI%E7%9A%84%E5%BD%B1%E5%93%8D%E3%80%82″>

为了能够这样做,测试必须运行更长时间才能记录习惯效应或客户群和用户需求的变化。 还需要注意%E6%96%B0%E5%A5%87%E6%95%88%E6%9E%9C“>

因此,假设所测量的短期效应是一个常数和未来的项目是完全错误的。

原因2:因果关系与相关性

假设测试显示出显着的提升并且测试概念将被牢固地实施。 经常发生的是所谓的前后比较,其目标是在转换率中找到测量的效果。 这里,将实现之前的时间段中的转换率与实现之后的时间段进行比较。 预计两种速率的差异必须与测试的测量效果完全一致。 嗯,通常它没有。

当然,上线的变化可能会导致转换率的提高。 然而,还有数百个其他影响因素同时决定转换率(例如季节,销售事件,交付困难,新产品,不同客户或仅仅是错误)。

区分%E5%9B%A0%E6%9E%9C%E5%85%B3%E7%B3%BB%E5%92%8C%E7%9B%B8%E5%85%B3%E6%80%A7%E5%BE%88%E9%87%8D%E8%A6%81%E3%80%82″ correlation only states the extent to which two characteristic numbers follow a common trend. however says nothing about whether one number is causal it origin of change in other variable.>

This fallacy is clear the photo below: US spendings for science, space and technology increase and, at the same time, more people commit suicide. Makes no sense, right?

《A / B测试中的10个统计陷阱:优化器的终极指南》
Here you find more funny examples that show the difference between correlation and causality ( Source“>

If, after going live, changes in the conversion rate are observed, a single effect cannot be isolated. It is not known which factors are causal for the conversion rate change. Assuming the implemented concept has a positive effect, there can be other negative influencing factors, so that the effect overall is no longer verifiable in the end.

The only possibility of measuring causal relationships and the effect of a test concept in the long term is the following: After a successful test you roll out the concept for 95% of your customers (for example through your testing tool). The remaining 5% is left” as control group> . By continuously comparing these two groups you can measure the long-term effect of your concept.

If this method is not practicable for you, you” will find further tips here> to distinguish between correlation and causation.

Reason 3: Misinterpretation of confidence

A further problem is that there are still misunderstandings” in the interpretation> of confidence.

Assume a test shows an uplift of 4.5 % and a confidence level of 98%. That does not mean that the effect is 4.5 % with a probability of 98%! Every confidence analysis provides an interval that contains the expected uplift at a certain probability (confidence). 而已。

In the example, this could mean that the effect based on the measured values ranges between 2% and 7% at a probability of 98%. It is therefore a fallacy to assume that the actual effect corresponds exactly to that of the test. This interval, however, does become smaller the longer the test runs, but it never arrives at an exact point estimate. The confidence level simply gives an estimate about how stable the result is.

By the way, there is a small but important difference between the confidence level and the chance-to-beat-original (CTBO), which is reported in most testing tools.

The confidence level provides the probability that the uplift is in a certain interval (the confidence” interval> ) and it says nothing about whether a concept is successful or not. The CTBO, on the other hand, measures whether and by how much confidence intervals overlap, and how likely it is that the test variant is better than the control in some way. It is important to know this difference in order to come up with correct test conclusions.

结论

If you rely purely on the numbers from a testing tool, this can lead to errors and may threaten the validity of your results. To avoid this, there are a couple of fundamental rules that should be followed for every phase of the test.

With the topic of A/B testing there is a regular conflict between the scientific demand for validity of a test and actual business needs. You should try to find a good middle path so that your tests always provide practical, relevant results, while you still have enough trust in your test data.

特征图像源

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注