bts防弹少年团演唱会

bts防弹少年团演唱会

停止A / B测试:我需要多少次转换?

《停止A / B测试:我需要多少次转换?》

这些天A” b>很棒,很容易做到。 工具越来越好。 结果,人们越来越依赖这些工具。 因此,批判性思维不太常见。

当然,责怪工具是不公平的。 尝试(过度)简化一切是非常人性化的。 现在,互联网充斥着A / B测试帖和充满废话数据的案例研究,想象中的胜利。 当您阅读任何测试案例研究时,或者当您听到有人说“我们测试过”时,请小心谨慎。

我们都在学习A / B测试。 它就像其他任何东西 – 你做的越多,你就越好。 所以每个优化器(包括我自己)在过去都犯了很多测试错误是很自然的。 许多错误比其他错误更常见 ,但有一个错误是最普遍的:过早结束测试。

当你达到95%的置信度(或更高)时,不要停止测试

这是第一条规则,也非常重要。 尖叫“是啊!”是人类,并希望停止测试,并将治疗现场直播。 许多人后来发现(如果他们有兴趣检查),即使他们的测试得到+ 20%的提升,但它对业务没有任何影响。 因为没有实际的升力 – 它是虚构的。

考虑一下:运行了一千个A / A测试 (两个相同的页面相互测试)。

  • 1.000中的 771个实验在某些时候达到了90%的显着性
  • 1.000中的 531个实验在某些时候达到了95%的显着性

来自实验者的报价:

这意味着如果您运行了1.000次实验并且无法以任何方式控制重复测试错误,则可以通过误报率来解释高达25%的成功阳性实验率。 但是你会发现大约一半的实验会产生暂时的重大影响!

因此,如果您在看到重要性后立即停止测试,则有50%的可能性是完全侥幸。 抛硬币。 完全杀死了测试的想法。

一旦他改变实验以便他预先确定所需的样本大小,在1.000中只有51个实验在95%时显着。 因此,通过检查样本量,我们从531个获胜测试到51个获胜测试。

如何预先确定所需的样本量?

有很多很棒的工具, 就像这个一样 。 或者你将如何使用Evan Miller的工具

《停止A / B测试:我需要多少次转换?》

在这种情况下,我们告诉工具我们有3%的转换率,并希望检测到至少10%的提升。 该工具告诉我们,每个变量我们需要51,486个访问者才能查看统计显着性水平和统计功效。

魔术数字不存在

每个变体的X转换量等规则怎么样?

尽管您可能会遇到诸如“ 每个变体需要100次转换才能结束测试 ”的陈述 – 但没有神奇的流量或转换次数。 它稍微复杂一些。

《停止A / B测试:我需要多少次转换?》 Malwarebytes优化主管Andrew Anderson

它永远不会涉及多少次转换,而是根据代表性样本和代表性行为提供足够的数据进行验证。

只有在最偏远的情况下才能进行100次转换,并且行为增量非常高,但只有在其他要求(如行为随时间,一致性和正态分布)发生时才会发生。 即使这样,它有很高的机会出现I型错误 ,误报。

任何时候你看到X次转换,这是一个非常明显的迹象,说话人根本不理解统计数据。

并且 – 如果100次转换是神奇的数字,那么大型网站可以在几分钟内结束他们的测试! 那太傻了。

如果您的网站每天进行100,000笔交易,则100次转化无法代表整体流量。

因此,这导致您需要考虑的下一件事 – 样本量的代表性。

测试中的流量有多具代表性?

通过运行测试,您可以在实验中包含访问者样本。 您需要确保样本代表您的整体常规流量。 因此,样本的行为就像您的真实买家一样。

有些人希望通过向实验发送一堆非典型流量来突然增加样本量。 如果您的流量较低,您是应该爆炸电子邮件列表,还是暂时购买流量以获得足够大的样本量来进行测试?

没有。

在大多数情况下,您将成为选择效果的牺牲品 – 您错误地认为某些流量代表了整体流量。 您可以增加该细分受众群的转化率,但不要将其与细分受众群的增加相混淆。

您的测试应该运行1个或更好的2个业务周期,因此它包括所有内容:

  • 一周中的每一天(并且每天测试一周,因为您的每日流量可能会有很大变化),
  • 各种不同的流量来源(除非您想个性化专用来源的体验),
  • 你的博客文章和时事通讯出版时间表,
  • 访问过您网站的人,想过它,然后10天后回来购买,
  • 任何可能影响购买的外部事件(例如发薪日)

等等。

《停止A / B测试:我需要多少次转换?》 Booking.com的数据科学家Lukas Vermeer

重要的是,比实验中访客的确切数量更多的是样本的代表性,效果的大小和初始测试意图。

如果您的样本不能很好地代表您的整体流量,那么您的结果也不是。 如果您的效果非常大,那么您只需要访问几个访问者。 如果你打算运行你的测试一个月,并且你运行它一个月,并且差异是显着的,那么它是非常重要的。

不要浪费你的时间寻找神奇的数字:这是科学,而不是魔术。

当样本量很小时,要警惕统计显着性数字(即使它是99%)

所以你进行了一次测试,其中B击败A,这是一个令人印象深刻的提升 – 可能+ 30%,+ 50%甚至+ 100%。 然后你看一下绝对数字 – 看看样本大小就像是425个访问者。 如果B的好转率为100%,则转化率为21比42。

因此,当我们将数字打入计算器时,我们可以肯定地看到这可能是多么重要

但是 – 抓住你的马。 计算统计显着性是一种练习是代数,它并没有告诉你现实是什么。

问题在于,由于样本量非常小(仅有425名访客),如果您继续进行实验并增加样本(升力消失或变得更小, 向平均值回归 ),则容易发生剧烈变化。 我通常会忽略每个变体少于250-350次转换的测试结果,因为我一次又一次地看到,如果您继续测试运行,这些数字会发生变化,并且样本量会变大。

任何有过运行数百次测试经验的人都可以告诉你。 随着测试时间的延长,许多“早期胜利”消失,并增加样本量。

我运行了大部分测试至少4周(即使所需的样本量提前得多) – 除非我首先得到证据证明某个站点的数字更早(2或3周)稳定。

由于流量较低,您每个月需要更大的胜利才能进行测试,但……

许多网站流量较低,每月总交易量较低。 因此,为了在30天内进行测试,您需要大幅提升。 来自Optimizely的Kyle Rush在这里雄辩地解释了这一点

如果你有更大的胜利(例如+ 50%),你肯定可以用更小的样本量。 但是认为较小的网站在某种程度上比大型网站更容易获得更大的胜利是天真的。 每个人都想要大胜。 所以说“我要大摆”是没有意义的。

这里唯一真正的消息是,为了获得更激进的提升,你还需要测试一个更激进的变化。 只需更改号召性用语即可获得大奖。

另外,请记住: 测试不是优化的必备组件 。 你也可以不经测试就改进。

没有看到绝对数字,就要非常怀疑

大多数A / B测试案例研究仅公布相对增长。 我们提升了20%! 注册数量增加30%! 这非常好,我们想知道相对的差异。 但我们能相信这些说法吗? 不知道绝对数字,我们不能。

有很多原因导致某人不想发布绝对数字(害怕羞辱,害怕竞争,过度热心的法律部门等)。 我知道了。 我想发布很多案例研究,但我的客户不会允许。

但重点仍然是 – 除非你能看到测试持续时间,总样本量和每次变化的转换次数,否则你应该保持怀疑态度。 很有可能他们没有做对,电梯是虚构的。

结论

在您宣布测试“煮熟”之前,您需要确保在确定置信水平之前有足够的样本量和测试持续时间(以确保良好的代表性)。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注