bts防弹少年团演唱会

bts防弹少年团演唱会

你可以同时运行多个A / B测试吗?

《你可以同时运行多个A / B测试吗?》

您希望加快测试工作并运行更多测试。 所以现在的问题是 – 您可以在您的网站上同时运行多个A” b>吗?

这会增加测试程序的速度(从而帮助您更快地增长),还是会污染数据,因为多个单独的测试可能会影响彼此的结果? 答案对两者都是肯定的,但你应该做些什么取决于。

让我们看看“为什么你不应该”和“为什么你应该”一次运行多个测试。

运行多个同步测试时应该考虑什么

用户来到您的主页,成为测试A的一部分。进入类别页面,成为测试B的一部分。进入产品页面 – 测试C.将产品添加到购物车 – 进入测试D.完成结帐 – 测试E生效。

用户最终购买东西,并注册“转换”。

问题:

  1. 这些测试中的任何变化是否相互影响,从而使数据偏斜? (相互作用)
  2. 哪种测试得到了信用? 哪些测试*真的*推动用户购买东西? (归因)

Andrew解释了为什么同时运行多个单独的测试可能是一个坏主意:

《你可以同时运行多个A / B测试吗?》 Malwarebytes优化主管Andrew Anderson

用户的异花授粉导致1型错误 (误报)的可能性更高 ,以及更多的日常和平均差异,这意味着更难以获得可操作的结果,甚至更有可能获得误报。 对于低容量站点尤其如此,这些站点当然是最有可能同时运行多个测试的站点。

要意识到的是, 没有一种方法可以完美地进行测试。 您想要最大化的是您保持一些数据完整性和有效人口来回答问题的能力,同时最大限度地提高您利用测试结果的能力。 很容易从深层潜水并说服自己,异花授粉或其他有时听起来合理的事情都是如此,但它们在测试方面违反了非常核心的规则。

理想情况下,您不会进行多次测试,因为它们会增加错误的可能性,但是如果您将所有努力都集中在最大限度地减少人为错误上(例如理解方差,良好的测试设计和规则,理解分布,最小化偏差,具有挑战性的假设等), 有时候它是可接受的风险

提醒自己和其他人的事情是,总是希望跑得更快,影响结果有效性的最大问题是糟糕的结果和良好的结果看起来一样。 你想要相信 ,这意味着由于糟糕的测试设计而导致的更高的风险和更高的增量是催眠的,吸引人们。 需要时刻保持警惕,避免陷入这种陷阱。

测试工具供应商 – Maximyser – 主张同时运行多个测试会导致精度低:

两个测试中变体之间的“相互作用”可能彼此不相等并且均匀分布。

争论的焦点是,测试之间的交互效应很重要(通常不被注意),但它会对您的测试结论产生重大影响。 据他们说,不是同时进行测试,最好将测试结合起来并将它们作为MVT运行。

不是每个人都完全同意:

《你可以同时运行多个A / B测试吗?》 Jeff Sauro, 衡量可用性

这种方法有其优点,但它们主要是提倡多变量方法 – 这很好,但我不确定我是否明确表示在一个网站上同时进行A / B测试总是成熟,风险大于等待(周)到引入新的测试,理想的是更好的设计。

Matt Gershoff建议您在确定是否一次运行多个单独的测试之前先弄清楚两件事:

《你可以同时运行多个A / B测试吗?》 马特Gershoff,首席执行官Conductrics
你需要问两件事。

  1. 在测试之间可能存在交互的情况下,我们有多大可能?
  2. 有多少重叠?

如果只有1%的用户看到两个测试,那么谁在乎。 如果它更像是99%,那么问问自己:“我真的认为会有极端的互动吗?”(可能不会。)

所以在实践中 – 除非你认为会出现问题,或者你正在测试它是一个非常重要的问题,否则可能不会出汗。

如果变化之间的分裂总是相等的,那么它是否会自行平衡?

这是Optimizely提供的标准答案:

即使一个测试的变化对另一个测试的变化产生影响,其效果也与后一个测试的所有变化成比例,因此,结果不应受到实质性影响。

《你可以同时运行多个A / B测试吗?》

图片来源:优化

有些人认为这种模式过于简单,而且这一论点也暗示归因并不重要。

实际上,我们应该问一个问题 – 我们真的关心归因吗? 我们可能。 或不。 如果我们想知道真正影响用户行为的是什么,以及哪些测试(或测试组合 – 您可以使用Conductrics等测试工具探索的内容)负责,那么归因就很重要。 这就是为什么你有假设和东西,对吧?

您从事科学业务还是赚钱业务?

您的测试计划的成功包括运行的测试次数(例如每年),获胜测试的百分比以及每次成功实验的平均影响。 现在,如果您为了避免数据污染而严格限制运行的测试数量,那么您也会显着降低测试速度。

如果您的主要目标是确定单个测试的有效性,为了对测试的归因和影响充满信心,那么您可能希望避免重叠流量的测试。 但是,当你这样做时,你并没有运行所有那些可能会让你升级的测试 – 因此你可能会亏钱。

从本质上讲,您是否更关心结果的准确性或赚钱?

以下是Lukas Vermeer在同一网站上同时运行多个测试的想法:

《你可以同时运行多个A / B测试吗?》 Booking.com的数据科学家Lukas Vermeer

没理由不去。 有很多理由支持它。

考虑一下:您的竞争对手可能还在他的网站上至少进行了一次测试,并且a)他的测试可能对您的测试产生类似的“噪音影响”,以及b)竞争对手没有站立的事实仍然意味着你需要至少运行尽可能多的测试,因为他只是为了跟上。

世界充满了噪音。 不要担心它,并尽可能快地开始跑步以超越其余部分!

Lukas还证实他自己正在进行同步测试。

选择正确的策略

我们想要运行更多测试,但我们也希望结果准确。 那么我们可以获得哪些选择呢? Matt GershoffMaxymiser博客上的相关文章中做了很好的解释 。 我总结了你应该选择的3个主要策略:

1.运行多个单独的测试

除非你怀疑极端的交互和测试之间的巨大重叠,否则这将是正常的。 你可能会这样做,特别是如果你测试的东西不是改变范式的东西而且几乎没有重叠。

2.互斥测试

大多数测试工具为您提供了运行互斥测试的选项,因此人们不会参与超过1次测试。 您希望这样做的原因是消除结果中的噪音或偏见。 可能的缺点是,设置此类测试可能会更复杂,并且会降低测试速度,因为每个测试都需要足够的样本量

3.将多个测试组合成一个,作为MVT运行

如果您怀疑测试之间存在强大的交互,那么将这些测试组合在一起并将其作为MVT运行可能会更好。 如果您要运行的测试采用相同的目标(例如购买),这些选项是有意义的,它们处于相同的流程中(例如,在每个多步骤结帐步骤上运行测试),并且您计划运行它们持续时间相同。

如果测试A是关于报价而测试B试验主导航 – 低交互,则MVT没有意义。

如何平衡测试速度和结果的准确性?

测试结果的测试速度和准确性是一种权衡,这里没有单一的正确答案,尽管这三位专家建议采用类似的方法:

《你可以同时运行多个A / B测试吗?》 Malwarebytes优化主管Andrew Anderson

我尝试平衡速度与准确性的需求,特别是在大的变化时。 使用我当前的程序,如果我在一个主要页面上进行大型页面设计测试,我将自己运行它而不进行其他测试。 如果我正在进行更多的机械发现和开发测试,那么我会尝试将它们计时以最大化总人口。

大多数时候,我专注于进行1次“大”测试,我的流量比例较大,而“小”测试通常是机械的,如复制测试或演示测试。

卢卡斯:

《你可以同时运行多个A / B测试吗?》 Booking.com的数据科学家Lukas Vermeer

有两种速度需要考虑:开始新实验的速度以及运行单个实验的速度。

我不相信你对前者的反应太快; 尝试和测试尽可能多的东西,你可以想象或建立。

对于后者,您必须平衡结果的确定性与单个实验所花费的时间; 你去的越慢,你就越有把握。 你如何平衡这些东西取决于实验; 或者更具体地说:取决于结果。

您是否正在测试一个简单的复制更改或库存图像或可能为未来五年设定公司方向的新业务模型? 这两种情况需要不同程度的确定性,并且这种速度不同。

和马特:

《你可以同时运行多个A / B测试吗?》 马特Gershoff,首席执行官Conductrics

如果您的测试非常重要,那么请确保您更加小心。 这都是关于承担受过教育的风险。

因此,除非有理由做其他事情,否则应该做的只是简单,但我们应该意识到所有可能性,即使更复杂的情况是相当罕见的。 这样我们至少可以评估我们是否处于更复杂的情况之一。

从速度/数量开始(特别是如果重叠最小的话),然后选择你的战斗来解决更复杂的问题。

结论

就像生活中的大多数事情一样,这里没有简单的答案。

在大多数情况下,您可以很好地运行多个同步测试,并且不太可能进行极端交互。 除非您正在测试非常重要的东西(例如影响您的业务模式,公司未来的东西),测试量的好处很可能超过数据中的噪音和偶尔的误报。

如果根据您的评估,多次测试之间存在较高的交互风险,减少同时测试的次数和/或让测试运行时间更长以提高准确性。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注