bts防弹少年团演唱会

bts防弹少年团演唱会

在A / B / n测试中你可以有多少变化?

《在A / B / n测试中你可以有多少变化?》

当您开始认为A” b>相当简单时,您就会遇到新的战略争议。

这个是两极化的:你应该测试多少变化对照?

关于这个有很多不同的意见,有些完全相反。 其中一些归结为战略,一些归结为数学。 其中一些可能取决于您的业务阶段,您是您的计划的复杂程度。

无论如何,这并不是一个简单明了的答案。 让我们从简单的东西开始:数学。

多重比较问题

当您同时测试多个变体时,会遇到所谓的“ 累积alpha错误”。

基本上,您运行的测试变体越多,误报的可能性就越高。

换句话说:如果你在做出95%重要性的决策的基础上进行操作,那么类型1错误的概率为5%(“alpha错误”或误报)。 这意味着在所有情况中,有5%的假设具有显着效果,即使实际上根本没有。

这个累积因素是%E5%8F%8D%E5%AF%B9%E6%9D%A5%E8%87%AA%E8%B0%B7%E6%AD%8C%E7%9A%84效率的%E4%B8%80%E4%B8%AA%E8%AE%BA%E6%8D%AE“>

《在A / B / n测试中你可以有多少变化?》

计算累积alpha的方法是:

累积α= 1-(1-α)^ k

Alpha =选定的显着性水平,通常为0.05

k =测试中的测试变体数量(没有控制)

因此,您可以看到每次新变化都会导致误报的风险大幅增加。 那么显而易见的是 – 只测试一种变化,对吗?

好吧,不是真的。 大多数工具,包括Optimizely“>

即使您的测试工具没有内置校正程序,您仍然可以自己纠正alpha错误。 有许多不同的技术可供使用,我不是他们之间权衡的专家(也许一个实际的统计学家可以在这里说话):

虽然在调整alpha误差时,虽然你降低了I型错误的风险,但是你增加了II型错误的风险(当实际存在错误时没有看到差异)。

此外, %E5%AE%89%E5%BE%B7%E9%B2%81%C2%B7%E6%A0%BC%E5%B0%94%E6%9B%BC%E5%86%99%E4%BA%86%E4%B8%80%E7%AF%87%E5%BE%88%E5%A5%BD%E7%9A%84%E8%AE%BA%E6%96%87“>

Dynamic” yield>首席数据科学家Idan Michaeli也指出,采用贝叶斯方法可以解决这个问题:

《在A / B / n测试中你可以有多少变化?》Idan Michaeli:

“当A / B测试许多变化和/或多个目标(KPI)时,多重比较问题确实是一个严重的问题。 然而,这主要是标准广泛使用的称为假设检验的A / B测试方法的缺点。 解决此问题的一种方法是采用贝叶斯方法进行A / B测试,如我%E6%9C%80%E8%BF%91%E5%85%B3%E4%BA%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%B5%8B%E8%AF%95%E7%9A%84%E6%96%87%E7%AB%A0%E4%B8%AD%E6%89%80%E8%BF%B0

正如%E9%A9%AC%E7%89%B9Gershoff“>

《在A / B / n测试中你可以有多少变化?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

如果您仍然害怕比较多种方法的数学含义,请注意,当您对数据进行测试后细分时,您确实在做同样的事情。 %E6%9D%A5%E8%87%AAVWO%E7%9A%84Chris” stucchio> :

《在A / B / n测试中你可以有多少变化?》Chris Stucchio:

“你有移动和桌面,50个州,也许还有20个重要的推荐流量来源(谷歌搜索,合作伙伴链接等)。 总而言之,这是2 x 50 x 20 = 2000段。 现在假设每个段与每个其他段相同; 如果您对数据进行细分,那么纯粹偶然得到0.05 x 2000 = 100个统计上显着的结果。

运气不错,肯塔基州的Android用户被谷歌推荐,内布拉斯加州的iPhone用户在新泽西州的直接和桌面用户都推荐重新设计。 哇!”

总而言之,如果您正在使用正确的工具或拥有体面的分析师,那么数学就不是问题所在。 数学很难,但这不是不可能或危险的。 正如Matt Gershoff恰当地提到的那样,“关键在于不要过于依赖于哪种[修正]方法,只需完成即可。”

还有,马太没有帮我把所有数学都拿到这里。

因此,无视数学角度,我们只能做出战略决策。 投资回报率在哪里,尽可能多地测试或限制范围,并可能更快地进行下一次测试?

最大化变体数量的案例

谷歌测试了41种蓝色。 有些人%E5%96%9C%E6%AC%A2%E8%BF%99%E7%A7%8D%EF%BC%8C%E6%9C%89%E4%BA%9B%E4%BA%BA%E5%88%99

《在A / B / n测试中你可以有多少变化?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

虽然大多数人没有这种流量,但重点仍然是:这是由数据驱动的决策制定。 没有意见,缺乏风格。

现在,考虑到流量现实(你不能像谷歌一样测试),是否正在为你测试许多变体? 有人这么说。

Recovery” brands>优化总监%E5%AE%89%E5%BE%B7%E9%B2%81%C2%B7%E5%AE%89%E5%BE%B7%E6%A3%AE” anderson>不久前写了一篇文章,概述了他的%E5%9F%BA%E4%BA%8E%E5%AD%A6%E7%A7%91%E7%9A%84%E6%B5%8B%E8%AF%95%E6%96%B9%E6%B3%95“>

《在A / B / n测试中你可以有多少变化?》安德鲁安德森:

“选项越少,测试的价值就越低。 任何少于四个变种的东西都是我对我们计划的关注,因为发现,成功和最重要的结果的可能性有限。 即使我认为五者的变化更有可能产生影响,我将优先考虑使用10个选项而不是5个测试。 最重要的是选项的范围和数量。

这些规则并非特定于测试,这就是为什么我建议对每月至少有500次转化且每月最少1000次的网站进行优化后更合理的原因。 无论您在资源,概念测试和流量方面的管理能力是多少,这都是目标。 这就是为什么Marissa Mayer和Google着名的做了40次蓝色测试,他们可以。“

这种方法与许多专家建议的形成鲜明对比。 不仅许多人建议你一次只测试一个元素(不好的建议),大多数人说你应该坚持简单的A对B测试。

所以,很自然地,我向Andrew透露了一些清晰度。 毕竟,他的方法似乎也适用于像微软,亚马逊,当然还有谷歌这样的大公司。 它对交通量较少的公司也有用吗? 方法有多适用?

这是他说的话:

《在A / B / n测试中你可以有多少变化?》安德鲁安德森:

“我会尽可能多地使用交通和资源。 这是从我做的前几个测试中学习网站的一部分(方差研究也有帮助)。 要记住的最重要的关键是变化越大,我就越能够测试(或者至少风险变得更容易管理)。

我在单次测试中所做的最多变化通常是14-15。 我尝试做脆弱性建模来弄清楚甜蜜点是什么。 即使在最高的交通站点(我已经在前200个站点中的16个站点工作),最佳位置通常仍然在12-16范围内。 我从不用少于4种替代品进行测试。 另请注意,选项的测试版比选项的数量更重要 。 这就是为什么我强迫我的团队在概念和概念执行方面进行思考,这样我们就可以避免过于狭隘的焦点。

根据我目前的设置,我们有大量的网站,因此我们根据我们可以合理测试的经验数量对网站进行分组。 我们最大的网站仍然处于中低端,可以获得7-8种替代方案。 我们测试的最低站点(每天大约10个转换事件)得到4-5。 在这个标记之下永远无法管理的网站,我们不进行测试,并寻找其他优化方法。“

重点是什么? 效率。 您测试了这么多变体,并且限制了阻碍测试程序的观点。 这也是(在我看来,这些不是安德鲁的想法)有点像洋葱强迫作家如何制作每篇文章的20个头条新闻。 前几个很容易,但到了最后5个,你真的是在突破界限并抛弃假设。 测试很多狗屎,你一定会得到一些你从未想过的解决方案。

安德鲁并不是唯一一个主张测试多种变体的人。 来自Dynamic Yield的Idan Michaeli说,很难对你测试的变化量进行限制。 他也提到变化之间的差异是一个关键因素,无论你运行多少变化。

“外观差异越大,你就越能以统计上显着的方式发现性能差异,”他说

但是,通常情况下,变量#是一种“依赖”类型的答案。 你所处理的个别因素远不止是石头战略。

最小化变化数量的案例

有许多人主张测试较少的变体而不是许多变体。 有些是出于我们上面讨论的数学原因,有些是作为优化策略的手段。

一点:使用alpha调整,运行具有更多变化的测试几乎总是需要更长的时间。 您可能正在使用强%E8%BF%AD%E4%BB%A3%E6%96%B9%E6%B3%95“>

所以,你可以测试增加一个%E4%BB%B7%E5%80%BC%E4%B8%BB%E5%BC%A0%E4%B8%8E%E7%9B%AE%E5%89%8D%E7%9A%84%EF%BC%88%E7%BC%BA%E4%B9%8F%EF%BC%89%E7%9A%84%E4%BB%B7%E5%80%BC%E4%B8%BB%E5%BC%A0%E3%80%82″>

还有一些其他原因,人们提到赞成减少变化的数量。

样品污染

还存在样品污染的问题,当样品不是真正随机化时,或者用户在测试中暴露于多种变化时。

以下是%E5%9C%A8%E7%BA%BF%E5%AF%B9%E8%AF%9D%E5%88%9B%E5%A7%8B%E4%BA%BA所说的:

《在A / B / n测试中你可以有多少变化?》Ton Wesseling:

“当用户返回实验时,他们中的一些人将删除他们的cookie,其中一些(通常更多!)将使用不同的设备。

如果他们在实验中返回,则有一个变化,他们最终会有相同变化的50%变化。 如果您有3种变体,则只有25%的变化它们最终会在相同的变体中出现。

变化越大,污染越大。

受污染的样本会导致每个变异的转换率彼此更接近(经过长时间的实验,样本将受到污染,几乎完全相同 – 因此所有变化的转换率都相同)。

如果您想更多地了解A / B测试中的样品污染,请%E9%98%85%E8%AF%BB%E6%88%91%E4%BB%AC%E7%9A%84%E6%96%87%E7%AB%A0“>

交通和时间

时间和交通也是一个问题。 创建10个截然不同的变体需要多长时间而不是一个? 你有多少流量,你需要多长时间才能获得有效的测试?

以下是Ton的说法:

《在A / B / n测试中你可以有多少变化?》Ton Wesseling:

“此外,只有一个变体,因为大多数网站没有足够的用户和转换来运行多个变体实验 – 所以请始终告诉人们从一开始(并且试验是关于快节奏的学习文化,所以请,即使你,能够根据登录识别用户,不要运行那么长时间以至于每个人都忘记了它们的测试……)

样本污染意味着,如果有更多变化,您将需要更多访问者和转化来证明胜利者。 但是,就像我说的那样,你不想延长测试运行的时间(因为:更多的污染,它也在吃实验带宽)。

如果不考虑延长时间,您需要创建更大胆的变化(潜在的更大影响),但这会占用更多的时间和资源,因此仅使用一个大胆的变体进行实验就更有意义了。

您确实希望继续使用完整的实验带宽,尽可能多地运行实验。 最好在您网站的多个位置进行10个A / B实验,而不是在一个位置进行一次大型实验 – 您将收集更多行为见解。

Ton还提到,只针对控件运行一个变体是研究买方/用户动机的好方法 – 基本上,探索什么是有效的,什么不是 – 然后通过其他方式如强盗来利用它:

《在A / B / n测试中你可以有多少变化?》Ton Wesseling:

“如果我们知道如何以及在何处激励这些用户,我们会更频繁地转向利用并根据这些特定知识运行具有多种变体的强盗实验(如果您有流量,则需要分段和/或上下文要走的路)。 但这完全是为了赚钱 – 不再学习 – 但我们在这个剥削阶段很擅长,因为我们通过探索方法预先了解。“

还有一个中间地带

我问%E7%BD%91%E7%BB%9C%E8%89%BA%E6%9C%AF” engelmann>

正如她所说,“我认为不可能给出一般答案。 具体的测试设置取决于许多因素(见下文)。 根据我的个人经验和意见,我绝不会同时测试超过五种变体(包括控制)。

Idan Michaeli也认为这取决于各种因素,并且没有银弹答案:

《在A / B / n测试中你可以有多少变化?》Idan Michaeli:

“这取决于你是多么大胆以及你想要多快的结果。 您的资源是您的流量和创造力,您需要明智地使用它们。 探索 – 利用权衡取舍意味着您需要平衡您利用所拥有的知识的愿望,为用户提供迄今为止所知的最佳体验,同时还有可能在您尝试发现更好的体验时提供次优体验。

这里没有银弹。 尽最大努力提出各种变化,并在短期内探索它们以提高长期性能。 不要仅仅为了测试更多而创建一个新的变体 – 只有当你有理由相信它会比你迄今为止尝试的所有东西都更好时才这样做。“

在没有黑白答案的前提下,您如何确定要测试的变体数量? 即使您相信最大化变化,您如何确定最佳数量?

哪些因素决定了您对控件的变化?

建议读取这种颜色的41种色调或者只是坚持一种变化,建议不同的读者可能并不聪明。 正如您的受众,转化,收入,流量等不同,您的公司结构,政治和流程也是如此。 一个尺寸适合所有答案是不可能的。

但是,有一些因素可以帮助您掌握准确的方法。

Ton说,你看一下确定实验设计的常用因素:

《在A / B / n测试中你可以有多少变化?》Ton Wesseling:

“用户/转化和实验带宽,胜率和资源。 但这更多的是关于每个时期你将进行多少次实验。 因为它应该有1个变化:-)“

Julia Engelmann博士主要从统计角度给出了她的标准:

《在A / B / n测试中你可以有多少变化?》Julia Engelmann博士:

  • 交通。 如果它是一个低流量的网站,我通常建议测试较少的变化但高对比度。
  • 对比控制的变化 。 估计的变异隆起越高,您在测试的帮助下发现这种隆起的可能性就越大。
  • 估计的测试持续时间是可接受的并且符合业务目标
  • 可接受的alpha误差率 – 您愿意承担的最高风险等级是多少? 变化的数量越多,做出错误决定的错误率就越高。 如果你测试一个可能产生巨大业务影响而且资源成本高的非常大的概念,那么对测试结果非常有把握是有意义的。 因此,我建议使用高置信度和较少的测试变体。“

正如安德鲁在文章前面所引述的那样,他运行脆弱的模型来找到特定环境中的最佳位置。 根据他的说法,“即使在最高的被贩运地点(我已经在那里的前200个网站中的16个工作过),最佳位置通常仍然在12-16范围内。”

至于寻找机会领域和影响因素, %E5%AE%89%E5%BE%B7%E9%B2%81%E5%86%99%E9%81%93“>

说明您的资源

除了流量之外,您还必须考虑您的个人资源和组织效率。 你的设计和开发团队花了多少时间进行一系列巨大的改变而不是增量测试(41种蓝色风格)? 前者很多,后者几乎没有。

《在A / B / n测试中你可以有多少变化?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

Ton,首先,建议,“请不要做按钮颜色,你想知道什么驱动行为,以及如何激励用户采取下一步。 然后再次使用像测试这样的前端开发资源更大胆的实验也不需要花费全世界 – 而且资源不足也无法阻挡你。“

基本上,较小的更改(按钮颜色)几乎为零资源,因此它们更容易测试许多变化。 它们也是因为微小的变化不会从根本上影响用户行为,因此不太可能显示出大的影响。

另一方面,激进的变革需要更多的资源,但你更有可能看到和影响。 当你对彼此进行几次彻底改变时,你更有可能看到最佳(或接近最佳)体验。

安德鲁在他的CXL文章中说得很好,“如果我有5美元而且我可以获得10美元,那很好,但如果我能得到50,或100或1000,那么我需要知道这一点,这是我做的唯一方法那是通过发现和利用可行的替代方案。“

结论

尽管如此,对于一个博士来说,这是一个多么糟糕的事情,但没有一个黑白回答。 而且我在这场比赛中没有马,我喜欢哪个能获得最佳成绩。 这取决于您的流量,转化次数,受众群体以及公司文化和流程。

但是,一般来说,数学不是限制因素。 此外,您应该根据上面列出的因素进行选择。 为了获得更多变化,您可以避免因为您认为(或不会起作用)的想法而受到限制。 如果选项之间的差异很大,那么你就更确定胜利了。

限制您的变化与样本污染,流量和时间/资源问题的关注有关。

最后,同一个组织可以运行两种类型的测试。 这是一个战略决策,不一定是我可以为你做的。

%E7%89%B9%E5%BE%81%E5%9B%BE%E5%83%8F%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注