bts防弹少年团演唱会

bts防弹少年团演唱会

超越“One Size Fits All”A / B测试

《超越“One Size Fits All”A / B测试》

如果你投资改进你的A / B测试游戏,你可能已经阅读了很多关于%E5%A6%82%E4%BD%95%E8%BF%9B%E8%A1%8Ca” b>的文章和讨论。

在阅读关于运行测试的时间或使用的统计显着性阈值的建议时,您可能会看到诸如“始终瞄准XX%重要性”或“在达到YYY转换之前不要停止测试”这样的声明 – 其中XX%是通常高于95%的数字,而YYY通常高于100。

你可能也听说过最好提出许多变种来测试控制,以提高你找到最佳选择的机会。

无论提供什么规则,这样的建议似乎都基于这样的假设,即在大多数情况下都有一个适合所有人的解决方案。

标准化的测试停止规则? 如果不是所有测试都相同怎么办?

一个广泛使用的测试平台通过强加帐户范围的显着性水平来巩固这一想法。

即使您不相信这样的解决方案,也很容易达到诸如“我们将使用XX重要性和XXX转换作为我们运行的所有A / B测试的决策规则”等惯例,因为它对每个人来说都是最简单的参与其中。

您可能对CRO机构中的所有测试都有规则,或者在给定网站上运行所有测试。 然而,方便并不能使其成为一种好的或有效的方法。

我认为使用这样的经验法则或惯例是次优实践,并且测试越先进,这种方法对规划测试的影响就越大。

您对测试了解多少

了解每项测试的风险和回报,并为测试持续时间,显着性阈值,零假设选择等参数做出决策,这将使您能够通过转换率优化工作获得更好的投资回报。 让我们看看为什么。

1.了解你的盈亏平衡点

A / B测试中最重要的是收支平衡点,在每种情况下它都是不同的。

它通常用测试所需的相对升力百分比来衡量,即测试是收入中性的(我们在测试中既没有获得也没有损失)并根据其结果做出决定。

简要提醒一下,投资回报率是通过将影响除以受影响的收入除以成本(ROI =效果x影响/成本)来确定的。 那么,盈亏平衡点是ROI达到100%或风险/回报率为1/1的点。

我们通过比较测试变量的估计性能与估计的盈亏平衡点来了解我们是否正在研究产生胜利者的测试。

如果你不知道自己的盈亏平衡点,你不可能知道你是否有胜利者。

《超越“One Size Fits All”A / B测试》

一旦你知道你的盈亏平衡点,那么你应该围绕它设计你的测试。 如果您不了解它,那么您只能偶然设计一个有效的测试。

由于我们承诺的测试成本,无论测试变量的性能或测试结果如何 – 所谓的固定成本,盈亏平衡点显然从未提升0%。

计算投资回报率的自然的第一步是确定我们的固定成本盈亏平衡点,通常是一个非常小的百分比相对升力,通常低于1%,因为准备和运行大多数测试的成本相对于他们的潜力很小影响。

固定成本的突破点

然而,固定成本的突破点甚至没有开始捕获我们在估算A / B测试的投资回报时需要考虑的全部成本和收益。

其中许多不是固定的,而是风险或概率,因此盈亏平衡点也不固定。

那么,为了估算盈亏平衡点,我们需要考虑的不同成本和收益是什么?

2. A / B测试ROI分析的成本

首先,我们通过测试产生成本,无论结果如何,例如支付测试工具,开发,设计和QA测试变体,分析时间和软件等。

如果测试变量的性能比盈亏平衡点差,那么这些都不会被收回。

根据测试的不同,这些可能会因测试而异,从按钮颜色变化或简单复制更改等简单测试的数百美元到测试变体需要大量开发和设计工作的数万美元不等。

劣等变种的成本

其次, 在测试期间通过在给定数周内运行劣质变体而产生成本。

显然,我们不会测试我们没有理由相信比我们现有的更好的东西,但是有些情况下变体比现有解决方案更糟糕。

同样,从测试到测试的差异很大:从意外测试破损的变体(转换率降低100%)到测试转换率提高50%的东西。

实施变体的成本

第三,我们从实施变量的成本来看,它正在改进我们的KPI,而事实上,它并不比控制更好。

这通常被认为是A / B测试中的主要问题:限制潜在的伤害。 这被理解为不会发布基于某些关键绩效指标(KPI)而恶化网站性能的设计或流程。

此业务风险受统计意义控制。 这里的方差类似于上面的方差。

维护费用

实施成本还可以包括持续的维护成本,例如支付软件费用或者使用新解决方案的工时成本。

例如,如果我们测试360度照片并确定它们改进了我们的转换,并且每月花费我们X量来生产这些照片,那么该成本应该被添加到确定盈亏平衡点的成本计算中。

从测试到测试,在一段时间内成本可能从零到几十万不等。

3.机会成本

经常被遗忘的是机会成本 ,未能发现真正的赢家的成本。 以下是一些有趣的行业统计数据,以帮助说明这一点。

《超越“One Size Fits All”A / B测试》

几个来源[ 123 ]状态下仅8个1 5 1之间,以测试产生的赢家。 还有一个公开的例子 ,一家公司进行了大约70次A / B测试,其中只有3次导致统计上显着的获胜者。

这是4%的成功率,或23次测试中的1次。

是什么导致成功率低?

我们是否相信大多数CRO机构经常浪费大量时间和金钱来测试劣质变体,还是会有其他原因导致这种结果?

上述数据提出了一个不同于误报率的问题:假阴性率,或者有多少测试无法正确识别获胜变体?

没有利用真正的收益对客户来说是一个非常实际的成本,有时超出了浪费的时间和金钱来执行测试。

在评估转换率优化的总体投资回报率(ROI)时,应考虑此类测试的成本,无论是在内部还是由外部机构执行。

关于假阴性率

假阴性率由统计功率控制 – 关于收支平衡点的测试越强大越好。 通常,我们通过增加样本量来获得能量,最常见的是通过增加测试的持续时间。

但是,为了能够检测到较小的升降机而增加测试持续时间会增加我们的一部分用户可能遇到更差的变体的时间,因此我们也增加了在测试期间损失更多钱的风险。

通常的做法通常会大大增加假阴性率:针对对照启动5-10个变体的测试,其中变体之间的差异很小,可以忽略不计。

(例如,我们的主要变体可能是经过深入研究的,但后来我们对其进行了5次调整,现在将其作为针对对照的5种不同变体进行测试。)

统计意义和测试持续时间

在大多数软件中,每个变体成为单独的显着性检验,增加了其中一个变体的名义上统计上显着的结果的概率。

为了避免误报,负责任的供应商采用对重要性计算的调整,这导致测试具有较少的功率。

否则,需要更长的持续时间来维持相同的功率。 即使使用最好的方法( Dunnett调整 ),使用4种变体而不是1进行测试会使测试所需的持续时间增加约102%。

是否值得推迟测试结论两次,只是为了对微小变化进行有限的洞察(请记住,通常,我们为每个变体与对照进行测试,因此变体之间的差异可能不具有统计意义)?

大多数时候它可能没有意义。

为什么“喷雾和祈祷”方法不起作用

由于目前我熟悉的流行的A / B测试工具都没有合适的测试设计软件(我最近的CXL课程中没有人能够指出他们使用过的工具),从业者可能会留下错误给测试添加另一个变体的印象是免费的。

这并不意味着他或她不会受到后果的影响,无论是通过实际误报率的显着增加(如果没有多次测试调整),还是通过显着降低的统计能力(如果适当的倍数 – 采用测试调整)。

因此,从投资回报率的角度来看,“喷雾和祈祷”测试方法是不受欢迎的:运行快速A / B测试以测试主要变化然后运行后续的,更长的A / B / n测试会更好。较小的调整。

《超越“One Size Fits All”A / B测试》

4.理解无效和替代假设

与正确供电测试相关的一个问题是忘记这一点是多么容易, 除非我们的统计零假设与我们想要测试的内容(我们的实质假设)完全一致,否则我们得到的任何统计测量都可能完全误导。

例如,采用双侧与单侧的重要性测试问题。 有些软件使用双尾测试,有些则使用单尾测试。

你知道哪一个是你的软件报告吗? 如果没有,那么请确保您发现,因为误解得到保证。 由于在大多数情况下,双边统计假设与所提出的问题不对应,因此您可能会失去20-40%的效率并且可能运行测试的时间太长。

我已经详细解释了A / B测试问题中单尾与双尾测试的重要性 ,所以我在此不再赘述。

强有力的优势替代假设

现在,考虑其他事情。 如果我们知道为了支付维持测试变体的成本,我们需要获得至少1%(相对)的提升,为什么要使用零假设进行测试,表明我们害怕误认为没有或与正差异有负差异?

我们的替代假设是否应该是一个简单的优越性假设,说明应该实施任何高于零的结果? 这没有意义。

如果变量只比对照好0.5%,那么我们就要赔钱,那么我们应该用一个所谓的强优势替代假设来设计测试,所以如果结果超过比对照好1%。

为什么强有力的优势替代假设很重要?

它相当于要求置信区间的下限在1%相对升力的北方。

由此产生的结果是我们需要运行更长的测试来可靠地检测变体和控制之间的这种差异。

在测试计划阶段没有考虑到这一点会导致实施“赢家”的风险增加,这将失去我们的钱。

非劣效性替代假设

最后,如果我们测试的变体在提高转换率之外有其他好处,那么替代方案应该是优势吗?

也许它与我们的整体品牌更加一致。 也许它通过削减第三方软件的成本和减少员工的工作量来节省我们的钱。 假设这些附带的好处足以弥补转换率相对下降2%的影响。 在这种情况下,使用非劣效性替代假设来设计测试是完全合理的

这样,我们也将从0%升力或甚至略微负的真实升力中获得统计上显着的结果,这与我们想要做出的决定完全相关,而不是一刀切的优势测试。

《超越“One Size Fits All”A / B测试》

选择正确的null和备选假设不仅可以确保正确解释测试结果,还可以确保测试正确。

5. A / B测试的收益

在测试期间和测试完成后,根据真实的相对升力和开采持续时间也会产生收益或收益 。 可能还有一些好处不是由主要KPI直接衡量的。

关于测试期间的收益,很容易意识到这些会有很大差异。 如果我们在每次测试之前问自己,“我们是否相信这个测试变体可能会像我们测试过的任何其他测试变体一样提供10%的真实升力?”,我们肯定会回答否定。

研究,研究,研究

一些测试得到大量研究,分析,定性反馈,UX专家意见等的支持。这些测试自然而然地提供了更好的机会来提升升降机,或者至少没有破坏已经运行的东西。

相比之下,测试变体是在几个小时内构思出来的,并且只是在那里“看看它们是否坚持。”当然,测试回火的风险高于经过充分研究的风险。

鉴于上述情况,给每个人提供平等机会是没有意义的,特别是如果一个人使用老式的,固定样本大小的显着性测试。

测试持续时间

我们进行测试的时间越长,我们就越有可能在A / B测试案例中向50%的用户展示劣质变体,并且在A / B / n案例中可能更多。

当我们测试一个经过深入研究的变体时,我们可以让它运行更长时间,因此我们可以拥有更多功能来检测较小的改进。 当我们的变体不太可能成为胜利者时,我们可能希望限制测试的持续时间,以降低使用户暴露于低级体验的风险。

顺序监控

在这两种情况下,进行某种顺序监测是明智的,我们可以在这里评估结果的统计显着性,而不会影响统计检验的有效性。

我们在Analytics-Toolkit.com上开发了“AGILE”统计方法进行顺序测试,它允许人们更长时间地计划测试,并在收支平衡点附近检测真正的赢家。

它还允许人们更早地停止以防测试成功的可能性很小(限制测试期间的风险),并且如果性能优于盈亏平衡点(限制错过的机会)。

停止规则

对于成功和无效的严格停止规则非常重要,以便快速实施获胜者并在他们造成不必要的损害之前停止测试。

顺便说一句,它也很重要,因为如果它最初开始向下趋势,我们就不会轻易放弃测试,从而永远不会给它一个证明自己的真正机会。

6.并非所有胜利都是平等的(实施后的好处)

关于实施证明给定升力的变量之后的好处,应该立即明显的是, 并非所有获胜都是平等的,即使是那些我们实现相同KPI相同相对改进的那些。

考虑这种情况:我们正在测试从直接销售渠道转换到通过免费试用的渠道是否会对转化率产生积极影响。

我们的测试得出结论,所以我们现在不仅需要在网站上切换内容,还要编写新的帮助文档并重新编写旧文档。 我们需要重新培训员工以协助客户完成新流程,我们需要更改文字,图片和视频广告副本以反映新选项,我们需要更改目标网页等。

因此,在计算盈亏平衡点时,应考虑此类胜利的外部性,正面或负面,从而考虑测试的持续时间和重要性要求。

《超越“One Size Fits All”A / B测试》

在示例中,所呈现的外部性都是负面的,但是我们的广告文案中的“免费试用”字样实际上可能会降低每次点击费用并提高点击率,从而提高广告排名,从而使其对我们的每次点击费用广告系列产生积极影响。

事先很难知道,但有一件事是肯定的:如果我们想要证明A / B测试对整个企业的价值,我们必须在“相对提升”和“相对收入提升”之外思考。

考虑以下两种情况:在一种情况下,我们在一个网站上进行A / B测试,我们希望在不超过6个月内完全重新设计,在另一种情况下 – 我们刚刚完成了重新设计,因此我们预计它将保持不变大致和未来几年一样。

两种情况下5%相对升力的胜利是否相同? 当然不是。

考虑到电梯可能被利用的时间对于确定应该进行测试的详细程度至关重要,即 – 我们的统计显着性阈值应根据我们期望看到的获胜期限而变化。

您的统计显着性阈值应根据您希望看到的胜利持续时间而变化。

如您所知,降低显着性水平要求会增加测试的统计功效,因此现在,我们可以运行测试4周而不是需要8周才能运行测试,并且可以使用4周,这是如果重新设计26周并进行简单的A / B测试,假设增益为22%。

将显着性要求从95%降低到80%可以轻松实现上述目标。 这是你为所有测试做的事吗? 绝对不。 在某些情况下它是否有意义 – 绝对!

7. A / B测试的独特商业案例

您必须注意到统计显着性甚至统计能力如何仅控制一些潜在的业务风险 – 即做出决策后的风险 – 而测试期间的固定成本和风险只能间接控制。

在应用实验统计学的许多领域(例如,实验物理学),由于潜在影响和实验成本之间的巨大差异,这是有意义的。 在许多情况下,这就像将无穷大与任何数字进行比较。

在线实验有何不同?

在两个重要方面,在线实验与许多其他类型的实验相比具有独特的地位:

1.测试的持续时间构成测试结果被利用的持续时间的很大一部分。 在科学中,主要应用我们使用的统计工具,实验的结果可能在未来数百甚至数千年后产生影响。 在线业务中,效果通常限于几年,可能是十年。

2.影响范围有限,可以对整体潜在影响进行可靠估计。 与其他测试应用程序不同,在业务中,影响主要受特定业务的限制,通常甚至在业务的一部分中。

这使得计算任何一套A / B测试参数(如测试持续时间,显着性阈值,零假设,测试变体数量和监测/停止规则)的相当精确的风险回报率成为可能和合理。

找到最佳点

这些可以在预期结果的概率分布下计算,从而得到关于任何给定测试可以解决的最佳A / B测试参数组的相当完整和准确的估计。

考虑到不同风险和奖励在不同测试之间的差异 ,很明显, 了解所有不同成本和收益之间的相互作用是在运行测试之间找到最佳位置并且运行时间过长的唯一方法。过于厌恶风险并且在很大程度上存在不确定性。
没有经验法则可以充分涵盖大量的现实测试案例。

ROI计算器

但是如何才能理解这种相互作用的复杂性,包括某些参数之间的递归依赖性? 我通过设计第一个此类A / B测试ROI计算器来解决这个问题 。 这是一个示例输出:

《超越“One Size Fits All”A / B测试》

该图可以通过以下数字汇总:

《超越“One Size Fits All”A / B测试》

风险/回报率

整个A / B测试的风险/回报率为1 / 38.92。 风险回报率的边际改善与未经任何测试发布变体相比,略微超过了24倍。

以上是针对固定样本测试,持续时间为8周,显着性阈值为95%。 该工具建议持续3周,显着性阈值为96.5%,风险/回报率为1 / 48.73,比原计划好25%左右。

它还建议进行顺序监测的测试,计划最坏情况持续16周(预期持续4周)和96.50%显着性,风险/回报率为1 / 127.63,或比原来好3.2倍。

预测工具准确性

以上数字是否100%准确? 当然不是。 像任何其他预测工具一样,它只能与您提供的输入一样好,但它仍然可能比为您运行的每个测试使用相同的参数要好得多。

这些特定数字是否适用于您刚才计划的测试? 文章的重点是没有人能够事先告诉你,没有用你的特定数字进行计算。

8.结论

在这篇文章中,我们已经了解了估算A / B测试投资回报所涉及的不同成本和收益,以及我们可以针对每个A / B测试调整的几个参数。 这些是:

1.测试的持续时间。
2.测试的显着性水平
3.测试的变体数量
4.停止规则
5.零假设

是否以这种或那种方式改变它们将取决于我们希望通过A / B测试程序控制的固定成本和风险成本,与预期收益相比。

这个过程本质上是在决策速度与我们在误报和漏报中容忍的不确定性之间进行权衡的过程。

如果我们想要最大化A / B测试工作的回报,那么定义测试变量是赢家还是输家的盈亏平衡点因测试而异,我们使用的参数也是如此。

我希望我能够证明需要逐案设计A / B测试,而不是盲目应用“规则”。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注