bts防弹少年团演唱会

bts防弹少年团演唱会

您如何处理不确定的A / B测试结果?

《您如何处理不确定的A / B测试结果?》

所以你进行了测试 – 你按照A” b>正确地运行了测试 – 并且你得到了不确定的结果。

现在怎么办?

令人惊讶的测试数量最终没有结果。 根据Experiment Engine的数据,根据测试程序的垂直和阶段,任何地方50%到80%的测试结果都是不确定的。 正如他们总结的那样 ,“你最好习惯于领带。”

在这里,他们提供了两个值之间结果概率的直方图:

《您如何处理不确定的A / B测试结果?》
图像来源

%E5%85%B6%E4%BB%96%E4%BC%B0%E8%AE%A1%E5%B0%86A” b>

VWO%E5%92%8C

由于不确定的结果似乎是常态而非例外,当你得到它们时你会怎么做?

细分数据

如果您的A / B测试结果不确定,您应该做的第一件事是查看细分。

%E8%BD%AC%E5%8C%96%E7%A7%91%E5%AD%A6%E7%9A%84“>

如果您正面临一项不确定的测试,请查看关键部分的测试表现,例如设备,流量来源以及对您的业务有意义的任何其他内容。 但要抬头:在你将结果视为“结论性”之前,细分市场也需要%E6%9C%89%E8%B6%B3%E5%A4%9F%E7%9A%84%E6%A0%B7%E6%9C%AC%E9%87%8F“>

在梅西的案例中,服装网站上的录像片段测试结果尚无定论。 虽然%E8%A7%86%E9%A2%91%E9%80%9A%E5%B8%B8%E4%BC%9A%E5%A2%9E%E5%8A%A0%E8%BD%AC%E5%8C%96%E6%AC%A1%E6%95%B0“>

细分用户显示以下答案:

  • 新访客更喜欢观看长视频,而回访的访问者则更多地使用较短的剪辑。
  • 通过产品页面进入网站的访问者比通过主页进入的访问者更喜欢不同类型的视频。
  • 在查看包含产品特写的视频时,现有订阅者的转化率高于其他细分受众群。

综合起来,每个细分市场都取消了另一个收益。 将交通分成不连续的部分,揭示了梅西需要向前发展的洞察力。

尽管如此, Digital” marketer>的优化总监Justin” rondeau>警告说,在实施基于细分的变更时要小心:

《您如何处理不确定的A / B测试结果?》 贾斯汀龙多

“在研究细分时,你需要小心! 就像普通人的谎言一样,一段只讲述故事的一部分! 显然,如果您遇到“流量挑战”,您将无法获得足够的数据来对该行为做出明确的陈述。

此外,如果您只想使用个性化结构为正确的人提供正确的内容,您需要1)投资技术并且2)进行细致的报告(特别是如果您正在完成拆分URL测试)。

简而言之,细分可以告诉您部分故事,但在实施过程中可能会成为一场噩梦。 如果细分市场正在带来重大收入或领先(取决于我的目标),我只会逐段实施。“

如果你已经浏览了你的细分市场而没有发现任何有价值的东西,那么就该问自己是否继续推动你的假设或者转到列表中的下一个项目……

你应该留下还是应该去?

您是否继续尝试相同假设的变体,或者您是否将其称为一天并完全继续使用新的假设?

来自Experiment” engine> EJ” lawless> 在博客文章提到 ,测试速度是成功优化团队的关键特征,但如果您的测试是基于尝试验证意见或基于您在互联网上阅读的某些清单,那么您可能最好放弃它并转向真实的东西。

首先,不要测试愚蠢的事情

在许多情况下,如果变化很小且毫无意义,那么A / B测试的结果将会变得不确定。

看看GrooveHQ%E4%B8%AD%E7%9A%84%E8%BF%99%E4%BA%9B

在第一个例子中,网站的CTA按钮的颜色 – 一个%E7%BB%8F%E5%B8%B8%E6%B5%8B%E8%AF%95%E7%9A%84%E5%8A%9F%E8%83%BD“>

《您如何处理不确定的A / B测试结果?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

虽然像亚马逊或谷歌这样拥有数百万访问者的大公司可以运行统计数据来测量小型化妆品变化的重要性,但较小的公司需要磨练大赢家。

另一个例子来自Picreel%E7%9A%84%E8%81%94%E5%90%88%E5%88%9B%E5%A7%8B%E4%BA%BA

版本A:

《您如何处理不确定的A / B测试结果?》

版本B:

《您如何处理不确定的A / B测试结果?》

结果?

《您如何处理不确定的A / B测试结果?》

完全没关系。 获得的经验:访客不关心徽标颜色。

如果您最近的测试结果尚无定论,那么您可能已经获得了这些结果,因为您所做的更改来自于列出“立即测试此事”的策略,而不是真正重要的事情。游客。

相反,您的优化过程应该是一个过程。 那里有很多框架,但我建议查看我们的ResearchXL%E6%A8%A1%E5%9E%8B%E6%9D%A5%E6%94%B6%E9%9B%86%E5%92%8C%E4%BC%98%E5%85%88%E8%80%83%E8%99%91%E8%A7%81%E8%A7%A3%E3%80%82″>

测试更大的变化

除了将测试基于定性和定量数据(而不仅仅是单纯的意见),测试实际上会对访问者产生影响的事情。 有时你必须%E5%A4%A7%E8%83%86“>

Hillary” for america>的前端工程和优化总监Kyle” rush>这样说:

《您如何处理不确定的A / B测试结果?》 凯尔拉什:

“在测试你的假设的极端版本​​时,我是错的。 微妙的变化通常不会像更大的变化那样迅速发挥作用。 对于A / B测试,您想知道您的假设是否正确。 一旦你知道了,你就可以微调假设的实现。“

Groove的上述示例之类的测试不会产生任何结果(或者学习,实际上),因为它们看起来是随机的,不会解决访问者的实际问题,而且如果没有TON%E6%B5%81%E9%87%8F%E5%88%99%E5%A4%AA%E5%B0%8F%E8%80%8C%E6%97%A0%E6%B3%95%E8%AF%86%E5%88%AB%E3%80%82″>

迭代测试和何时坚持

如果你正在关注一个过程,并且你得到了一个不确定的测试,有时你应该像EJ Lawless所说的那样,“重新审视你的假设,看看这个假设是否有意义,以及你是否应该测试另一个变量。同样的假设。“

Peep%E7%BB%99%E5%87%BA%E4%BA%86%E4%BB%A5%E4%B8%8B%E7%A4%BA%E4%BE%8B%EF%BC%9A”>

《您如何处理不确定的A / B测试结果?》 Peep Laja:

“让我们想象一下,我们的结账页面上有很多定性调查数据,人们告诉我们他们给我们的信用卡数据是不安全的。

现在 – 我们的目标是改善此页面上的安全感。

问题:有多少种方法可以做到这一点? 答案:无限。

因此,仅仅因为您尝试了1000个中的一个变体,结果是不确定的,这并不意味着您的假设是错误的。 如果您有强大的数据指向问题,请继续迭代。 在您的流量允许的情况下测试多种针对控制的变体,或者尝试连续多个A / B测试以尝试不同的方式来解决问题。

如果您的测试假设是基于猜测或“让我们尝试它”,那么继续测试其他东西。“

这里的关键是你的测试基于一个强有力的假设。 虽然我们永远不能100%确定一个假设(即使测试获胜 – 我们%E4%B9%9F%E4%B8%8D%E7%9F%A5%E9%81%93%E5%AE%83%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E8%B5%B7%E4%BD%9C%E7%94%A8“>

你的策略是什么?

在任何情况下,如果您一直得到不确定的测试结果,请查看您的策略。 PRWD%E4%BC%98%E5%8C%96%E5%88%9B%E5%A7%8B%E4%BA%BA%E5%85%BC%E6%80%BB%E7%9B%91

《您如何处理不确定的A / B测试结果?》 保罗鲁克:

“你需要问的第一个问题是: ”我们经常得到不确定的结果吗?“

如果你这样做,那么例如,如果超过1/5的测试没有结果,你需要将其剥离并批判性地评估你正在开发的假设 – 并且还要评估你通过优化策略想要实现的目标。

问自己这些问题:

  • 我们的测试假设背后是否存在真正的“为什么”?
  • 再问自己,我们的测试假设背后是否存在真正的“为什么”?
  • 我们的测试假设是否由行为洞察力驱动?
  • 对于访问者来说,我们所做的更改是否过于微妙?
  • 我们的访客真的关心我们引入的变化吗?
  • 我们真的了解可以用来影响决策的技术吗?“

虽然不确定的结果并不像获奖者那样“有趣”,但你仍然可以从他们身上学到东西……

无论如何,什么是不确定的结果?

您是在验证意见还是测试发现? 即使你没有得到你希望得到的结果,但是不确定的结果可以告诉你某些事物是否具有影响力,这本身就是有价值的。

以下是Malwarebytes%E4%BC%98%E5%8C%96%E4%B8%BB%E7%AE%A1说法:

《您如何处理不确定的A / B测试结果?》 安德鲁安德森:

“什么”不确定“真的意味着什么? 只是你没有得到你所希望的答案吗? 或者它是否意味着您正在测试的东西几乎没有影响?

了解一些影响不大的东西是非常有价值的,所以这远非没有结果。

什么是不确定的是当你专注于验证一个特定的想法,结果回来没有重大变化。 很难知道你是否只关注一个或两个数据点,特别是如果它们之间的差异很小。

这是陷入测试验证世界的根本问题。 你有一个想法(一个预测,即使你会称之为假设),你测试它,但你看到的结果差异很小。

如果你已经正确地建立了你的自然方差(如果没有,大多数网站都在3%左右,那么任何-3到3%之间的变化是无法检测到的),那么有很多东西会落入那个池中。 如果是的话,这是否意味着该项目不重要? 不,你有一个数据点。 你的想法怎么样,它是“正确的吗?”嗯,不是直接的,但你不知道它的哪一部分。“

测试发现和增加测试的变化量比尝试验证假设更有价值。 安德鲁解释说:

《您如何处理不确定的A / B测试结果?》 安德鲁安德森:
“这个页面上有复制吗? 好吧,如果我测试了10个选项的大范围测试版,并且它们都没有移动针,那么我可以肯定复制并不重要。 同样,如果其中8个未能移动针但是2个,则告诉我这是执行。

优化发现(以及巧合的效率和最大化收入)可为您提供更多数据,并允许您集中资源,因为您可以更好地了解影响力。

因为您试图从等式中消除个人偏见,所以您关注的是变革的真正价值以及您可以执行的所有方式。 这可以最大限度地提高学习(和结果),并通过创建足够的数据来正确衡量对业务底线至关重要的事情,从而避免出现“不确定”结果。“

从中立性测试中获取价值

%E6%AF%8F%E4%B8%AA%E4%BA%BA%E9%83%BD%E5%96%9C%E6%AC%A2%E8%B5%A2“>

但这并不意味着不确定的A / B测试不值得你花时间。 您仍然可以从不确定的测试中学到很多东西。

Grigoriy” kogan>从中立测试中获取价值。 如果测试结果不确定,他建议询问“中性结果无效的假设(如果有的话)”。

“问题可能不是你想的那样,”他说。

举个例子,他展示了一个不确定的测试:

《您如何处理不确定的A / B测试结果?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

以下是他的解释:

《您如何处理不确定的A / B测试结果?》 Grigoriy Kogan:
“如果我们的期望只是看到胜利,那么这个测试很快就会被抛弃,我们会回到绘图板上。 幸运的是,我们将测试作为一个学习机会,并仔细研究了目标受众。

这种审查得到了回报:我们发现,由于现有用户和客人之间的结账流程略有不同,一些客人从未看到过新的变化,但无论如何都包括在结果中。 这会使结果偏向于现有用户,而现有用户受新结帐页面的影响要小得多。

在学习之后,我们使用更精确的激活方法(使用Optimizely的手动激活)重新开始测试。 在第二轮,我们发现这种差异确实提高了结算率+ 5%。 对于其网站的电子商务网站,这是一个显着的收入增长。

如果我们只追求大胜,我们就会忽略第一次不确定的测试,错过了提高结账率和收入的机会。“

另一个例子,一个特别的想法,就是定价。 如果您测试定价,并且变体没有差异,则提供TON值。

事实上,这是Groove失败的测试之一。 他们测试了他们定价的微小差异。 没有不同:

《您如何处理不确定的A / B测试结果?》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

但如果没有差别,那么收取最高金额。 我们进行了测试,其中转换价格相同,如29美元,35美元和39美元。 所以当然,在这种情况下,你收取39美元。

看看Micro-Conversions

虽然你不一定要%E4%BC%98%E5%8C%96%E5%BE%AE%E8%BD%AC%E6%8D%A2” rush>

看看微转换也是Justin Rondeau建议的:

《您如何处理不确定的A / B测试结果?》 贾斯汀龙多

“我也想看看微转换。 当您没有足够的销售额来进行最终测试时,在漏斗中使用更高的微转换有时可能是一个有用的指标。

因此,如果变量增加了一些相关的微转换指标,那么可以实现它。 除此以外…

当怀疑时,赞成控制

几乎所有与我讨论过这篇文章的人都提出,当所有井都干涸时,只需支持控制。 为什么? 首先,节约资源……

《您如何处理不确定的A / B测试结果?》 凯尔拉什:

“一般来说,如果我的结果不确定,我会坚持使用控制。 我这样做是因为在UI中添加不会显着提高转换率的内容会给你带来很多混乱。 在从不确定的结果添加大量UI组件之后,您将最终得到如此多的UI组件,以至于在测试中添加新UI组件的对比度较低,从而降低了达到显着性的能力。 在几乎所有情况下,如果他们在a / b测试中获胜,我只会添加UI组件。

但是有一个例外。 也许你正在测试一些法律要求,或者可能是品牌的转变,从长远来看,这对公司来说是好的。 在这些情况下,您可能会将治疗​​部署到100%的流量。“

……或者你喜欢的变化

如果真的没有区别,那么你可以做你最喜欢的事情……

《您如何处理不确定的A / B测试结果?》 贾斯汀龙多
“如果没有重大差异(或者由于样本量较小而导致转换率膨胀),我通常会实施我更喜欢的变体。

想一想 – 如果性能之间没有差异,那么我可以使用任何一种变体。 我不妨选择我喜欢的人。 也就是说,这不会成为最终的设计,它只会成为新的控制。 我通常会有几个新的迭代我想继续运行,然后继续下一个。“

保罗·鲁克(Paul Rouke)同意这样的想法,如果没有别的区别,那么将变量作为新的控制可以是一个选择:

《您如何处理不确定的A / B测试结果?》 保罗鲁克:

“假设变异背后有一个明智的假设,但对于所有访问者和主要部分(例如新的和返回的)都没有结果,那么将您的变体用作潜在的未来测试的新控制版本并没有坏处“。

所以你运行测试,它没有结果。 由于资源,品牌问题和新颖性影响,大多数人会赞成控制。 但如果这是一个政治问题,你可能会让位给客户(或老板)的意见。

结论

每个人都喜欢赢家,但行业数据显示大多数测试都不是赢家。 许多测试都是不确定的,这会在萌芽优化程序中产生摩擦。

如果测试结果不确定(并且假设您正确运行并了解差异),则有一些不同的解决方案,由优化专家推荐和审核。 这些都是上下文建议,需要根据您自己的情况实施(如果您没有足够的流量或者您正在测试愚蠢的东西,挖掘段将不会做任何事情):

  • 深入细分并学习或实施个性化规则。
  • 迭代你的假设
  • 最大化您的测试选项测试版,并确定它是执行问题还是缺乏影响力。
  • 尝试新的东西(测试积压中的下一个项目)
  • 尝试更激进的事情
  • 跟踪微转换,如果在给定的变体中重要的相关指标增加,请实施它。

…或者只是坚持使用控件,或通过实施他们喜欢的变体来安抚您的利益相关者。 如果你想要有纪律和有效率,那么有利于控制是最佳选择。 如果你想玩政治(有时需要推动优化计划),请行使自由裁量权。

H / T给Alex” bashinsky>帮助研究和制作这篇文章。

%E7%89%B9%E5%BE%81%E5%9B%BE%E5%83%8F%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注