bts防弹少年团演唱会

bts防弹少年团演唱会

12 A / B测试我一直看到的错误

《12 A / B测试我一直看到的错误》

A” b>很有趣。 有了这么多易于使用的工具,任何人都可以而且应该这样做。 但是,除了设置测试之外,还有更多内容。 大量公司正在浪费时间和金钱。

以下是我看到人们一次又一次犯下的12个A / B测试错误。

  1. 尽早调用A / B测试 ;
  2. 整整几周没有运行测试 ;
  3. 在没有足够流量(或转换)的情况下进行A / B测试 ;
  4. 不是基于一个假设的测试 ;
  5. 不向Google Analytics发送测试数据 ;
  6. 在愚蠢的测试中浪费时间和流量 ;
  7. 第一次测试失败后放弃 ;
  8. 不理解误报 ;
  9. 在重叠流量的同时运行多个测试 ;
  10. 忽略小的收益 ;
  11. 没有一直运行测试 ;
  12. 没有意识到有效性威胁。

你是犯这些错误的罪魁祸首吗? 请仔细阅读,找出答案。

1.尽早致电A / B测试

如果%E6%A0%B7%E6%9C%AC%E9%87%8F%E8%B6%B3%E5%A4%9F%E5%A4%A7%EF%BC%8C%E5%88%99

任何经验丰富的测试人员都有很多经验,其中80%置信度的“获胜”变体在被推送到网站并暴露于更多流量之后最终会失败。

90%呢? 那很好,对吗? 不。 还不够好。 你正在进行科学实验。 是的,你希望它是真的。 你希望90%获胜,但获得真相比宣布获胜者更重要。

真相>“胜利”

作为优化者,你的工作就是找出真相。 你必须把你的自我放在一边。 接受你的假设或设计治疗是人类,当你最好的假设没有显着不同时,它会受到伤害。 去过也做过。 最重要的是,或者它都失去了意义。

这是一个常见的场景,即使是那些经常测试的公司:他们在一个接一个的测试中运行了12个月,宣布了一堆获胜者,然后推出它们。 一年后,他们网站的转换率与他们开始时的转换率相同。 发生了所有该死的时间。

为什么? 因为测试过早调用和/或样本量太小。 这里有一个关于%E4%BD%95%E6%97%B6%E5%81%9C%E6%AD%A2A” b>的更长的解释,但简而言之,您需要满足三个标准才能宣布完成测试:

  1. 足够的样本量。 我们有足够的数据来拨打电话。 您需要使用A” b>预先计算%E6%A0%B7%E6%9C%AC%E9%87%8F“>
  2. 多个销售周期(24周)。 如果您在几天内停止测试(即使在达到所需的样本量后),您将获得一个方便的样本,而不是代表性的样本。
  3. 统计显着性至少为95%(p值为0.05或更小) 。 注意:p值不告诉我们B优于A的概率。 %E5%9C%A8%E8%BF%99%E9%87%8C%E4%BA%86%E8%A7%A3%E6%89%80%E6%9C%89%E5%85%B3%E4%BA%8Ep%E5%80%BC%E7%9A%84%E4%BF%A1%E6%81%AF“>

这是一个很好的例子来说明我的观点。 开始测试两天后,结果如下:

《12 A / B测试我一直看到的错误》

我构建的变化严重损失超过89%(误差范围没有重叠)。 一些工具已经称之为并且说统计显着性为100%。 我使用的软件说Variation 1有0%的机会击败对照。 我的客户准备叫它退出。

但是,由于样本量太小(每次变化只有100多次访问),我坚持不懈。 这是10天后的结果:

《12 A / B测试我一直看到的错误》

没错,具有“0%”击败控制几率的变化现在以95%的置信率获胜。

注意“早点叫它”的A” b> 。总是仔细检查数字。 你能做的最糟糕的事情是对不准确的数据充满信心。 你会赔钱,可能浪费数月的工作。

你需要多大的样本量?

您不希望根据较小的样本量得出结论。 一个好的球场是每个变化至少350-400转换

在某些情况下它可能会更少 – 例如当控制和治疗之间的差异非常大时 – 但不存在幻数。 不要被一个号码困住。 这是科学,而不是魔术。

必须使用像%E8%BF%99%E6%A0%B7%E6%88%96%E7%B1%BB%E4%BC%BC%E7%9A%84%E6%A0%B7%E6%9C%AC%E9%87%8F%E8%AE%A1%E7%AE%97%E5%99%A8%E6%8F%90%E5%89%8D%E8%AE%A1%E7%AE%97%E5%BF%85%E8%A6%81%E7%9A%84%E6%A0%B7%E6%9C%AC%E9%87%8F%E3%80%82″>

如果信心仍低于95%怎么办?

一旦达到必要的样本量并测试完整的商业周期(或两个),就意味着变体之间没有显着差异。

检查跨段的测试结果,以查看是否在特定段中实现了重要性。 很好的见解在于细分,但您还需要为每个细分市场提供足够的样本量

无论如何,您需要改进您的假设并进行新的测试。

2.整周没有运行测试

假设您有一个高流量网站。 您在三天内实现了98%的置信度和每次变化350次转换。 测试完成了吗? 不。

我们需要排除季节性并测试整整一周。 你星期一开始测试了吗? 那么你也需要在星期一结束它。 为什么? 因为您的转化率可能会因星期几而有很大差异。

如果您一次不测试整整一周,那么您的结果就会出现偏差。 在您的网站上运行“ %E6%AF%8F%E5%91%A8%E6%AF%8F%E6%97%A5%E8%BD%AC%E5%8C%96%E6%AC%A1%E6%95%B0%E2%80%9D%E6%8A%A5%E5%91%8A“>

这是一个例子:

《12 A / B测试我一直看到的错误》

你在这看到什么? 星期四比星期六和星期日赚的钱多2倍,星期四的兑换率比星期六好近2倍。

如果我们没有测试整整一周,结果将是不准确的。 您必须一次运行七天的测试。 如果在前七天内没有达到信心,则再运行七天。 如果14天没达到,则运行到第21天。

当然,无论如何,您需要至少运行两周的测试。 (我的个人最低时间是四周,因为两周通常是不准确的。)然后,如果您需要延长,则应用七天规则。

只有当您的历史数据充满信心地表明每一天的转换率相同时,您才能违反此规则。 但即便如此,最好每次测试一整周。

注意外部因素

是圣诞节吗? 您在假日期间的获胜测试可能不是1月份的赢家。 如果您在圣诞节等购物季节获得了测试,那么您肯定希望在购物季结束后进行重复测试。

您是在做很多电视广告还是进行其他大型活动? 这也可能会扭曲你的结果。 您需要了解您的公司正在做什么。 外部因素肯定会影响您的测试结果。 如有疑问,请进行后续测试。

3.在没有足够流量(或转换)的情况下进行A / B测试

如果您每月获得一次或两次销售并进行测试,其中B比A转换15%,您怎么知道? 没有什么变化!

我喜欢A / B分割测试和下一个人一样多,但%E5%A6%82%E6%9E%9C%E6%B5%81%E9%87%8F%E5%BE%88%E5%B0%8F%EF%BC%8C%E9%82%A3%E4%B9%88%E4%BD%A0%E4%B8%8D%E5%BA%94%E8%AF%A5%E4%BD%BF%E7%94%A8%E8%BD%AC%E6%8D%A2%E4%BC%98%E5%8C%96%E3%80%82″>

如果你的测试耗时5个月 – 并且不是胜利者 – 你浪费了很多钱。 相反,你应该进行大规模的激进变革。 只需切换到B.无需测试,只需切换并观看您的银行帐户即可。

这里的想法是你要进行大规模的升降机,比如50%或100%。 您应该立即注意到对您的银行帐户(或来自潜在客户的数量)的影响。 时间就是金钱。 不要浪费它等待需要数月的测试结果。

4.不基于假设进行测试

我喜欢意大利面。 但意大利面条测试 – 将它扔在墙上,看它是否粘住? 没那么多。 测试随机想法需要付出巨大代价。 你在浪费宝贵的时间和流量。 永远不要那样做。 你需要有一个假设。 什么是假设?

假设是基于可以证明或反驳的有限证据而作出的拟议陈述,并用作进一步调查的起点。

这也不应该是“意大利面条假设”(即制作随机陈述)。 您需要进行%E9%80%82%E5%BD%93%E7%9A%84%E8%BD%AC%E6%8D%A2%E7%A0%94%E7%A9%B6%E4%BB%A5%E5%8F%91%E7%8E%B0%E9%97%AE%E9%A2%98%E6%89%80%E5%9C%A8%EF%BC%8C%E7%84%B6%E5%90%8E%E6%8F%90%E5%87%BA%E4%B8%80%E4%B8%AA%E5%85%8B%E6%9C%8D%E8%BF%99%E4%BA%9B%E9%97%AE%E9%A2%98%E7%9A%84%E5%81%87%E8%AE%BE%E3%80%82″>

如果你在没有明确假设的情况下测试A对B,并且B赢了15%,那很好, 但是你学到了什么? 没有。 我们想了解我们的受众。 这有助于我们改进客户理论并提出更好的测试。

5.不将测试数据发送到Google Analytics

平均值是谎言。 永远记住这一点。 如果A击败B 10%,那不是全貌。 您需要分割测试数据。 许多测试工具都具有内置的结果细分,但它仍然无法与您在Google Analytics中执行的操作相匹配。

通过自定义维度或事件,您可以将测试数据发送到Google Analytics并按照您喜欢的方式对其进行细分。 您可以在其上运行高级细分和自定义报告。 它非常有用,它就是你从A / B测试中学到的东西(包括失败和无差异测试)。

底线:始终将您的测试数据发送到Google Analytics。 并将结果中的废话分段。 这是一篇关于%E5%A6%82%E4%BD%95%E5%81%9A%E7%9A%84%E5%B8%96%E5%AD%90%E3%80%82″>

6.在愚蠢的测试中浪费时间和流量

所以你正在测试颜色,对吧? 停止。

%E6%B2%A1%E6%9C%89%E6%9C%80%E5%A5%BD%E7%9A%84%E9%A2%9C%E8%89%B2“>

您没有足够的流量来测试所有内容。 没有人这样做。 在高影响力的东西上使用你的流量。 测试数据驱动的假设。

7.第一次测试失败后放弃

你设置了一个测试,它没能产生升力。 那好吧。 我们试着在另一个页面上运行测试吗?

没那么快! 大多数首次测试失败。 这是真的。 我知道你很不耐烦,我也是,但事实是, 迭代测试就是它所处的位置。 您进行测试,从中学习,并改进您的客户理论和假设。 进行后续测试,从中学习并改进您的假设。 运行后续测试,依此类推。

%E8%BF%99%E6%98%AF%E4%B8%80%E4%B8%AA%E6%A1%88%E4%BE%8B%E7%A0%94%E7%A9%B6%EF%BC%8C%E5%AE%83%E8%8A%B1%E4%BA%86%E5%85%AD%E6%AC%A1%E6%B5%8B%E8%AF%95“>

如果期望第一次测试会将其淘汰出局,那么资金将被浪费,人们将被解雇。 它不一定是这样。 对于每个人来说,这可能是很多钱。 只需运行迭代测试。 这就是钱的所在。

8.未能理解误报

统计意义不是唯一要注意的事项。 你也需要了解误报。 不耐烦的测试人员希望跳过A / B测试并继续进行A / B / C / D / E / F / G / H测试。 是的,现在我们正在谈论!

为何停在那里? 谷歌测试了41%E7%A7%8D%E8%93%9D%E8%89%B2“>

看这个视频。 你会学到一两件事:

主要内容:不要一次测试太多变化。 无论如何最好做简单的A / B测试。 您可以更快地获得结果,并且您将更快地学习 – 更快地改进您的假设。

9.在重叠流量的同时运行多个测试

你已经找到了一种通过同时运行多个测试来偷工减料的方法:一个在产品页面上,一个在购物车页面上,一个在主页上(同时测量相同的目标)。 它节省了时间,对吗?

如果你不小心,这可能会扭曲结果。 它可能没问题,除非:

  • 您怀疑测试之间存在强烈的交互。
  • 测试之间的流量有很大的重叠。

如果可能存在交互和流量重叠,事情会变得棘手。

如果您想同时在同一个流程中测试多个布局的新版本 – 例如在结帐的所有三个步骤上运行测试 – 您可能最好使用多页面实验或多%E5%8F%98%E9%87%8F%E6%B5%8B%E8%AF%95%E6%9D%A5%E6%AD%A3%E7%A1%AE%E6%B5%8B%E9%87%8F%E4%BA%A4%E4%BA%92%E5%92%8C%E5%B1%9E%E6%80%A7%E7%BB%93%E6%9E%9C%E3%80%82″>

如果您决定使用重叠流量运行A / B测试,请记住流量应始终均匀分配。 如果您测试产品页面A对B和结帐页面C.对D,请确保来自B的流量在C和D之间分配50/50(不是,例如,25/75)。

10.忽略小的收益

你的治疗比对照高出4%。 “嗯,这太小了! 我甚至都不愿意实施它,“我听到有人说。

这就是事情。 如果您的网站非常好,那么您将无法一直进行大规模升降机。 事实上,大规模升降机非常罕见。 如果您的网站是垃圾,那么很容易进行一次获得50%升力的测试。 但即使这样也会耗尽。

大多数获胜测试都会带来小幅增长–1%,5%,8%。 有时,1%的提升可能意味着数百万的收入。 这一切都取决于我们正在处理的绝对数字。 但重点是:你需要从12个月的角度来看待它。

一项测试只是一项测试。 你要做很多很多测试。 如果您每月将转化率提高5%,那么12个月内的转化率将提高80%。 这是复利。 这就是数学的工作原理。 百分之八十是很多。

所以继续获得那些小胜利。 它最终都会加起来。

11.不是一直运行测试

没有考试的每一天都是浪费的一天。 测试是学习 – 了解您的受众,了解哪些有效,以及为什么。 您获得的所有洞察力都可用于您的营销(例如PPC广告)。

在测试之前,你不知道什么是有效的。 测试需要时间和流量(很多)。 始终进行一次测试并不意味着您应该进行垃圾测试。 绝对不。 你仍然需要适当的研究,一个很好的假设,等等。

但永远不要停止优化。

12.没有意识到有效性威胁

仅仅因为你有一个不错的样本量,置信度和测试持续时间并不意味着你的测试结果是有效的。 您的测试的有效性存在几个威胁。

仪表效果

这是最常见的问题。 当测试工具(或仪器)在测试中导致有缺陷的数据时。 这通常是由于网站上的错误代码实现,这将扭曲所有结果

你真的要注意这一点。 设置测试时,请观察正在记录的每个目标和指标。 如果度量标准不发送数据(例如“添加到购物车”单击数据),请停止测试,找到并修复问题,然后重新设置数据重新开始。

历史效应

外部世界发生了一些导致测试中存在缺陷数据的事情。 这可能是您的业务或其高管之一的丑闻。 这可能是一个特殊的假日季节(圣诞节,母亲节等)。 也许媒体故事会让人们反对你的测试中的变化。 随你。 注意世界上正在发生的事情。

选择效果

当我们错误地假设流量的某些部分代表流量的总体时,就会发生这种情况。

例如,您将促销流量从电子邮件列表发送到您正在运行测试的页面。 订阅您的列表的人比您的普通访问者更多。 但现在您优化页面以使用忠诚的流量,认为它们代表总流量。 这种情况很少发生!

代码效果破碎

你创造了一种治疗方法并将其推向现实。 但是,它没有赢或没有结果。 您不知道的是,您的治疗方法在某些浏览器和/或设备上显示效果不佳。

无论何时创建一两个新的治疗,请确保进行质量保证测试,以确保它们在所有浏览器和设备中正确显示。 否则,您将根据有缺陷的数据判断您的变化。

结论

有很多很棒的工具可以让测试变得简单,但是他们并没有为你做好准备。 统计数据可能不是大学里你最喜欢的科目,但现在是时候搞清楚了。

从这12个错误中学习。 如果你可以避免它们,你将开始通过测试取得实际进展。

特色图片

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注