bts防弹少年团演唱会

bts防弹少年团演唱会

A / B测试统计:CRO专家易于理解的指南

《A / B测试统计:CRO专家易于理解的指南》

literacy is pretty poor in CRO world.现实检查: CRO世界的统计素养水平相当差。 您的测试结果的主要部分可能无效。

虽然测试工具越来越复杂,但博客充满了“鼓舞人心”的案例研究,而且实验对于营销人员来说变得越来越普遍 – 统计知识仍然严重缺乏。

不要再成为“那些人”中的一员了,一起行动吧。 实际上并没有那么复杂。 如果您不了解基本统计信息,则无法判断%E5%88%86%E5%89%B2%E6%B5%8B%E8%AF%95%E6%98%AF%E5%90%A6%E5%BE%88%E7%B3%9F%E7%B3%95%E3%80%82″>

为什么我需要知道A / B测试统计?

我知道统计数据不一定是一件有趣的事情。 在%E7%BA%A2%E8%89%B2%E5%92%8C%E7%BB%BF%E8%89%B2%E6%8C%89%E9%92%AE%E4%B9%8B%E9%97%B4%E8%BF%9B%E8%A1%8C%E6%B5%8B%E8%AF%95%E5%8F%AF%E8%83%BD%E4%BC%9A%E6%9B%B4%E6%9C%89%E8%B6%A3%EF%BC%8C%E5%B9%B6%E7%AD%89%E5%88%B0%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7%E5%91%8A%E8%AF%89%E4%BD%A0%E5%85%B6%E4%B8%AD%E4%B8%80%E4%B8%AA%E5%87%BB%E8%B4%A5%E4%BA%86%E5%8F%A6%E4%B8%80%E4%B8%AA%E3%80%82″>

如果这是你的策略,你就会失望。

这种方法并不比猜测好多少。 通常情况下,您最终会测试一年的事情,但最终会得到与您开始时完全相同的转换率。

统计数据可以对结果进行推断,并帮助您做出切实可行的业务决策。 缺乏对统计数据的理解可能导致错误和不可靠的结果。

来自Conductrics%E7%9A%84” gershoff>引用他的大学数学教授的话说,“ 如果你不知道牛奶来自哪里,你怎么能制作奶酪?!

这是马特的类比:

《A / B测试统计:CRO专家易于理解的指南》 Matt Gershoff:

“所以,例如,说我有两杯咖啡,我想知道%E5%93%AA%E4%B8%80%E4%B8%AA%E6%9B%B4%E7%83%AD“>

现在,让我们说你想问,“我镇上哪个地方有更热的咖啡,麦当劳或星巴克?”嗯,每个地方都有很多咖啡,所以我要比较一杯咖啡。 任何时候我们必须测量和比较事物的集合,我们需要使用统计数据。“

所以这是转换率。 转换优化也是探索和利用之间的平衡行为。 这是关于平衡风险,这是统计数据解决的基本问题。 来自Testing.Agency%E7%9A%84” wesseling>说:

《A / B测试统计:CRO专家易于理解的指南》 Ton Wesseling:

“在实验中,权衡总是在探索和剥削之间。 你想知道真正的答案,还是只想赚钱?

如果您正在测试可以阻止某人死亡的药物 – 并且A变种没有获得这些药物,那么当您看到变异B正在工作时,何时停止喂食变体A? 考试期间? 经过几次积极的测试? 在你决定给每个人变化B之前,有多少人需要死亡。

当然,经营一家企业并不像示例那样引人注目,但仍然 – 你想要超越你的竞争对手 – 所以你想要学习,但不是完全100%肯定,因为这会让你太慢 – 不能快速调整到用户希望“。

了解统计数据%E5%B0%86%E4%BD%BF%E6%82%A8%E6%88%90%E4%B8%BA%E6%9B%B4%E5%A5%BD%E7%9A%84%E8%90%A5%E9%94%80%E4%BA%BA%E5%91%98” b>主题的空气有望帮助您提高实际转化率和收入。

构建块:均值,方差和采样

在深入研究A / B测试统计数据的细节之前,您应该了解三个术语:

  1. 意思
  2. 方差
  3. 采样

意思

平均值是平均值。 对于转换率,它是事件数乘以成功概率(n * p)。

在我们的咖啡示例中,这将是测量我们采样的每杯咖啡的温度并除以杯子总数的过程,达到平均温度,有望代表实际平均值。

在线实验中,由于我们无法知道“真实”转换率,因此我们测量每种变化的平均转换率。

方差

方差是我们数据的平均可变性。 可变性越高,平均值作为任何单个数据点的预测值的精确度就越低。

平均而言,每个系列中每杯咖啡的平均温度与收集的平均温度相差多远。 换句话说,每个杯子的实际温度的平均值有多近? 方差越小,每个杯子温度的平均值越好。 许多事情都可能导致变化(例如,咖啡杯的制作时间,制作咖啡杯的程度,水的温度等等)。

在转化优化方面,营销实验在此%E5%8D%9A%E5%AE%A2%E6%96%87%E7%AB%A0%E4%B8%AD%E6%8F%90%E4%BE%9B%E4%BA%86%E4%B8%80%E4%B8%AA%E5%BE%88%E5%A5%BD%E7%9A%84%E5%B7%AE%E5%BC%82%E7%A4%BA%E4%BE%8B%EF%BC%9A”>

《A / B测试统计:CRO专家易于理解的指南》
图像来源

上面的两张图片完全相同 – 除了处理后转化率提高了15%。 这是A / A测试。

A” a>通常用于检测您的测试软件是否正常工作,也用于检测网站的自然变异性。 它会在两个相同的页面之间分割流量,如果您发现某个变体之间存在统计上显着的提升,则需要调查原因。

采样

由于我们无法衡量“真实转换率”,因此我们必须选择一个统计上代表整体的样本。

就我们的咖啡测量示例而言,我们不知道每家餐厅的咖啡平均温度。 因此,我们需要收集温度数据以估算平均温度。 因此,与比较单杯咖啡不同,我们不会测量麦当劳和星巴克所有可能的咖啡,我们收集其中的一些并使用推断来估算总量。

我们测量的杯子越多,样品越有可能代表实际温度。 随着样本量的增大,方差会缩小,我们的平均值更可能是准确的。

同样,在转换优化中,样本量越大,通常,您的测试就越准确。

统计意义不是一个停止规则

让我们从一个显而易见的问题开始:什么是统计意义?

埃文米勒写了%E4%B8%80%E7%AF%87%E5%85%B3%E4%BA%8E%E8%BF%99%E4%B8%AA%E4%B8%BB%E9%A2%98%E7%9A%84%E7%9F%A5%E5%90%8D%E5%8D%9A%E5%AE%A2%E6%96%87%E7%AB%A0“>

“当A / B测试仪表板显示”有95%的机会击败原始“或”90%的统计显着性概率“时,它会提出以下问题:假设A和B之间没有潜在的差异,多久会有我们看到的差异就像我们在数据中偶然发生的一样?“

统计显着性是%E9%9B%B6%E5%81%87%E8%AE%BE%E7%BB%9F%E8%AE%A1%E6%A3%80%E9%AA%8C%E4%B8%AD%E7%9A%84%E4%B8%BB%E8%A6%81%E9%87%8F%E8%AF%8D%E3%80%82″>

问题是,如果您没有%E9%A2%84%E5%85%88%E7%A1%AE%E5%AE%9A%E6%B5%8B%E8%AF%95

这是因为大多数A / B测试工具不会等待%E5%9B%BA%E5%AE%9A%E7%9A%84%E6%97%B6%E9%97%B4%E8%8C%83%E5%9B%B4“>

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

这是我们说%E7%BB%9F%E8%AE%A1%E6%84%8F%E4%B9%89%E4%B8%8D%E6%98%AF%E5%81%9C%E6%AD%A2%E8%A7%84%E5%88%99%E7%9A%84%E9%87%8D%E8%A6%81%E5%8E%9F%E5%9B%A0%E4%B9%8B%E4%B8%80%E3%80%82″>

这是我们之前给出的一个例子。 测试开始两天后,结果如下:

《A / B测试统计:CRO专家易于理解的指南》

变化明显失去了吧? 0%几率击败原版似乎非常明确? 没那么快。 有统计学意义? 是的,但是10天后查看结果:

《A / B测试统计:CRO专家易于理解的指南》

这就是为什么你不应该偷看结果。 你对结果的了解越多,你就越有可能冒着α错误通胀的风险( %E5%9C%A8%E8%BF%99%E9%87%8C%E9%98%85%E8%AF%BB“>

还要知道,当您阅读声称具有统计意义但未发布完整数字的案例研究时,您应该保持警惕。 其中许多可能具有统计意义,但只有少量转换,样本大小为100。

什么是P值?

如果你做一些关于统计显着性的后续阅读,你可能会遇到“P值”这个词。 P值基​​本上是%E9%92%88%E5%AF%B9%E9%9B%B6%E5%81%87%E8%AE%BE” b matt gershoff>

《A / B测试统计:CRO专家易于理解的指南》 Matt Gershoff:

“如果我们出去提供50个潜在客户的’Analytics200’促销活动,我们平均会期望有5个会议注册。 但是,如果我们看到更少或更少的几个,我们就不会感到惊讶。

但是有几个呢? 如果我们看到4,我们会感到惊讶吗? 那么10,或25,还是零呢? 事实证明,P值回答了这个问题,这个结果有多令人惊讶?“

形式上,p值是从零开始看特定结果(或更大)的概率,假设零假设为真。 如果’零假设是真的’是欺骗你,那就改为思考,假设我们真的进行了A / A’测试。

如果我们的测试统计数据处于惊喜区域,我们拒绝Null(拒绝它实际上是A / A测试)。 如果结果在Not Surprising区域内,那么我们将无法拒绝null。 而已。

你真正需要了解的P值

记住这一点:P值并没有告诉我们B比A更好的概率。

同样地,它没有告诉我们我们在选择性B中犯A错误的可能性。这些都是非常普遍的误解,但它们都是错误的。

请记住,只要零假设为真,p值就是看到结果或更极端的概率。 或者,“结果多么令人惊讶?”

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

小记:科学界对P值的%E4%BA%89%E8%AE%BA%E5%BE%88%E5%A4%A7” gershoff> 。

统计力量:检测实际存在的影响

虽然统计意义是你经常听到的术语,但许多人忘记了统计能力。 如果重要性是在不存在时看到效果的概率,则功率是在实际存在的情况下看到效果的概率。

因此,当您的功率水平较低时,会有一个很大的变化,即真正的赢家无法识别。 埃文·米勒(Evan Miller) %E6%B1%87%E6%80%BB%E4%BA%86%E4%B8%80%E5%BC%A0%E8%A7%A3%E9%87%8A%E5%B7%AE%E5%BC%82

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

%E6%95%88%E6%9E%9C%E5%A4%A7%E5%B0%8F%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E8%A7%A3%E7%AD%94%E7%94%A8%E7%AE%80%E5%8D%95%E7%9A%84%E8%8B%B1%E8%AF%AD%E5%BE%88%E5%A5%BD%E5%9C%B0

“统计功效是研究在检测到效应时检测效应的可能性。 如果统计功率很高,那么产生第二类错误的可能性,或者在实际存在第二类错误的情况下结束就没有效果。

那么你如何计算统计能力呢? 您可以%E9%98%85%E8%AF%BB%E8%BF%99%E7%AF%87%E6%96%87%E7%AB%A0“>

  1. 效果大小
  2. 样本量(N)
  3. α重要性标准(α)
  4. 统计功效,或选择或暗示的β(β)

但是,出于实际目的,您真正需要知道的是80%的功率是测试工具的标准。 要达到这样的水平,您需要大样本大小,大效果大小或更长持续时间的测试。

听听Ton” wesseling> of Testing.Agency%E7%9A%84%E5%BB%BA%E8%AE%AE%EF%BC%9A”>

《A / B测试统计:CRO专家易于理解的指南》 Ton Wesseling:

“你想尽可能长时间测试 – 至少1个购买周期 – 数据越多,测试的统计功效越高! 更多流量意味着您有更高的机会在您的测试的重要性级别上识别您的获胜者!

因为……微小的变化可以产生很大的影响,但是大的影响不会经常发生 – 大多数情况下,你的变化稍微好一些 – 所以你需要很多数据才能注意到一个重要的赢家。

小注意:如果您的测试持续时间过长,则存在样品污染的风险。 %E9%98%85%E8%AF%BB%E8%BF%99%E7%AF%87%E6%96%87%E7%AB%A0%E4%BA%86%E8%A7%A3%E6%9B%B4%E5%A4%9A%E4%BF%A1%E6%81%AF“>

置信区间和误差范围

接下来在我们的统计术语列表中,您应该注意的是置信区间。 这些是什么? %E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4%E6%98%AFA” b> – 估计可靠性的度量。 PRWD%E7%9A%84%E4%BE%8B%E5%AD%90“>

《A / B测试统计:CRO专家易于理解的指南》
图像来源

当然,我们%E6%97%A0%E6%B3%95%E8%A1%A1%E9%87%8F%E7%9C%9F%E6%AD%A3%E7%9A%84%E8%BD%AC%E6%8D%A2%E7%8E%87” y>

这里的一个实际意义是,您应该观察置信区间是否重叠。 以下是Michael Aagaard的说法

“因此,转换范围可以描述为您愿意接受的误差范围。 转换范围越小 – 结果越准确。 根据经验 – 如果2个转换范围重叠,您需要继续测试才能获得有效的结果。“

John Quarto-vonTivadar有一个%E5%BE%88%E5%A5%BD%E7%9A%84%E8%A7%86%E8%A7%89%E8%A7%A3%E9%87%8A%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4“>

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

收集更多数据时,置信区间会缩小,但在某一时刻,它们会受到收益递减规律的制约。

《A / B测试统计:CRO专家易于理解的指南》

从右到左阅读,随着我们增加样本的大小,我们的抽样误差会下降。 然而,它下降的速度 – 这意味着我们从样本的每次添加中获得的信息越来越少。

现在,如果您要对该主题进行进一步研究,您可能会对%E6%9C%AF%E8%AF%AD%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4%E5%92%8C%E8%AF%AF%E5%B7%AE%E8%8C%83%E5%9B%B4%E7%9A%84

Matt Gershoff给出了一个说明性的例子:

《A / B测试统计:CRO专家易于理解的指南》 Matt Gershoff:

“说你的朋友将来Round Rock参观你,并在下午5点服用TX-1。 她想知道应该花多长时间。 你说我有95%的信心,你需要大约60分钟加减20分钟。 因此,您的误差幅度为20分钟或33%。

如果她是在上午11点来,你可能会说“你需要40分钟,加上或减去10分钟”,所以误差范围是10分钟,即25%。 因此,虽然两者都处于95%的置信水平,但误差幅度不同。“

回归均值

第一次开始测试时可能遇到的一个常见问题是,“测试开始时波动的原因是什么?”这就是我的意思:

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

这里发生的是对均值的回归。 从本质上讲,平均值的回归定义为“如果变量在其第一次测量中是极端的,则在第二次测量时趋向于更接近平均值的现象。”

一个很好的%E4%BE%8B%E5%AD%90%E6%9D%A5%E8%87%AA%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91“>

想象一下,你给一类学生一个关于一个主题的100项真/假测试。 假设所有学生随机选择他们的所有答案。 然后,每个学生的分数将是独立和相同分布的随机变量的实现,预期平均值为50.当然,一些学生将得分远高于50而远低于50。

因此,假设您只接受前10%的学生并给他们第二次测试,他们再次在所有问题上随机猜测。 由于预计平均值仍将接近50,因此预计学生的分数将回落到均值 – 他们的分数会下降并接近平均值。

A” b> ,它可能由于各种原因而发生。 这是Andre Morys的一个很好的例子,摘自今年早些时候他在Conversion Jam的演讲:

[…]“/>

02:05

从本质上讲,如果你提前做一个测试,只是基于达到重要性,你可能会看到一个误报。 而且你的’胜利者’很可能会退回到平均水平。

互联网总是让人感到困惑的东西被称为%E6%96%B0%E5%A5%87%E6%95%88%E5%BA%94“>

Adobe%E6%A6%82%E8%BF%B0%E4%BA%86%E4%B8%80%E7%A7%8D%E5%8C%BA%E5%88%86%E6%96%B0%E9%A2%96%E6%95%88%E6%9E%9C%E4%B8%8E%E5%AE%9E%E9%99%85%E5%8A%A3%E5%8A%BF%E4%B9%8B%E9%97%B4%E5%B7%AE%E5%BC%82

要确定新优惠是否由于新颖效果而表现不佳,或者因为它确实较低,您可以将访问者细分为新访者和回访者,并比较转化率。 如果它只是新奇效果,新的优惠将赢得新的访客。 最终,随着回访者习惯于新的变化,优惠也将与他们一起赢得。

您需要了解的有关细分的内容

在A / B测试中学习的关键是分段。 即使B在整体结果中可能输给A,B在某些领域(有机,Facebook,移动等)可能会击败A. 对于细分,适用相同的停止规则。

确保您在细分受众群中也有足够的样本量(提前计算,如果在您正在查看的那一段中,每次变化的转化率低于250-350,请小心)。

正如Web Arts的Andre Morys %E5%9C%A8%E4%B9%8B%E5%89%8D%E7%9A%84%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E4%B8%AD%E6%89%80%E8%AF%B4%EF%BC%8C%E5%9C%A8%E6%B2%A1%E6%9C%89%E7%BB%9F%E8%AE%A1%E6%9C%89%E6%95%88%E6%80%A7%E7%9A%84%E7%BB%86%E5%88%86%E5%B8%82%E5%9C%BA%E4%B8%AD%E6%90%9C%E7%B4%A2%E5%8D%87%E9%99%8D%E6%9C%BA%E6%98%AF%E4%B8%80%E4%B8%AA%E5%BE%88%E5%A4%A7%E7%9A%84%E9%94%99%E8%AF%AF%EF%BC%9A”>

《A / B测试统计:CRO专家易于理解的指南》 网络艺术的安德烈莫里斯

“我们刚刚在夏季销售阶段对一家大型时装零售商进行了测试。 看到结果在70%以上的“硬销售阶段”中结果大幅下降是非常有趣的 – 但是在阶段结束后的一周内它恢复了。 如果测试没有运行近4周,我们就永远不会学到这一点。

我们的“经验法则”是:每次变化3000-4000次转换,3-4周测试持续时间。 这是足够的流量,所以如果我们深入细分,我们甚至可以谈论有效的数据。

→测试“罪”否1:虽然你没有统计效度,但是在段内寻找提升 – 例如85 vs 97转换 – 这就是废话。

您可以从分割测试数据中学到很多东西,但要确保将相同的统计规则应用于较小的数据集。

混淆变量和外部因素

运行A / B测试存在挑战:数据是非静态的。

《A / B测试统计:CRO专家易于理解的指南》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

换句话说,静止时间序列是其统计特性(均值,方差,自相关等)随时间恒定的时间序列。 由于许多原因,网站数据是非平稳的,这意味着我们无法做出与固定数据相同的假设。 以下是数据可能波动的几个原因:

  • 季节
  • 一周中的天
  • 假期
  • 按(正面或负面)
  • PPC / SEM
  • SEO
  • 字的口碑

还有更多,但这里有一个实际的例子,为什么它必须测试整整几周。

测试整周

在您的网站上运行%E6%AF%8F%E5%91%A8%E4%B8%80%E5%A4%A9%E7%9A%84%E8%BD%AC%E5%8C%96%E6%8A%A5%E5%91%8A“>

《A / B测试统计:CRO专家易于理解的指南》

你可以看到周六的转换率远低于周四的转换率。 因此,如果您在星期五开始测试并在星期日结束,那么您的结果就会出现偏差。

假期和促销活动

如果您在圣诞节期间进行测试,那么在2月份到来之前,您的获胜测试可能不会成为赢家。 同样,这是另一种非平稳的网络数据产品。 修复? 如果您有超过假期的测试,请在购物季结束后对它们进行重复测试。 促销同样如此。

事实上,您必须了解可能影响测试的所有外部因素。 它们肯定会影响您的测试结果,因此如有疑问,请进行后续测试。 (或者参考%E5%9C%9F%E5%8C%AA%E6%B5%8B%E8%AF%95%E8%BF%9B%E8%A1%8C%E7%AE%80%E7%9F%AD%E7%9A%84%E4%BF%83%E9%94%80%E6%B4%BB%E5%8A%A8%E3%80%82%EF%BC%89″>

结论

学习基础A / B测试统计数据可以避免愚蠢的错误。 值得学习相关的实用信息来为您的决策提供信息。

至于上述的实际意义,这里有一些测试启发式:

  • 测试整整一周。
  • 测试两个业务周期。
  • 确保您的样本量足够大(在开始测试之前使用计算器)。
  • 请记住混淆变量和外部因素(假期等)
  • 在运行测试之前,为测试设置固定的范围和样本大小。
  • 你不能’看到趋势’,回归意味着会发生。 等到测试结束才能调用它。

AB测试电子书

下载我们关于掌握A / B测试的指南。

  • 此字段用于验证目的,应保持不变。

相关文章

  • A / B测试非常有用,这里毫无疑问。 但很多企业不应该……

  • 如果你想要……有一个经过深思熟虑的A / B测试Facebook广告活动的计划是必不可少的

  • 有时A / B测试看起来像是一个可以解决所有问题的神奇工具……

  • 即使是经过精心设计的测试概念的A / B测试也可能导致不显着的结果和错误的解释。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注